邊策 金磊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
河邊有個(gè)AI攝像頭可以檢測(cè)偷排污水,能不能順手讓它幫個(gè)忙,有人掉河里時(shí)也發(fā)個(gè)警告?
很難。
這要求有更通用的智能,因?yàn)閷?duì)AI來(lái)說(shuō)這是兩個(gè)完全不同的任務(wù)。況且,可用的數(shù)據(jù)很少。
得有大量人掉河里的數(shù)據(jù)。可惜素材并不好找。難道讓程序員親自“跳進(jìn)污水河”來(lái)構(gòu)建一個(gè)數(shù)據(jù)集?
一個(gè)看似簡(jiǎn)單的附加小需求,實(shí)則很難且成本很高。
而這就是當(dāng)下要突破的 核心瓶頸:
具備零樣本和少樣本學(xué)習(xí)能力的全能AI勢(shì)在必行。
自然語(yǔ)言領(lǐng)域首先邁出了第一步,GPT-3讓我們看到在海量數(shù)據(jù)下AI舉一反三的能力。
現(xiàn)在計(jì)算機(jī)視覺(jué)領(lǐng)域也迎來(lái)了一次“變天”。
繼通用語(yǔ)言模型的巨大成功之后,在“大力出奇跡”這件事情上,搞計(jì)算機(jī)視覺(jué)的也邁出了這樣的 重要一步。
上海人工智能實(shí)驗(yàn)室聯(lián)合商湯科技、香港中文大學(xué)、上海交通大學(xué)共同發(fā)布了通用視覺(jué)模型(General Vision Model) “書(shū)生”(INTERN)。
這位“書(shū)生”的學(xué)習(xí)效率有多高呢?
據(jù)透露,只要“書(shū)生”看過(guò)每種花的一兩個(gè)樣本,就能實(shí)現(xiàn) 99.7%的花卉分類準(zhǔn)確率。
背負(fù)猜想能力“書(shū)生”
從通用視覺(jué)技術(shù)體系的名字來(lái)看,團(tuán)隊(duì)將其命名為“書(shū)生”背后有著這樣的一個(gè)希冀:
可通過(guò)持續(xù)學(xué)習(xí),舉一反三,逐步實(shí)現(xiàn)計(jì)算機(jī)視覺(jué)領(lǐng)域的融會(huì)貫通,最終實(shí)現(xiàn)靈活高效的模型部署。
而現(xiàn)實(shí)情況是,過(guò)去的CV領(lǐng)域?qū)I模型的研究多集中于處理單一任務(wù)上。
但是隨著AI技術(shù)在產(chǎn)業(yè)中的不斷深化,AI的應(yīng)用也在向復(fù)雜的多任務(wù)協(xié)同演進(jìn)。
無(wú)論如何,這都是單一視覺(jué)模型無(wú)法完成的。
同時(shí)AI模型還有很多無(wú)法顧及的長(zhǎng)尾、碎片場(chǎng)景。
舉個(gè)例子:
某工廠生產(chǎn)線引入AI質(zhì)量檢測(cè)技術(shù),希望用攝像頭代替肉眼檢測(cè)次品。但是如果產(chǎn)線的良品率非常高,那么只有極少數(shù)次品。
我們都知道,一般AI模型在數(shù)據(jù)不足的情況下,會(huì)導(dǎo)致訓(xùn)練不足,錯(cuò)誤率高。在這種情況下,AI模型很難達(dá)到很難部署到產(chǎn)線上。
過(guò)去的做法是開(kāi)發(fā)特定模型用于不同這類特殊碎場(chǎng)景,AI的應(yīng)用成了專家才能參與的“作坊式”開(kāi)發(fā)。
如果有一個(gè)通用AI模型,只需針對(duì)不同環(huán)境做微調(diào),就能立即適應(yīng),便可以擺脫“作坊式”開(kāi)發(fā)的低效率模式。
通用視覺(jué)模型“書(shū)生”應(yīng)運(yùn)而生,它已經(jīng)在訓(xùn)練階段“吃進(jìn)”大量 數(shù)據(jù)成為通才,只需要看到少量樣本,就具備了“舉一反三”的能力。
在自動(dòng)駕駛、智能制造、智慧城市中還有很多類似的“長(zhǎng)尾”場(chǎng)景,它們的共同點(diǎn)都是數(shù)據(jù)獲取通常困難且昂貴。
通用視覺(jué)“書(shū)生”為打破了AI在以上場(chǎng)景中應(yīng)用提供了可能。
而且從實(shí)驗(yàn)結(jié)果來(lái)看,“書(shū)生”的路數(shù)也在印證這種方式的正確性。
它能夠同時(shí)解決圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割、深度估計(jì)四大任務(wù),而且做到樣樣精通。
例如與當(dāng)今最強(qiáng)的開(kāi)源通用模型CLIP相比,在CV領(lǐng)域的四大任務(wù)26個(gè)數(shù)據(jù)集上,“書(shū)生”的平均錯(cuò)誤率分別降低了40.2%、47.3%、34.8%和9.4%。
和CLIP一樣,“書(shū)生”也需要強(qiáng)大算力作為支撐, SenseCore商湯AI大裝置恰好派上用場(chǎng)。
今年商湯宣布在上海臨港的 AIDC投入運(yùn)營(yíng),這是目前亞洲最大的人工智能算力中心,僅僅是商湯AI大裝置的一部分。
在商湯CEO徐立看來(lái),AI大裝置是推動(dòng)機(jī)器猜想的一個(gè)基礎(chǔ)要素。那么“書(shū)生”則是在此基礎(chǔ)上背負(fù)商湯“猜想”能力的具體實(shí)現(xiàn)。
通才“書(shū)生”是怎么煉成的?
整體而言,“書(shū)生”這個(gè)視覺(jué)通用體系包含 七大模塊——三個(gè)基礎(chǔ)設(shè)施模塊和四個(gè)訓(xùn)練階段模塊。
其中,三個(gè)基礎(chǔ)設(shè)施模塊分別為:
通用視覺(jué)數(shù)據(jù)系統(tǒng)通用視覺(jué)網(wǎng)絡(luò)結(jié)構(gòu)通用視覺(jué)評(píng)測(cè)基準(zhǔn)它們?nèi)齻€(gè)就像是“藏經(jīng)閣”一樣,奠定了在通往通才道路上海量知識(shí)和建模等能力的基礎(chǔ)。
例如 通用視覺(jué)數(shù)據(jù)系統(tǒng)就包含了一個(gè)超大規(guī)模視覺(jué)數(shù)據(jù)集,擁有 100億個(gè)樣本和各種監(jiān)督信號(hào)。
它還提出了一個(gè)廣泛的標(biāo)簽系統(tǒng),包括 11.9萬(wàn)個(gè)視覺(jué)概念,可以說(shuō)是涵蓋了自然界的眾多領(lǐng)域和目前計(jì)算機(jī)視覺(jué)研究中的幾乎所有標(biāo)簽。
通用視覺(jué)網(wǎng)絡(luò)結(jié)構(gòu),則提供了強(qiáng)悍的建模能力。
具體而言,它是由一個(gè)具有卷積和Transformer運(yùn)算符的統(tǒng)一搜索空間構(gòu)建而成。
通用視覺(jué)評(píng)測(cè)基準(zhǔn)就像是一個(gè)“擂臺(tái)”,收集了4種類型共26個(gè)下游任務(wù)。
在此基礎(chǔ)上,讓“書(shū)生”產(chǎn)生的模型和已公布的預(yù)訓(xùn)練模型同臺(tái)競(jìng)技。
并且這個(gè)“擂臺(tái)”還引入了百分比樣本 (percentage-shot)的設(shè)置,如此一來(lái),下游任務(wù)訓(xùn)練數(shù)據(jù)被壓縮的同時(shí),還可以很好地保留原始數(shù)據(jù)集的長(zhǎng)尾分布等屬性。
但也正如剛才提到的,除了基礎(chǔ)設(shè)施模塊之外,“書(shū)生”還有四個(gè)訓(xùn)練階段模塊。
而這條路徑所采取的是一種 階梯式學(xué)習(xí)的方法。
其中,前三個(gè)訓(xùn)練階段是屬于技術(shù)鏈條的 上游,主要的發(fā)力點(diǎn)是在 表征通用性方面。
它們分別叫做基礎(chǔ)模型 (Amateur)、專家模型 (Expert)和通才模型 (Generalist)。
在 基礎(chǔ)模型階段,如其名,要做的事情就是讓“書(shū)生”打下廣泛且良好的基礎(chǔ)。
具體而言,它是一個(gè)獲取基礎(chǔ)模型的多模態(tài)預(yù)訓(xùn)練階段,也就是同時(shí)使用來(lái)自圖像-文本、圖像-圖像和文本-文本對(duì)的監(jiān)督信號(hào)來(lái)訓(xùn)練任務(wù),并診斷模型。
而在基礎(chǔ)模型階段“歷練”后得到的輸出,將作為下一階段,即 專家模型的初始化輸入。
專家模型要培養(yǎng)的是“書(shū)生”的專家能力,也就是讓多個(gè)專家模型各自學(xué)習(xí)某一領(lǐng)域的專業(yè)知識(shí)。
主要是通過(guò)多源監(jiān)督 (multi-source supervisions)的方式,來(lái)積累某個(gè)類型任務(wù)中的專業(yè)知識(shí)。
值得一提的是,在這個(gè)過(guò)程中每位專家只關(guān)注自己的專業(yè),不干擾“其他人”的學(xué)習(xí)。
上游的第三個(gè)階段,便是 通才模型。
它是一個(gè)組合式的預(yù)訓(xùn)練階段,這個(gè)階段的結(jié)果就是產(chǎn)出一個(gè)通用模型。
這個(gè)模型整合了專家的知識(shí),并生成能夠處理任何已知或未知任務(wù)通用表示的最終形式。
在經(jīng)歷了前三個(gè)訓(xùn)練階段模塊后,便來(lái)到了最后的 泛化模型(Adaptation)。
這個(gè)階段屬于技術(shù)鏈條的下游,用來(lái)解決各式各樣不同類型的任務(wù)。
而這也是最考驗(yàn)“書(shū)生”舉一反三能力的時(shí)刻。
換言之,它需要在這個(gè)階段把之前學(xué)到的通用知識(shí),融會(huì)貫通地應(yīng)用到特定的不同任務(wù)中去。
以上便是“書(shū)生”這個(gè)通用視覺(jué)技術(shù)體系完整的一套流程,它的全景如下圖所示:
總而言之,在“書(shū)生”煉成之后,便是有了一種“兵來(lái)將擋”的味道了。
無(wú)論是面對(duì)智慧城市、智慧醫(yī)療、自動(dòng)駕駛,亦或是未知領(lǐng)域,“書(shū)生”都能以專家的實(shí)力來(lái)迎刃而解。
像“書(shū)生”這樣實(shí)現(xiàn)以一個(gè)模型完成成百上千種任務(wù)的新范式,體系化解決人工智能發(fā)展中數(shù)據(jù)、泛化、認(rèn)知和安全等諸多瓶頸問(wèn)題。
而這只是“書(shū)生”在 算法層面上的煉就功法,但對(duì)于大模型來(lái)說(shuō), 算力也是非常重要且必要的硬性要求。
這就不得提到商湯早在數(shù)月前發(fā)布的 SenseCore AI大裝置。
它可以說(shuō)是商湯引擎的底層架構(gòu)了,可以類比為整個(gè)引擎夯實(shí)有力的地基。
具體而言,先從 算力角度來(lái)看,商湯通過(guò)結(jié)合AI芯片以及AI傳感器,構(gòu)建了亞洲最大的人工智能智算中心(AIDC)。
這個(gè)AIDC的計(jì)算峰值可以達(dá)到 3740Petaflops(1 petaflop等于每秒1千萬(wàn)億次浮點(diǎn)運(yùn)算),相當(dāng)于一天處理時(shí)長(zhǎng)達(dá)到23600萬(wàn)年!
除此之外,從 平臺(tái)角度來(lái)看,AI大裝置打通了從數(shù)據(jù)處理、模型生產(chǎn)、模型訓(xùn)練、高性能推理運(yùn)算,以及模型部署等等各個(gè)環(huán)節(jié)。
而且不同于其它廠商采用開(kāi)源工具,商湯這“一整套”都是自研的,具備更強(qiáng)的適配性,更利于模型的部署和應(yīng)用。
如此一來(lái),在算法、算力、平臺(tái)“三位一體”之下,便可明顯區(qū)別于“小作坊式”的模型打造方式了。
但畢竟常言道 學(xué)無(wú)止境,那么已經(jīng)具備如此實(shí)力的“書(shū)生”,還能通過(guò)怎樣的方式來(lái)提高自己呢?
“書(shū)生”還要加碼開(kāi)源的力量
從人工智能技術(shù)發(fā)展的歷史長(zhǎng)河來(lái)看,多數(shù)主流AI工具都具備一個(gè)共性—— 開(kāi)源。
開(kāi)源的力量可以說(shuō)是不言而喻了,越開(kāi)放、越分享,就會(huì)越發(fā)讓AI工具具備活力。
而這,也是“書(shū)生”要做的一件事情:
基于“書(shū)生”的通用視覺(jué)開(kāi)源平臺(tái) OpenGVLab也將在 明年年初正式開(kāi)源。
更具體的,上海人工智能實(shí)驗(yàn)室聯(lián)合商湯要將向?qū)W術(shù)界和產(chǎn)業(yè)界公開(kāi)的不僅僅是預(yù)訓(xùn)練模型,還包括它的使用范式、數(shù)據(jù)系統(tǒng)和評(píng)測(cè)基準(zhǔn)等。
但“書(shū)生”的開(kāi)源布局圖還不止于自身。
OpenGVLab將與上海人工智能實(shí)驗(yàn)室此前發(fā)布的 OpenMMLab、 OpenDILab一道,共同構(gòu)筑開(kāi)源體系 OpenXLab。
其背后所要實(shí)現(xiàn)的目的,就如商湯所說(shuō)的,持續(xù)推進(jìn)通用人工智能的技術(shù)突破和生態(tài)構(gòu)建。
從涉足領(lǐng)域來(lái)看,這個(gè)生態(tài)里,應(yīng)該包括了智慧城市、智慧醫(yī)療,也包括了自動(dòng)駕駛和智能交通……
開(kāi)源的“書(shū)生”,仗劍變革,前景廣闊。
論文地址:
https://arxiv.org/abs/2111.08687
— 完—
本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。
「智能汽車」交流群招募中!
歡迎關(guān)注智能汽車、自動(dòng)駕駛的小伙伴們加入社群,與行業(yè)大咖交流、切磋,不錯(cuò)過(guò)智能汽車行業(yè)發(fā)展&技術(shù)進(jìn)展。
ps.加好友請(qǐng)務(wù)必備注您的姓名-公司-職位哦~
點(diǎn)這里
文章來(lái)源于網(wǎng)絡(luò),所有權(quán)歸原作者所有,大道家園只作為存儲(chǔ)空間,如有侵權(quán)請(qǐng)聯(lián)系我們進(jìn)行刪除。
本文地址:http://www.mcys1996.com/guoxue/127513.html.
聲明: 我們致力于保護(hù)作者版權(quán),注重分享,被刊用文章因無(wú)法核實(shí)真實(shí)出處,未能及時(shí)與作者取得聯(lián)系,或有版權(quán)異議的,請(qǐng)聯(lián)系管理員,我們會(huì)立即處理,本站部分文字與圖片資源來(lái)自于網(wǎng)絡(luò),轉(zhuǎn)載是出于傳遞更多信息之目的,若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)立即通知我們(管理員郵箱:douchuanxin@foxmail.com),情況屬實(shí),我們會(huì)第一時(shí)間予以刪除,并同時(shí)向您表示歉意,謝謝!