智東西(公眾號:zhidxcom)
編譯 | 陳駿達
編輯 | 李水青

智東西9月15日(ri)報道,昨日(ri),谷歌DeepMind的(de)AI應(ying)用(yong)Gemini憑借其圖像編輯模型“Nano Banana”的(de)病毒式傳播(bo),在美區蘋果App Store免費應(ying)用(yong)榜(bang)中取代ChatGPT,強勢登頂(ding),成(cheng)為該區域最受(shou)歡迎的(de)應(ying)用(yong)之一。

諾獎得主、谷歌AI掌門人潑冷水:所謂“博士級智能”純屬無稽之談

近日,這場現象級的爆火背后的締造者——2024年諾貝爾化學獎得主、谷歌DeepMind創始人兼CEO Demis Hassabis,在All-in峰會上進行了一場深度分享,系統闡釋了從爆款產品到AGI未來的宏大議題,內容橫跨世界模型、機器人、AGI定義、科學智能、創作的未來和能源等多個前沿維度。

Hassabis將谷歌DeepMind定位為驅動谷歌(ge)的“AI引擎室”,Gemini、Genie、Veo等模型,都在深度融入谷歌的現有產品。其中,Genie 3世界模型正通過“逆向工程”學習物理規律,未來可能會推動機器人技術革命。谷歌還在Gemini的基礎上打造機器人模型,有望形成“機器人安卓(zhuo)系統”這樣的通用平臺。

對于業界熱議的AGI前景,Hassabis給出了冷靜判斷,直言當前(qian)部(bu)分競爭對手所(suo)謂的“博士級(ji)智能(neng)”是(shi)“無稽(ji)之(zhi)談”(nonsense)。雖(sui)然并未指(zhi)名道(dao)姓,但相關(guan)表述很有可能(neng)指(zhi)的是OpenAI聯合(he)創始人兼CEO Sam Altman對(dui)GPT-5能(neng)力達到“博士級智(zhi)能(neng)”的爭議表述。

諾獎得主、谷歌AI掌門人潑冷水:所謂“博士級智能”純屬無稽之談

▲Demis Hassabis(右)接受采訪(圖源:Youtube)

Hassabis認為,目前AI系統最大的缺陷,就是無法提出真正有創造性的觀點。要實現AGI系統,我們仍需等待1-2個關鍵技術突破的出現他還透露,其領導的AI藥物發現公司Isomorphic進展迅速,預計明年進入臨床前研究,旨在將新(xin)藥研發周(zhou)期從數年縮短至數周(zhou)。

自上世紀90年代起,Hassabis就一直在從事AI相關研究,尤其對科學智能(AI for Science)有深厚的興趣。他認為,AGI有望成為科學探索的終極工具,其實現意味著科學黃金時代的到來,有(you)望開啟(qi)又一場文藝復(fu)興。

以下是(shi)Hassabis在All-in峰會上采訪的(de)實(shi)錄:

一、諾獎公布前10分鐘才知曉,DeepMind已成谷歌“引擎室”

主持人:首先恭喜你獲得諾貝爾獎。關于AlphaFold這一重大突破,大家都很想聽聽你得知獲獎時的情景。當時你在哪里?是怎么得知的?

Demis Hassabis:那是(shi)(shi)(shi)一個(ge)非常超現實(shi)的(de)(de)時刻。整(zheng)個(ge)過程都很不真實(shi)。他們(men)通知(zhi)的(de)(de)方式是(shi)(shi)(shi),在消息對外公(gong)布前大約(yue)十分鐘打電(dian)話(hua)給你(ni)。當你(ni)接到來(lai)自瑞典的(de)(de)電(dian)話(hua)時,整(zheng)個(ge)人(ren)都懵(meng)了。這是(shi)(shi)(shi)每個(ge)科學家(jia)夢寐以求(qiu)的(de)(de)電(dian)話(hua)。

之后就是(shi)在瑞典與王(wang)室共(gong)度的(de)一整周(zhou)頒獎典禮,非常(chang)神奇。最令人(ren)震撼(han)的(de)部分是(shi),他們會從保險庫里(li)拿出諾貝爾獎簽名(ming)簿,你可(ke)以(yi)在那上面簽下自(zi)己的(de)名(ming)字,和所有(you)偉大(da)人(ren)物并列。

翻(fan)閱那(nei)些頁面時,你(ni)會看到費曼(man)、居(ju)里(li)夫(fu)人、愛因(yin)斯坦、玻爾的名字,然后(hou)你(ni)也把自己的名字寫進那(nei)本書(shu)里(li)。這真是難以置信的時刻(ke)。

主持人:你之前有沒有想過自己可能會獲獎?

Demis Hassabis:外(wai)界會有一些傳聞,但(dan)令人驚訝的(de)是,即便(bian)在當今時代,諾獎評選(xuan)方依然(ran)能把消息保密(mi)(mi)得如此嚴密(mi)(mi)。這個獎對瑞典來說就像是國寶。

會有人說(shuo)AlphaFold這(zhe)種成果足以(yi)配得上諾獎(jiang)的認可。但諾貝爾獎(jiang)不僅看重科學突破(po),也(ye)重視對現實世(shi)界的影響,而這(zhe)種影響往往需要(yao)二三十(shi)年才能完全顯現。即使(shi)聽到風(feng)聲,也(ye)無法(fa)預料會不會真的發生。對我來說(shuo)是一個驚喜。

主持人:那我們來聊聊DeepMind。在Alphabet內部,DeepMind是什么定位?具體負責什么?

Demis Hassabis:我(wo)們現在稱之為谷(gu)(gu)歌(ge)DeepMind。幾年前(qian)我(wo)們把谷(gu)(gu)歌(ge)和Alphabet內部所有的AI研究(jiu)合并到一起,包括谷(gu)(gu)歌(ge)DeepMind。各團隊的優(you)勢匯集成了一個(ge)部門。

如(ru)今谷(gu)歌DeepMind是整(zheng)個(ge)谷(gu)歌和(he)Alphabet的“引擎室”。DeepMind打造的主力模(mo)型Gemini,以及其他許多模(mo)型,包括視頻模(mo)型、交互式世界(jie)模(mo)型等,都(dou)已(yi)經融(rong)入(ru)到谷(gu)歌各個(ge)產品中。

幾乎每(mei)一項產品、每(mei)一個服(fu)務(wu)領域(yu)都有我們的AI模型(xing)。如(ru)今已(yi)有數(shu)十(shi)億人通過AI概覽(lan)、AI模式、Gemini應(ying)用等使(shi)用Gemini模型(xing)。

而這僅僅是(shi)(shi)開始,我們還把它(ta)整合(he)進Workspace、Gmail等等。這對(dui)我們來(lai)說(shuo)是(shi)(shi)絕佳機會——既能做前沿研(yan)究,又能立刻將(jiang)成果推(tui)送給數十億用戶(hu)。

主持人:你們的團隊規模有多大?人員構成是怎樣的?

Demis Hassabis:大約有5000人,其中80%以上(shang)是工程師(shi)和博士(shi)研究員。

二、Genie靠逆向工程學會物理規律,最終可推動機器人技術發展

主持人:模型在不斷演進,新模型層出不窮。前幾天你們發布了Genie 3世界模型。能給大家介紹一下嗎?

Demis Hassabis:這些畫面都是可互動的(de)(de)世界,根據文本(ben)提示實時生(sheng)成的(de)(de),用戶(hu)可以(yi)用方(fang)向(xiang)鍵和空格鍵操(cao)控(kong)3D環境(jing)。

畫面中,每一個(ge)像(xiang)素(su)都(dou)是即(ji)時生成的(de),直到用戶進入那(nei)個(ge)區域,它(ta)才存在。整個(ge)過(guo)程充滿(man)細節。

比如(ru)這個例子里,有人(ren)正在給房間刷漆、在墻上畫東西。玩家轉頭看向(xiang)右邊(bian)時,那部分世界才被生(sheng)(sheng)成。然后再回頭時,剛才留(liu)下的筆(bi)跡還在。這一切(qie)都是(shi)實時生(sheng)(sheng)成的。

你還可(ke)以輸入(ru)“穿著雞仔戲(xi)服的人”或“水上摩托”之類的提示,它會立刻把(ba)這些元素加入(ru)場景中。真的非常(chang)震撼。

主持人:我覺得最難理解的地方是,我們都玩過帶有沉浸式3D元素的電子游戲,但那些世界里的物體都是預先建好的,需要Unity或Unreal這樣的渲染引擎。而Genie是在即時生成2D圖像。

Demis?Hassabis:Genie實(shi)際上是在對物理學進行“逆(ni)向(xiang)工(gong)程”。它看過(guo)數百萬(wan)條YouTube視(shi)頻和其他現實(shi)世界素材,僅憑這些(xie)就推(tui)演出了很多世界運作(zuo)的(de)規律。

當(dang)然,它還不(bu)完美,但已(yi)經能生成一致的一兩分(fen)鐘交互體驗(yan),而且不(bu)限(xian)于人類(lei)角(jiao)色,甚至(zhi)可(ke)以操控海灘上的狗或(huo)水母。

主持人:3D渲染引擎的工作方式是這樣的:程序員需要把所有物理規律都編寫進去,比如光線的反射方式。程序員需要創建一個三維物體,然后讓光線在上面反射,這樣軟件才能渲染出來。但Genie完全不同,它是通過視頻訓練出來的,卻自己推理出了這一切。

Demis?Hassabis:沒錯(cuo),它既用(yong)真實視頻,也用(yong)部分游戲(xi)引擎合成數據(ju)來訓練。這一項目與我(wo)的個人興趣很有淵源,在(zai)90年代我(wo)職業生(sheng)涯早(zao)期(qi)時(shi),我(wo)便(bian)曾經開發過電子(zi)游戲(xi)和游戲(xi)內的AI系統(tong),還(huan)自(zi)己做過圖形(xing)引擎。

我知道當年要靠(kao)手工編寫多邊(bian)形、物(wu)理(li)引擎有(you)多么困難。而(er)現在這(zhe)個模型可(ke)以毫不費力地做到,甚至能實時渲染水面反射(she)、材質流(liu)動(dong)、物(wu)體(ti)互(hu)動(dong)等復雜(za)效果。

主持人:這些畫面的復雜性是難以想象的。這會把我們帶向何方?比如推演到Genie 5?

Demis?Hassabis:雖然Gemini語言模型(xing)的能力在(zai)不斷進步,但它從(cong)一開始就被(bei)設計為多模態(tai),可以處理圖像、音(yin)頻(pin)、視頻(pin)等各種(zhong)輸(shu)入,并生成各種(zhong)輸(shu)出。

我(wo)們(men)之所以要構建(jian)這樣的模型,是因為(wei)我(wo)們(men)認為(wei)真正(zheng)的AGI必須理(li)解(jie)我(wo)們(men)周(zhou)圍的物(wu)理(li)世界(jie),而(er)不僅僅是語言或數學這些(xie)抽(chou)象領(ling)域。

這(zhe)(zhe)是機(ji)器人(ren)技術能夠運(yun)作的(de)關鍵,目前這(zhe)(zhe)塊(kuai)能力還是缺失的(de)。同時,AI眼鏡如果想要在日常(chang)生活中發(fa)揮作用,也需要理解所處的(de)物理環境和周(zhou)圍世界(jie)的(de)工作原理。

像Genie、Veo這(zhe)些(xie)項目(mu),實際上都是在(zai)訓練AI去掌握世界(jie)的(de)動態和物理(li)規律。如果模型(xing)能生成(cheng)一(yi)個交(jiao)互式(shi)的(de)世界(jie),那(nei)就說明它在(zai)某種(zhong)程度上理(li)解(jie)了(le)世界(jie)的(de)運行邏(luo)輯,而這(zhe)最終可(ke)以推動機(ji)器(qi)人技術的(de)發展。

三、谷歌想打造“機器人領域的安卓系統”

主持人:視覺、語言與行動模型(VLA模型)的最新進展如何?我們能否構建一個通用系統:機器人通過攝像頭觀察世界,然后我可以用文本或語音告訴它“請幫我完成某件事”,而它知道如何在物理世界中執行相應的行動?

Demis?Hassabis:是(shi)(shi)的(de),正是(shi)(shi)如(ru)此。例如(ru),你可以嘗試(shi)我們(men)推出的(de)Gemini Live版本:只(zhi)需舉起手機,它就能觀察你周圍(wei)的(de)世(shi)界。我建議(yi)大家親自體驗一下,它已經(jing)能夠(gou)理解物理世(shi)界中的(de)許多內容,這(zhe)一點非常令(ling)人驚(jing)嘆。

下一(yi)步,我(wo)們(men)可(ke)以(yi)(yi)設(she)想將(jiang)其集成(cheng)到(dao)更便攜的設(she)備中,比如眼鏡。那樣它(ta)就會成(cheng)為一(yi)個日常助手——當(dang)你(ni)在街上行(xing)走(zou)時,它(ta)可(ke)以(yi)(yi)為你(ni)推薦信息,或者我(wo)們(men)可(ke)以(yi)(yi)將(jiang)其嵌入谷(gu)歌地圖等功(gong)能中。

在機(ji)器人領域,我們開發了(le)Gemini機(ji)器人模(mo)型,它(ta)們是基于Gemini模(mo)型、并利用額(e)外機(ji)器人數據(ju)進行微調的版本。

今年(nian)夏天我們(men)發(fa)布了一些演示。我們(men)布置了桌面環境,兩(liang)個(ge)機(ji)械臂(bei)在桌上與物體互動(dong),而你可以直接用語(yu)言(yan)與機(ji)器人交流。比如你可以說(shuo)“把黃(huang)色(se)的物體放進紅(hong)色(se)的桶里”,它就能將語(yu)言(yan)指令轉化為電機(ji)動(dong)作。

這(zhe)體(ti)現了(le)多模(mo)態模(mo)型的力量,而不僅(jin)僅(jin)是傳(chuan)統的機(ji)器人(ren)(ren)專用控制模(mo)型——它能(neng)(neng)夠將(jiang)(jiang)對現實(shi)世界的理解融入(ru)與(yu)人(ren)(ren)的交(jiao)互中(zhong)。最終(zhong),這(zhe)種模(mo)型能(neng)(neng)力將(jiang)(jiang)同(tong)時服務于用戶交(jiao)互體(ti)驗,以及機(ji)器人(ren)(ren)與(yu)世界的交(jiao)互。

主持人:我曾經問過谷歌CEO Sundar Pichai:我們是否最終能構建出一種機器人的通用操作系統,類似于Unix或安卓。

如果它能足夠通用,可以在多種設備上運行,那么機器人設備、公司與產品將迎來爆發式增長,因為存在一種可廣泛適配的軟件基礎。

Demis?Hassabis:這正是(shi)我們(men)正在推進的(de)策略之一(yi),可(ke)以稱之為“機器人領域(yu)的(de)安卓(zhuo)戰(zhan)略”。但另(ling)一(yi)方(fang)面,將我們(men)最先進的(de)模(mo)型與特定類(lei)型的(de)機器人設(she)計進行(xing)垂(chui)直整合,實現端到端學習,也非(fei)常有趣。這兩(liang)種策略我們(men)都(dou)在積極探索。

四、人形與專用機器人將共存,算法仍需進一步發展

主持人:人形機器人是否是一種合理的外形呢?有人認為它適合人類,因為我們自己就是人形,但解決問題可能需要不同形態的機器人,比如專門疊衣服、洗碗或打掃的形態。

Demis?Hassabis:我認為兩者都會(hui)存(cun)在市場。實際上,五(wu)到十年前我曾(ceng)認為我們會(hui)為特(te)定任(ren)務開發特(te)定形態(tai)的(de)機器人。在工業(ye)領(ling)域確實如此,無論是實驗室(shi)或生產線,你會(hui)根據任(ren)務優(you)化機器人的(de)形態(tai)。

然而,對于(yu)通用或個人用途的機(ji)器人,尤(you)其(qi)是(shi)需要與(yu)人類環境交互的場景,人形(xing)機(ji)器人可能非常關鍵(jian)。

畢(bi)竟,我們(men)的物理(li)世界是為人(ren)類設(she)計的:臺階、門(men)道……一切設(she)施都符合人(ren)的形(xing)態。與其改變整個世界,不如讓(rang)機(ji)器(qi)人(ren)適應我們(men)已(yi)有的環境。

人形(xing)機器人在這類任務(wu)中可能非常重要。但我相信,專用(yong)形(xing)態的機器人同(tong)樣會(hui)有其(qi)市場空間。

主持人:你對未來五到七年的機器人數量有什么看法?比如,你是否認為會有數百萬甚至數千萬的機器人?你有沒有一個愿景?

Demis?Hassabis:是的(de),我有。我在這方(fang)面花(hua)了很多時(shi)間思考。我覺得我們仍然處(chu)于(yu)機器人技術的(de)早(zao)期階(jie)段。在接下來(lai)的(de)幾(ji)年(nian)里,機器人技術或許將會有真正(zheng)的(de)“Wow”的(de)時(shi)刻。

但我認為算法還(huan)(huan)需要(yao)進一(yi)步發展。機器人模(mo)型(xing)的底座(zuo),也就是通用(yong)模(mo)型(xing),還(huan)(huan)需要(yao)變(bian)得更好、更可靠,并(bing)且更好地(di)理解(jie)周(zhou)圍的環境。這將(jiang)在(zai)接下(xia)來(lai)的幾年內(nei)實現。

在(zai)硬件方面(mian),我認為最終會有成百上千萬機(ji)器人(ren)出現(xian),關(guan)鍵在(zai)于硬件合適能(neng)發(fa)展到可(ke)(ke)以進行大規模生(sheng)(sheng)產(chan)的程度。當你(ni)開(kai)始建(jian)造大批量生(sheng)(sheng)產(chan)某款機(ji)器人(ren)的工(gong)廠時(shi),就(jiu)很難快速迭代機(ji)器人(ren)設計。如果你(ni)過早(zao)地開(kai)始大規模生(sheng)(sheng)產(chan),那(nei)么6個月后可(ke)(ke)能(neng)會出現(xian)新一代機(ji)器人(ren),它更(geng)可(ke)(ke)靠(kao)、更(geng)靈活(huo),這就(jiu)比較棘手(shou)了。

主持人:用計算機類比的話,我們處于70年代的PC DOS時代。

Demis?Hassabis:是的,可能就(jiu)是這(zhe)(zhe)樣。我認(ren)為也許這(zhe)(zhe)就(jiu)是我們所(suo)處的位置,但(dan)當時(shi)耗費10年(nian)完成的進(jin)展,在如今可能1年(nian)內就(jiu)會發生(sheng)。

五、AGI將成為科學探索終極工具,目前AI系統仍缺乏創造力

主持人:讓我們來談談其他應用,特別是在科學領域。我始終認為,我們能夠用AI解決的最偉大的問題,是那些人類目前憑借現有技術和能力以及我們的大腦等還無法解決的難題。

你對哪些科學領域的突破感到最興奮,以及我們將使用什么樣的模型來實現這些突破?

Demis?Hassabis:將AI用于加速(su)科學(xue)發現,并為人類的醫(yi)療(liao)健康事業(ye)做(zuo)貢(gong)獻,是我投(tou)身AI研究的初衷,也是我眼中AI最重要的應用領域。

如果(guo)我(wo)們以正確的方(fang)式(shi)構建AGI,它將成(cheng)為(wei)科學探(tan)索的終極工具(ju)。DeepMind在這方(fang)面已取(qu)得多(duo)項(xiang)重要成(cheng)果(guo),最著名的例子(zi)是AlphaFold。

實(shi)際上,我們已將AI系統應用于多個科學領域,包括材料設計、等離子體與聚變(bian)反應堆控(kong)制、天氣預測,甚至解決(jue)數學奧林匹(pi)克競賽問題。同樣的(de)系統,經過微(wei)調就(jiu)能解決(jue)很復雜的(de)問題。

但(dan)我(wo)們目前仍然(ran)只是(shi)觸及表(biao)面,AI系統尚未展(zhan)現(xian)出真(zhen)正的創(chuang)造力,還無法(fa)像(xiang)人類科學家那樣提出新(xin)的猜(cai)想或理論(lun)。我(wo)認為,這將是(shi)衡量(liang)AGI實(shi)現(xian)與(yu)否的關鍵標準(zhun)之一。

主持人:你認為什么是創造力?

Demis?Hassabis:我認為創造(zao)力是(shi)那種(zhong)我們常(chang)常(chang)在歷史上最偉大的(de)(de)科(ke)學(xue)(xue)家和藝術家身上看到(dao)的(de)(de)直覺性飛躍,也許(xu)是(shi)通過類比推(tui)理實現的(de)(de)。心(xin)理學(xue)(xue)和神經科(ke)學(xue)(xue)中有許(xu)多(duo)相關理論。

我認為一(yi)個(ge)不錯的測(ce)試方法是(shi),給現(xian)代AI系統(tong)設定一(yi)個(ge)知識(shi)截止(zhi)時(shi)間(jian)(比如(ru)1901年),然(ran)后觀察它(ta)是(shi)否(fou)能像愛因斯坦那(nei)樣,在1905年提出狹義相對(dui)論。如(ru)果能夠(gou)做到,那(nei)可能意味著我們真正接(jie)近AGI。

另一個例子是(shi)我(wo)們的(de)AlphaGo程序。它在(zai)十年前擊(ji)敗了世界圍棋冠軍,甚至還發明了前所(suo)未有(you)的(de)新策略(lve),比如第二(er)局中(zhong)著(zhu)名的(de)第37手(shou)。

但目前的AI系(xi)統還無法創(chuang)造出像圍棋這樣兼具(ju)優雅性、滿足感與(yu)審美價值的游戲。我認為,這正(zheng)是當前通用系(xi)統或AGI系(xi)統所欠缺的。

六、“博士級智能”遠未實現,仍有部分關鍵能力缺失

主持人:你能分享一下具體哪些部分還有短板嗎?OpenAI的Sam Altman、Anthropic的Dario Amodei近期提出“AGI即將在未來幾年實現”的觀點,你認同嗎?

Demis?Hassabis:這個問題的核心在(zai)于(yu),我們是(shi)否能(neng)讓AI系統(tong)模仿那(nei)些頂尖人類科學(xue)家(jia)所展(zhan)現出的那(nei)種直(zhi)覺式(shi)飛躍(yue),而不是(shi)僅(jin)(jin)僅(jin)(jin)做出漸進(jin)式(shi)的進(jin)展(zhan)。

我常(chang)(chang)說,區(qu)分(fen)偉大(da)科學家(jia)與優秀科學家(jia)的關鍵在于,兩者在技術上都非常(chang)(chang)出色,但偉大(da)的科學家(jia)更具創造力(li)。他們可(ke)能(neng)會(hui)從其他學科領(ling)域中(zhong)發現(xian)某(mou)種模式,并將(jiang)其類(lei)比或匹配到正在研究的問題(ti)上。

我認為未來(lai)的AI終將(jiang)具備這(zhe)(zhe)種能力,但目(mu)前它還缺乏(fa)實現這(zhe)(zhe)種突破所需的推理能力和(he)思維(wei)方式。

此外,現有AI系統(tong)也缺乏能力的一致(zhi)性。有時我(wo)們(men)的競爭對手聲稱AI系統(tong)已達(da)到“博士(shi)級智能”,我(wo)認為這就是無稽之談(nonsense)。

它們(men)不是博士級智(zhi)能,可能在某些方面具(ju)備博士級能力,但并非(fei)在所有領域(yu)都達到(dao)這一水平——而真正(zheng)的(de)通用智(zhi)能應能做到(dao)這一點(dian)。

正(zheng)如我們所(suo)體驗到的(de)(de),如果你以某種方(fang)式提問,當前的(de)(de)聊(liao)天機(ji)器人甚至會在高中數學或簡單(dan)計數問題上出錯。真正(zheng)的(de)(de)AGI系統不應(ying)出現這類錯誤。

我認為(wei),要(yao)實現(xian)能(neng)(neng)夠勝任(ren)這(zhe)些任(ren)務的(de)(de)AGI系統(tong),可能(neng)(neng)還需要(yao)五到十年的(de)(de)時間(jian)。另一個尚未實現(xian)的(de)(de)核(he)心能(neng)(neng)力是(shi)持續學(xue)習,即系統(tong)能(neng)(neng)夠在線接受(shou)新知(zhi)識或調整其行為(wei)。

目前這(zhe)些能(neng)力仍然(ran)缺失,也許通過擴(kuo)大模型規模可(ke)以(yi)實現一部分(fen),但我認為可(ke)能(neng)還需要(yao)一兩個(ge)突(tu)破(po)性的進展,這(zhe)些突(tu)破(po)有望(wang)在未來五到(dao)十(shi)年(nian)內出現。

七、模型性能提升未停滯,Nano Banana或實現創作普惠

主持人:一些報告和評分似乎反映出兩種趨勢:第一,大語言模型的性能逐漸趨于收斂;第二,性能提升的速度可能正在放緩甚至趨于平穩。這兩種說法是否基本準確?

Demis?Hassabis:實際上,我(wo)們內部并(bing)未(wei)觀察到(dao)這種現(xian)象(xiang)。我(wo)們依(yi)然看到(dao)顯著的(de)進(jin)(jin)步速(su)度,并(bing)且(qie)我(wo)們的(de)視角更為(wei)廣闊(kuo)。例如(ru),我(wo)們的(de)Genie模(mo)型(xing)(xing)、Veo模(mo)型(xing)(xing),以及最近的(de)Nano Banana,都展(zhan)現(xian)出令(ling)人矚目的(de)進(jin)(jin)展(zhan)。

我認為,未來創(chuang)意工具(ju)的發展方(fang)向(xiang)是用(yong)戶能夠與它(ta)們自(zi)然交(jiao)互(hu),甚至通過(guo)對(dui)話進行操作,而系統能夠以高度(du)一(yi)致的方(fang)式(shi)響應用(yong)戶需求,就像Nano Banana一(yi)樣。

它不(bu)僅在圖(tu)像生(sheng)成領(ling)域處于領(ling)先地位(wei),更突出的是其一致性(xing)——能夠在遵循(xun)指令的同時保持其他元素不(bu)變,使用戶(hu)能夠通過迭代獲得理想的輸(shu)出。這種(zhong)能力(li)預示著創意(yi)工(gong)具(ju)的未(wei)來(lai),人(ren)們很喜歡這一模型,也喜歡用它來(lai)創作。

主持人:我記得小時候為了學習如何在Photoshop中去除圖像中的某些部分,不得不購買書籍,學習復雜的操作如填充、羽化邊緣等。而現在,任何人都可以通過Nano Banana輕松實現這些效果,只需向軟件描述需求,它就能自動完成。

Demis?Hassabis:這(zhe)一(yi)方面(mian),這(zhe)些(xie)工具正(zheng)變(bian)得普惠(hui)化,普通(tong)人無需學習復雜的(de)用戶界面(mian)即可(ke)進(jin)行創作(zuo)(zuo);另一(yi)方面(mian),我們也在與(yu)頂尖創意人士合作(zuo)(zuo),打磨工具的(de)設計(ji)。

例(li)如(ru)導演(yan)達(da)倫·阿(a)倫諾夫斯基及其團(tuan)隊,他們(men)使(shi)用Veo等(deng)工具制作電影,并幫助我們(men)優化工具功能(neng)。

通過(guo)與這(zhe)些專業(ye)人士的合作,我們發現這(zhe)些工(gong)具不僅適用于普通用戶,還能以十倍、百倍的幅度(du),提(ti)升(sheng)頂級(ji)創作者的生產力。

他們可以以極低的成本(ben)嘗試更多想法(fa),并快速實現高質(zhi)量的作品。因此,我(wo)們認為(wei)這(zhe)兩方面(mian)是并行不悖(bei)的:我(wo)們既面(mian)向日常使用場景,將這(zhe)項(xiang)技術普(pu)惠化,也在賦能高端專(zhuan)業用戶(hu)。

那些(xie)懂(dong)得如何使用(yong)這些(xie)工具(ju)的人,以及擁有愿景、敘事(shi)風(feng)格(ge)和講(jiang)故事(shi)能(neng)力的頂(ding)尖創意(yi)人士,能(neng)將這些(xie)工具(ju)發揮出更好的效(xiao)用(yong)。

主持人:從文化角度看,一個有趣的問題是:未來娛樂內容將如何演變?是會每個人都能定制自己感興趣的內容,例如根據特定音樂風格生成新曲目,或基于電影《勇敢的心》創建游戲體驗?還是仍然保持一對多的創作模式?

從文化角度看,這個問題頗具哲學意味。我們是否仍然需要由創作者共同構建的、具有共識性的敘事?抑或是每個人都將開始開發和構建自己獨特的虛擬體驗?

Demis?Hassabis:基于(yu)我(wo)從90年(nian)代起從事游戲設計(ji)和編程的(de)經(jing)驗,我(wo)認為當前(qian)所(suo)見只是娛樂產業未來的(de)起點。未來可能會(hui)出(chu)現全(quan)新的(de)藝術形式(shi)或內容類型。在這種模式(shi)下(xia),雖(sui)然會(hui)存(cun)在一定程度的(de)共同創(chuang)(chuang)作(zuo),但我(wo)始終認為頂尖的(de)創(chuang)(chuang)意愿(yuan)景家仍將發揮關鍵(jian)作(zuo)用。

這些創作者能夠構建出引人入勝的(de)體驗和動態敘事,即使(shi)使(shi)用(yong)(yong)相同的(de)工具,他們的(de)作品質量(liang)也會遠超普通用(yong)(yong)戶(hu)。與(yu)此(ci)同時,數(shu)百萬(wan)用(yong)(yong)戶(hu)不僅可(ke)以(yi)進(jin)入這些世界,還能參與(yu)部分(fen)內容(rong)的(de)共同創造。在這種情況下,頂級創意者可(ke)能更傾(qing)向于(yu)扮演”世界編輯(ji)者”的(de)角色(se)。

這正(zheng)是我們接下來幾年(nian)希望探索的方(fang)向,目前正(zheng)在通過(guo)Genie等技術逐(zhu)步實現這個愿景。

八、大量時間投入AI藥物發現公司,明年進入臨床前期研究階段

主持人:你如何分配你的時間?也許你可以談一下Isomorphic,你是不是在那兒投入了大量時間?

Demis?Hassabis:是的,我確實投入了(le)大量時間。這是一(yi)家從DeepMind拆(chai)分(fen)出來(lai)的公司,正致(zhi)力于通過蛋白質折疊技術AlphaFold的突破來(lai)革新藥物發現領域。

雖然理解蛋白質結(jie)構是(shi)(shi)關鍵突破,但這(zhe)只是(shi)(shi)藥物研發過(guo)程中的一(yi)個環節。Isomorphic正在開發與AlphaFold相關的多項技術,致力于設計能夠(gou)精準靶(ba)向蛋白質且避免(mian)副作用的化合物。

我們預計能(neng)將藥物發現周(zhou)期(qi)從現在(zai)的(de)數(shu)年(nian)甚至十年(nian),縮(suo)短到數(shu)周(zhou)級(ji)別。目前我們正在(zai)構建技(ji)術平臺,與禮來、諾華(hua)等制藥企業建立了深度(du)合作。

同時我(wo)們也在(zai)推(tui)(tui)進(jin)(jin)內部藥物研發項目(mu),預計明年進(jin)(jin)入臨床(chuang)前(qian)期研究階(jie)段,后續將由(you)合作伙伴推(tui)(tui)進(jin)(jin)臨床(chuang)實驗。我(wo)們的研究重點涵蓋癌(ai)(ai)癥、免疫學(xue)和腫(zhong)瘤學(xue)等(deng)領域,并(bing)與(yu)MD安(an)德森(sen)癌(ai)(ai)癥中心等(deng)機構(gou)保持合作。

主持人:在藥物發現領域,我們需要如何平衡確定性模型(基于物理化學原理)與概率性模型(基于數據訓練)的協同工作?

Demis?Hassabis:我(wo)們正在構建混(hun)合(he)模型系統,未來5年也(ye)是如(ru)此(ci)。以AlphaFold為例,它既包含基于(yu)神經網絡和Transformer的(de)概率學(xue)習部(bu)分,也(ye)整合(he)了化學(xue)物理(li)規(gui)則(ze)的(de)確定性約束(shu)。

在生物化學領域,數據稀缺是常態,因(yin)此需要融入(ru)已知的科學原理作為約束(shu)條件(jian)。比(bi)如原子之(zhi)間(jian)的鍵角(jiao),讓模型(xing)理解原子之(zhi)間(jian)不能相互(hu)重疊等。

理論(lun)上,它可(ke)以從數據(ju)中學習這些,但那將(jiang)(jiang)浪費大量的學習能力,因此最好將(jiang)(jiang)這些作為約束條件納入(ru)其中。

就像(xiang)AlphaGo一樣:讓一個神經網絡(luo)學(xue)會識別棋(qi)局中的模式,再在上面加一層(ceng)蒙(meng)特(te)卡(ka)洛樹搜索(suo)來做規劃。難點在于如何把學(xue)習型子系統與人工定制(zhi)的子系統無(wu)縫結合。

主持人:這種架構能否帶來通向AGI的突破?

Demis?Hassabis:我認為,一旦把(ba)混合系統跑(pao)通,下一步就是把(ba)得到的知識反哺回學(xue)習組件,盡量(liang)做端(duan)到端(duan)學(xue)習,讓模型(xing)直接從數據里(li)預測目標。

一旦用混合系統完(wan)成了(le)初步研究(jiu),就可以進行逆(ni)向工程,看看是(shi)否可以將(jiang)這(zhe)些(xie)信息納(na)入學(xue)習(xi)系統。

這正是AlphaZero的做法:拋(pao)棄人類(lei)棋(qi)(qi)譜和(he)圍(wei)棋(qi)(qi)專用知(zhi)識,從零(ling)自(zi)我對弈,結果(guo)不僅能下圍(wei)棋(qi)(qi),還能通吃任何棋(qi)(qi)類(lei)。

九、AGI將開啟科學的黃金時代

主持人:AI的能源需求是一個熱點話題。這些能源需求將從何而來?模型架構、硬件,或者模型與硬件的協同會不會逐漸改進,最終把每個token的能耗或成本降下去,讓總能源需求曲線走平?還是說并不會,我們仍要面對一條很陡的需求曲線?

Demis?Hassabis:我認(ren)為這兩種情(qing)況都是正確的(de)。在谷(gu)歌DeepMind,我們專注于打(da)造非(fei)常高效的(de)模(mo)型,因為我們在內部有很多用(yong)例,需要為數十(shi)億用(yong)戶提供AI服務。模(mo)型必(bi)須極其高效,極其低延遲,并且成本低廉。

因此(ci),我們開創(chuang)了許多技(ji)術,使我們能(neng)夠做到這一點,比(bi)如蒸餾,讓(rang)大模(mo)型(xing)(xing)教小(xiao)模(mo)型(xing)(xing)。過去兩年,在同樣的性(xing)能(neng)水平上,模(mo)型(xing)(xing)效率(lv)提(ti)高10倍(bei)甚至100倍(bei)。

現在,能源需求沒有(you)減少的(de)原因是,我們還沒有(you)達(da)到AGI。對于(yu)前沿模型,我們需要(yao)更大規模上(shang)嘗試(shi)和實驗新的(de)想法。但在服(fu)務端,模型正變(bian)得(de)越(yue)來(lai)越(yue)高效(xiao)。所以這兩種情況都是正確的(de)。

最終(zhong),從能(neng)(neng)源(yuan)(yuan)角度(du)來(lai)看,我認為AI系(xi)(xi)統將在(zai)能(neng)(neng)源(yuan)(yuan)和氣(qi)候(hou)變化等(deng)方(fang)面回饋更(geng)多,而(er)不是消耗更(geng)多。在(zai)未來(lai)10年內,AI將在(zai)電網系(xi)(xi)統、電力系(xi)(xi)統、材料(liao)設計、新(xin)型(xing)材料(liao)、新(xin)型(xing)能(neng)(neng)源(yuan)(yuan)來(lai)源(yuan)(yuan)等(deng)方(fang)面發揮巨大作用(yong),這些貢獻將遠(yuan)遠(yuan)超過(guo)它(ta)今天所消耗的能(neng)(neng)源(yuan)(yuan)。

主持人:作為最后一個問題,請描述一下10年后的世界。

Demis?Hassabis:哇,10年甚(shen)至10周在AI領(ling)域(yu)都是一段很長的(de)時間。但我(wo)確實認為,如(ru)果(guo)我(wo)們能在未來(lai)10年內實現AGI,那么這將開啟一個(ge)(ge)科學的(de)新(xin)黃金時代。一場新(xin)的(de)文藝復興。我(wo)們將在能源、醫(yi)療等(deng)各個(ge)(ge)領(ling)域(yu)見證(zheng)AGI帶來(lai)的(de)好處。

來源:Youtube?@allin