智東西(公眾號:zhidxcom)
編譯 | 陳駿達
編輯 | 李水青
智東西9月15日(ri)報道,昨日(ri),谷歌DeepMind的(de)AI應(ying)用(yong)Gemini憑借其圖像編輯模型“Nano Banana”的(de)病毒式傳播(bo),在美區蘋果App Store免費應(ying)用(yong)榜(bang)中取代ChatGPT,強勢登頂(ding),成(cheng)為該區域最受(shou)歡迎的(de)應(ying)用(yong)之一。

近日,這場現象級的爆火背后的締造者——2024年諾貝爾化學獎得主、谷歌DeepMind創始人兼CEO Demis Hassabis,在All-in峰會上進行了一場深度分享,系統闡釋了從爆款產品到AGI未來的宏大議題,內容橫跨世界模型、機器人、AGI定義、科學智能、創作的未來和能源等多個前沿維度。
Hassabis將谷歌DeepMind定位為驅動谷歌(ge)的“AI引擎室”,Gemini、Genie、Veo等模型,都在深度融入谷歌的現有產品。其中,Genie 3世界模型正通過“逆向工程”學習物理規律,未來可能會推動機器人技術革命。谷歌還在Gemini的基礎上打造機器人模型,有望形成“機器人安卓(zhuo)系統”這樣的通用平臺。
對于業界熱議的AGI前景,Hassabis給出了冷靜判斷,直言當前(qian)部(bu)分競爭對手所(suo)謂的“博士級(ji)智能(neng)”是(shi)“無稽(ji)之(zhi)談”(nonsense)。雖(sui)然并未指(zhi)名道(dao)姓,但相關(guan)表述很有可能(neng)指(zhi)的是OpenAI聯合(he)創始人兼CEO Sam Altman對(dui)GPT-5能(neng)力達到“博士級智(zhi)能(neng)”的爭議表述。

▲Demis Hassabis(右)接受采訪(圖源:Youtube)
Hassabis認為,目前AI系統最大的缺陷,就是無法提出真正有創造性的觀點。要實現AGI系統,我們仍需等待1-2個關鍵技術突破的出現。他還透露,其領導的AI藥物發現公司Isomorphic進展迅速,預計明年進入臨床前研究,旨在將新(xin)藥研發周(zhou)期從數年縮短至數周(zhou)。
自上世紀90年代起,Hassabis就一直在從事AI相關研究,尤其對科學智能(AI for Science)有深厚的興趣。他認為,AGI有望成為科學探索的終極工具,其實現意味著科學黃金時代的到來,有(you)望開啟(qi)又一場文藝復(fu)興。
以下是(shi)Hassabis在All-in峰會上采訪的(de)實(shi)錄:
一、諾獎公布前10分鐘才知曉,DeepMind已成谷歌“引擎室”
主持人:首先恭喜你獲得諾貝爾獎。關于AlphaFold這一重大突破,大家都很想聽聽你得知獲獎時的情景。當時你在哪里?是怎么得知的?
Demis Hassabis:那是(shi)(shi)(shi)一個(ge)非常超現實(shi)的(de)(de)時刻。整(zheng)個(ge)過程都很不真實(shi)。他們(men)通知(zhi)的(de)(de)方式是(shi)(shi)(shi),在消息對外公(gong)布前大約(yue)十分鐘打電(dian)話(hua)給你(ni)。當你(ni)接到來(lai)自瑞典的(de)(de)電(dian)話(hua)時,整(zheng)個(ge)人(ren)都懵(meng)了。這是(shi)(shi)(shi)每個(ge)科學家(jia)夢寐以求(qiu)的(de)(de)電(dian)話(hua)。
之后就是(shi)在瑞典與王(wang)室共(gong)度的(de)一整周(zhou)頒獎典禮,非常(chang)神奇。最令人(ren)震撼(han)的(de)部分是(shi),他們會從保險庫里(li)拿出諾貝爾獎簽名(ming)簿,你可(ke)以(yi)在那上面簽下自(zi)己的(de)名(ming)字,和所有(you)偉大(da)人(ren)物并列。
翻(fan)閱那(nei)些頁面時,你(ni)會看到費曼(man)、居(ju)里(li)夫(fu)人、愛因(yin)斯坦、玻爾的名字,然后(hou)你(ni)也把自己的名字寫進那(nei)本書(shu)里(li)。這真是難以置信的時刻(ke)。
主持人:你之前有沒有想過自己可能會獲獎?
Demis Hassabis:外(wai)界會有一些傳聞,但(dan)令人驚訝的(de)是,即便(bian)在當今時代,諾獎評選(xuan)方依然(ran)能把消息保密(mi)(mi)得如此嚴密(mi)(mi)。這個獎對瑞典來說就像是國寶。
會有人說(shuo)AlphaFold這(zhe)種成果足以(yi)配得上諾獎(jiang)的認可。但諾貝爾獎(jiang)不僅看重科學突破(po),也(ye)重視對現實世(shi)界的影響,而這(zhe)種影響往往需要(yao)二三十(shi)年才能完全顯現。即使(shi)聽到風(feng)聲,也(ye)無法(fa)預料會不會真的發生。對我來說(shuo)是一個驚喜。
主持人:那我們來聊聊DeepMind。在Alphabet內部,DeepMind是什么定位?具體負責什么?
Demis Hassabis:我(wo)們現在稱之為谷(gu)(gu)歌(ge)DeepMind。幾年前(qian)我(wo)們把谷(gu)(gu)歌(ge)和Alphabet內部所有的AI研究(jiu)合并到一起,包括谷(gu)(gu)歌(ge)DeepMind。各團隊的優(you)勢匯集成了一個(ge)部門。
如(ru)今谷(gu)歌DeepMind是整(zheng)個(ge)谷(gu)歌和(he)Alphabet的“引擎室”。DeepMind打造的主力模(mo)型Gemini,以及其他許多模(mo)型,包括視頻模(mo)型、交互式世界(jie)模(mo)型等,都(dou)已(yi)經融(rong)入(ru)到谷(gu)歌各個(ge)產品中。
幾乎每(mei)一項產品、每(mei)一個服(fu)務(wu)領域(yu)都有我們的AI模型(xing)。如(ru)今已(yi)有數(shu)十(shi)億人通過AI概覽(lan)、AI模式、Gemini應(ying)用等使(shi)用Gemini模型(xing)。
而這僅僅是(shi)(shi)開始,我們還把它(ta)整合(he)進Workspace、Gmail等等。這對(dui)我們來(lai)說(shuo)是(shi)(shi)絕佳機會——既能做前沿研(yan)究,又能立刻將(jiang)成果推(tui)送給數十億用戶(hu)。
主持人:你們的團隊規模有多大?人員構成是怎樣的?
Demis Hassabis:大約有5000人,其中80%以上(shang)是工程師(shi)和博士(shi)研究員。
二、Genie靠逆向工程學會物理規律,最終可推動機器人技術發展
主持人:模型在不斷演進,新模型層出不窮。前幾天你們發布了Genie 3世界模型。能給大家介紹一下嗎?
Demis Hassabis:這些畫面都是可互動的(de)(de)世界,根據文本(ben)提示實時生(sheng)成的(de)(de),用戶(hu)可以(yi)用方(fang)向(xiang)鍵和空格鍵操(cao)控(kong)3D環境(jing)。
畫面中,每一個(ge)像(xiang)素(su)都(dou)是即(ji)時生成的(de),直到用戶進入那(nei)個(ge)區域,它(ta)才存在。整個(ge)過(guo)程充滿(man)細節。
比如(ru)這個例子里,有人(ren)正在給房間刷漆、在墻上畫東西。玩家轉頭看向(xiang)右邊(bian)時,那部分世界才被生(sheng)(sheng)成。然后再回頭時,剛才留(liu)下的筆(bi)跡還在。這一切(qie)都是(shi)實時生(sheng)(sheng)成的。
你還可(ke)以輸入(ru)“穿著雞仔戲(xi)服的人”或“水上摩托”之類的提示,它會立刻把(ba)這些元素加入(ru)場景中。真的非常(chang)震撼。
主持人:我覺得最難理解的地方是,我們都玩過帶有沉浸式3D元素的電子游戲,但那些世界里的物體都是預先建好的,需要Unity或Unreal這樣的渲染引擎。而Genie是在即時生成2D圖像。
Demis?Hassabis:Genie實(shi)際上是在對物理學進行“逆(ni)向(xiang)工(gong)程”。它看過(guo)數百萬(wan)條YouTube視(shi)頻和其他現實(shi)世界素材,僅憑這些(xie)就推(tui)演出了很多世界運作(zuo)的(de)規律。
當(dang)然,它還不(bu)完美,但已(yi)經能生成一致的一兩分(fen)鐘交互體驗(yan),而且不(bu)限(xian)于人類(lei)角(jiao)色,甚至(zhi)可(ke)以操控海灘上的狗或(huo)水母。
主持人:3D渲染引擎的工作方式是這樣的:程序員需要把所有物理規律都編寫進去,比如光線的反射方式。程序員需要創建一個三維物體,然后讓光線在上面反射,這樣軟件才能渲染出來。但Genie完全不同,它是通過視頻訓練出來的,卻自己推理出了這一切。
Demis?Hassabis:沒錯(cuo),它既用(yong)真實視頻,也用(yong)部分游戲(xi)引擎合成數據(ju)來訓練。這一項目與我(wo)的個人興趣很有淵源,在(zai)90年代我(wo)職業生(sheng)涯早(zao)期(qi)時(shi),我(wo)便(bian)曾經開發過電子(zi)游戲(xi)和游戲(xi)內的AI系統(tong),還(huan)自(zi)己做過圖形(xing)引擎。
我知道當年要靠(kao)手工編寫多邊(bian)形、物(wu)理(li)引擎有(you)多么困難。而(er)現在這(zhe)個模型可(ke)以毫不費力地做到,甚至能實時渲染水面反射(she)、材質流(liu)動(dong)、物(wu)體(ti)互(hu)動(dong)等復雜(za)效果。
主持人:這些畫面的復雜性是難以想象的。這會把我們帶向何方?比如推演到Genie 5?
Demis?Hassabis:雖然Gemini語言模型(xing)的能力在(zai)不斷進步,但它從(cong)一開始就被(bei)設計為多模態(tai),可以處理圖像、音(yin)頻(pin)、視頻(pin)等各種(zhong)輸(shu)入,并生成各種(zhong)輸(shu)出。
我(wo)們(men)之所以要構建(jian)這樣的模型,是因為(wei)我(wo)們(men)認為(wei)真正(zheng)的AGI必須理(li)解(jie)我(wo)們(men)周(zhou)圍的物(wu)理(li)世界(jie),而(er)不僅僅是語言或數學這些(xie)抽(chou)象領(ling)域。
這(zhe)(zhe)是機(ji)器人(ren)技術能夠運(yun)作的(de)關鍵,目前這(zhe)(zhe)塊(kuai)能力還是缺失的(de)。同時,AI眼鏡如果想要在日常(chang)生活中發(fa)揮作用,也需要理解所處的(de)物理環境和周(zhou)圍世界(jie)的(de)工作原理。
像Genie、Veo這(zhe)些(xie)項目(mu),實際上都是在(zai)訓練AI去掌握世界(jie)的(de)動態和物理(li)規律。如果模型(xing)能生成(cheng)一(yi)個交(jiao)互式(shi)的(de)世界(jie),那(nei)就說明它在(zai)某種(zhong)程度上理(li)解(jie)了(le)世界(jie)的(de)運行邏(luo)輯,而這(zhe)最終可(ke)以推動機(ji)器(qi)人技術的(de)發展。
三、谷歌想打造“機器人領域的安卓系統”
主持人:視覺、語言與行動模型(VLA模型)的最新進展如何?我們能否構建一個通用系統:機器人通過攝像頭觀察世界,然后我可以用文本或語音告訴它“請幫我完成某件事”,而它知道如何在物理世界中執行相應的行動?
Demis?Hassabis:是(shi)(shi)的(de),正是(shi)(shi)如(ru)此。例如(ru),你可以嘗試(shi)我們(men)推出的(de)Gemini Live版本:只(zhi)需舉起手機,它就能觀察你周圍(wei)的(de)世(shi)界。我建議(yi)大家親自體驗一下,它已經(jing)能夠(gou)理解物理世(shi)界中的(de)許多內容,這(zhe)一點非常令(ling)人驚(jing)嘆。
下一(yi)步,我(wo)們(men)可(ke)以(yi)(yi)設(she)想將(jiang)其集成(cheng)到(dao)更便攜的設(she)備中,比如眼鏡。那樣它(ta)就會成(cheng)為一(yi)個日常助手——當(dang)你(ni)在街上行(xing)走(zou)時,它(ta)可(ke)以(yi)(yi)為你(ni)推薦信息,或者我(wo)們(men)可(ke)以(yi)(yi)將(jiang)其嵌入谷(gu)歌地圖等功(gong)能中。
在機(ji)器人領域,我們開發了(le)Gemini機(ji)器人模(mo)型,它(ta)們是基于Gemini模(mo)型、并利用額(e)外機(ji)器人數據(ju)進行微調的版本。
今年(nian)夏天我們(men)發(fa)布了一些演示。我們(men)布置了桌面環境,兩(liang)個(ge)機(ji)械臂(bei)在桌上與物體互動(dong),而你可以直接用語(yu)言(yan)與機(ji)器人交流。比如你可以說(shuo)“把黃(huang)色(se)的物體放進紅(hong)色(se)的桶里”,它就能將語(yu)言(yan)指令轉化為電機(ji)動(dong)作。
這(zhe)體(ti)現了(le)多模(mo)態模(mo)型的力量,而不僅(jin)僅(jin)是傳(chuan)統的機(ji)器人(ren)(ren)專用控制模(mo)型——它能(neng)(neng)夠將(jiang)(jiang)對現實(shi)世界的理解融入(ru)與(yu)人(ren)(ren)的交(jiao)互中(zhong)。最終(zhong),這(zhe)種模(mo)型能(neng)(neng)力將(jiang)(jiang)同(tong)時服務于用戶交(jiao)互體(ti)驗,以及機(ji)器人(ren)(ren)與(yu)世界的交(jiao)互。
主持人:我曾經問過谷歌CEO Sundar Pichai:我們是否最終能構建出一種機器人的通用操作系統,類似于Unix或安卓。
如果它能足夠通用,可以在多種設備上運行,那么機器人設備、公司與產品將迎來爆發式增長,因為存在一種可廣泛適配的軟件基礎。
Demis?Hassabis:這正是(shi)我們(men)正在推進的(de)策略之一(yi),可(ke)以稱之為“機器人領域(yu)的(de)安卓(zhuo)戰(zhan)略”。但另(ling)一(yi)方(fang)面,將我們(men)最先進的(de)模(mo)型與特定類(lei)型的(de)機器人設(she)計進行(xing)垂(chui)直整合,實現端到端學習,也非(fei)常有趣。這兩(liang)種策略我們(men)都(dou)在積極探索。
四、人形與專用機器人將共存,算法仍需進一步發展
主持人:人形機器人是否是一種合理的外形呢?有人認為它適合人類,因為我們自己就是人形,但解決問題可能需要不同形態的機器人,比如專門疊衣服、洗碗或打掃的形態。
Demis?Hassabis:我認為兩者都會(hui)存(cun)在市場。實際上,五(wu)到十年前我曾(ceng)認為我們會(hui)為特(te)定任(ren)務開發特(te)定形態(tai)的(de)機器人。在工業(ye)領(ling)域確實如此,無論是實驗室(shi)或生產線,你會(hui)根據任(ren)務優(you)化機器人的(de)形態(tai)。
然而,對于(yu)通用或個人用途的機(ji)器人,尤(you)其(qi)是(shi)需要與(yu)人類環境交互的場景,人形(xing)機(ji)器人可能非常關鍵(jian)。
畢(bi)竟,我們(men)的物理(li)世界是為人(ren)類設(she)計的:臺階、門(men)道……一切設(she)施都符合人(ren)的形(xing)態。與其改變整個世界,不如讓(rang)機(ji)器(qi)人(ren)適應我們(men)已(yi)有的環境。
人形(xing)機器人在這類任務(wu)中可能非常重要。但我相信,專用(yong)形(xing)態的機器人同(tong)樣會(hui)有其(qi)市場空間。
主持人:你對未來五到七年的機器人數量有什么看法?比如,你是否認為會有數百萬甚至數千萬的機器人?你有沒有一個愿景?
Demis?Hassabis:是的(de),我有。我在這方(fang)面花(hua)了很多時(shi)間思考。我覺得我們仍然處(chu)于(yu)機器人技術的(de)早(zao)期階(jie)段。在接下來(lai)的(de)幾(ji)年(nian)里,機器人技術或許將會有真正(zheng)的(de)“Wow”的(de)時(shi)刻。
但我認為算法還(huan)(huan)需要(yao)進一(yi)步發展。機器人模(mo)型(xing)的底座(zuo),也就是通用(yong)模(mo)型(xing),還(huan)(huan)需要(yao)變(bian)得更好、更可靠,并(bing)且更好地(di)理解(jie)周(zhou)圍的環境。這將(jiang)在(zai)接下(xia)來(lai)的幾年內(nei)實現。
在(zai)硬件方面(mian),我認為最終會有成百上千萬機(ji)器人(ren)出現(xian),關(guan)鍵在(zai)于硬件合適能(neng)發(fa)展到可(ke)(ke)以進行大規模生(sheng)(sheng)產(chan)的程度。當你(ni)開(kai)始建(jian)造大批量生(sheng)(sheng)產(chan)某款機(ji)器人(ren)的工(gong)廠時(shi),就(jiu)很難快速迭代機(ji)器人(ren)設計。如果你(ni)過早(zao)地開(kai)始大規模生(sheng)(sheng)產(chan),那(nei)么6個月后可(ke)(ke)能(neng)會出現(xian)新一代機(ji)器人(ren),它更(geng)可(ke)(ke)靠(kao)、更(geng)靈活(huo),這就(jiu)比較棘手(shou)了。
主持人:用計算機類比的話,我們處于70年代的PC DOS時代。
Demis?Hassabis:是的,可能就(jiu)是這(zhe)(zhe)樣。我認(ren)為也許這(zhe)(zhe)就(jiu)是我們所(suo)處的位置,但(dan)當時(shi)耗費10年(nian)完成的進(jin)展,在如今可能1年(nian)內就(jiu)會發生(sheng)。
五、AGI將成為科學探索終極工具,目前AI系統仍缺乏創造力
主持人:讓我們來談談其他應用,特別是在科學領域。我始終認為,我們能夠用AI解決的最偉大的問題,是那些人類目前憑借現有技術和能力以及我們的大腦等還無法解決的難題。
你對哪些科學領域的突破感到最興奮,以及我們將使用什么樣的模型來實現這些突破?
Demis?Hassabis:將AI用于加速(su)科學(xue)發現,并為人類的醫(yi)療(liao)健康事業(ye)做(zuo)貢(gong)獻,是我投(tou)身AI研究的初衷,也是我眼中AI最重要的應用領域。
如果(guo)我(wo)們以正確的方(fang)式(shi)構建AGI,它將成(cheng)為(wei)科學探(tan)索的終極工具(ju)。DeepMind在這方(fang)面已取(qu)得多(duo)項(xiang)重要成(cheng)果(guo),最著名的例子(zi)是AlphaFold。
實(shi)際上,我們已將AI系統應用于多個科學領域,包括材料設計、等離子體與聚變(bian)反應堆控(kong)制、天氣預測,甚至解決(jue)數學奧林匹(pi)克競賽問題。同樣的(de)系統,經過微(wei)調就(jiu)能解決(jue)很復雜的(de)問題。
但(dan)我(wo)們目前仍然(ran)只是(shi)觸及表(biao)面,AI系統尚未展(zhan)現(xian)出真(zhen)正的創(chuang)造力,還無法(fa)像(xiang)人類科學家那樣提出新(xin)的猜(cai)想或理論(lun)。我(wo)認為,這將是(shi)衡量(liang)AGI實(shi)現(xian)與(yu)否的關鍵標準(zhun)之一。
主持人:你認為什么是創造力?
Demis?Hassabis:我認為創造(zao)力是(shi)那種(zhong)我們常(chang)常(chang)在歷史上最偉大的(de)(de)科(ke)學(xue)(xue)家和藝術家身上看到(dao)的(de)(de)直覺性飛躍,也許(xu)是(shi)通過類比推(tui)理實現的(de)(de)。心(xin)理學(xue)(xue)和神經科(ke)學(xue)(xue)中有許(xu)多(duo)相關理論。
我認為一(yi)個(ge)不錯的測(ce)試方法是(shi),給現(xian)代AI系統(tong)設定一(yi)個(ge)知識(shi)截止(zhi)時(shi)間(jian)(比如(ru)1901年),然(ran)后觀察它(ta)是(shi)否(fou)能像愛因斯坦那(nei)樣,在1905年提出狹義相對(dui)論。如(ru)果能夠(gou)做到,那(nei)可能意味著我們真正接(jie)近AGI。
另一個例子是(shi)我(wo)們的(de)AlphaGo程序。它在(zai)十年前擊(ji)敗了世界圍棋冠軍,甚至還發明了前所(suo)未有(you)的(de)新策略(lve),比如第二(er)局中(zhong)著(zhu)名的(de)第37手(shou)。
但目前的AI系(xi)統還無法創(chuang)造出像圍棋這樣兼具(ju)優雅性、滿足感與(yu)審美價值的游戲。我認為,這正(zheng)是當前通用系(xi)統或AGI系(xi)統所欠缺的。
六、“博士級智能”遠未實現,仍有部分關鍵能力缺失
主持人:你能分享一下具體哪些部分還有短板嗎?OpenAI的Sam Altman、Anthropic的Dario Amodei近期提出“AGI即將在未來幾年實現”的觀點,你認同嗎?
Demis?Hassabis:這個問題的核心在(zai)于(yu),我們是(shi)否能(neng)讓AI系統(tong)模仿那(nei)些頂尖人類科學(xue)家(jia)所展(zhan)現出的那(nei)種直(zhi)覺式(shi)飛躍(yue),而不是(shi)僅(jin)(jin)僅(jin)(jin)做出漸進(jin)式(shi)的進(jin)展(zhan)。
我常(chang)(chang)說,區(qu)分(fen)偉大(da)科學家(jia)與優秀科學家(jia)的關鍵在于,兩者在技術上都非常(chang)(chang)出色,但偉大(da)的科學家(jia)更具創造力(li)。他們可(ke)能(neng)會(hui)從其他學科領(ling)域中(zhong)發現(xian)某(mou)種模式,并將(jiang)其類(lei)比或匹配到正在研究的問題(ti)上。
我認為未來(lai)的AI終將(jiang)具備這(zhe)(zhe)種能力,但目(mu)前它還缺乏(fa)實現這(zhe)(zhe)種突破所需的推理能力和(he)思維(wei)方式。
此外,現有AI系統(tong)也缺乏能力的一致(zhi)性。有時我(wo)們(men)的競爭對手聲稱AI系統(tong)已達(da)到“博士(shi)級智能”,我(wo)認為這就是無稽之談(nonsense)。
它們(men)不是博士級智(zhi)能,可能在某些方面具(ju)備博士級能力,但并非(fei)在所有領域(yu)都達到(dao)這一水平——而真正(zheng)的(de)通用智(zhi)能應能做到(dao)這一點(dian)。
正(zheng)如我們所(suo)體驗到的(de)(de),如果你以某種方(fang)式提問,當前的(de)(de)聊(liao)天機(ji)器人甚至會在高中數學或簡單(dan)計數問題上出錯。真正(zheng)的(de)(de)AGI系統不應(ying)出現這類錯誤。
我認為(wei),要(yao)實現(xian)能(neng)(neng)夠勝任(ren)這(zhe)些任(ren)務的(de)(de)AGI系統(tong),可能(neng)(neng)還需要(yao)五到十年的(de)(de)時間(jian)。另一個尚未實現(xian)的(de)(de)核(he)心能(neng)(neng)力是(shi)持續學(xue)習,即系統(tong)能(neng)(neng)夠在線接受(shou)新知(zhi)識或調整其行為(wei)。
目前這(zhe)些能(neng)力仍然(ran)缺失,也許通過擴(kuo)大模型規模可(ke)以(yi)實現一部分(fen),但我認為可(ke)能(neng)還需要(yao)一兩個(ge)突(tu)破(po)性的進展,這(zhe)些突(tu)破(po)有望(wang)在未來五到(dao)十(shi)年(nian)內出現。
七、模型性能提升未停滯,Nano Banana或實現創作普惠
主持人:一些報告和評分似乎反映出兩種趨勢:第一,大語言模型的性能逐漸趨于收斂;第二,性能提升的速度可能正在放緩甚至趨于平穩。這兩種說法是否基本準確?
Demis?Hassabis:實際上,我(wo)們內部并(bing)未(wei)觀察到(dao)這種現(xian)象(xiang)。我(wo)們依(yi)然看到(dao)顯著的(de)進(jin)(jin)步速(su)度,并(bing)且(qie)我(wo)們的(de)視角更為(wei)廣闊(kuo)。例如(ru),我(wo)們的(de)Genie模(mo)型(xing)(xing)、Veo模(mo)型(xing)(xing),以及最近的(de)Nano Banana,都展(zhan)現(xian)出令(ling)人矚目的(de)進(jin)(jin)展(zhan)。
我認為,未來創(chuang)意工具(ju)的發展方(fang)向(xiang)是用(yong)戶能夠與它(ta)們自(zi)然交(jiao)互(hu),甚至通過(guo)對(dui)話進行操作,而系統能夠以高度(du)一(yi)致的方(fang)式(shi)響應用(yong)戶需求,就像Nano Banana一(yi)樣。
它不(bu)僅在圖(tu)像生(sheng)成領(ling)域處于領(ling)先地位(wei),更突出的是其一致性(xing)——能夠在遵循(xun)指令的同時保持其他元素不(bu)變,使用戶(hu)能夠通過迭代獲得理想的輸(shu)出。這種(zhong)能力(li)預示著創意(yi)工(gong)具(ju)的未(wei)來(lai),人(ren)們很喜歡這一模型,也喜歡用它來(lai)創作。
主持人:我記得小時候為了學習如何在Photoshop中去除圖像中的某些部分,不得不購買書籍,學習復雜的操作如填充、羽化邊緣等。而現在,任何人都可以通過Nano Banana輕松實現這些效果,只需向軟件描述需求,它就能自動完成。
Demis?Hassabis:這(zhe)一(yi)方面(mian),這(zhe)些(xie)工具正(zheng)變(bian)得普惠(hui)化,普通(tong)人無需學習復雜的(de)用戶界面(mian)即可(ke)進(jin)行創作(zuo)(zuo);另一(yi)方面(mian),我們也在與(yu)頂尖創意人士合作(zuo)(zuo),打磨工具的(de)設計(ji)。
例(li)如(ru)導演(yan)達(da)倫·阿(a)倫諾夫斯基及其團(tuan)隊,他們(men)使(shi)用Veo等(deng)工具制作電影,并幫助我們(men)優化工具功能(neng)。