天图万境图拉古：大部分大模型公司5年内死去，自媒体用“炸裂”“吊打”是瞎说丨GenAICon 2024

智東西（公眾號：zhidxcom）
作者 | GenAICon 2024

智東西5月6日報道，2024中國生成式AI大會于4月18-19日在北京舉行，在大會第二天的主會場AIGC應用專場上，天圖萬境創始人圖拉古以《我們的AIGC，AIGC的我們》為題發表演講。

天圖萬境是中國視聽行業嘗試用AI工具做文本擴寫、圖像生成、數字人合成制作的先行者，比一些國際頂流AI工具的問世時間更早。圖拉古說，天圖萬境迄今已擁有中國視聽領域最專業的垂直AI大模型集群，并在今年與華為聯合推出Sora Opera，能給各式視頻配音。

圖拉古在演講中相當敢說，金句頻出，分享了自己創業路上“血淋淋的經驗和教訓”，或者調侃創業者“不要起太早，容易看不到曙光，因為資本看不懂”，稱“追風的人沒法飛起來”；或者吐槽自媒體用“炸裂”、“吊打”、“驚艷”等詞匯是瞎說，直言短期內搞不定通用大模型，預測“大部分AI大模型創業公司在5年內死去”。

在他看來，AI應該是能夠給人們帶來溫暖、彌合世界的創作工具，而不是取代人類工作的“內卷武器”。因此AI不能離開應用談技術，而是要建立到應用端的完整產業鏈。天圖萬境從AI文本創作，到視頻生成，再到服務用戶的應用端，打造了全產業鏈技術解決方案，且都早于國際巨頭發布了對應產品，目前正在快速迭代中。

其聲音生成工具Sora Opera，可以自動感知、智能識別視頻畫面中的物理邏輯，精準配出風格多變的音樂音效，為視頻增加聲音的魅力。還有聲音克隆工具SoundMax，不走傳統TTS路線，而是將輸入的人聲轉換成其他聲線。這樣的AI工具，不會讓配音演員失業，而是讓他們在演繹不同角色時插上飛翔的創意翅膀。

以下為圖拉古的演講實錄：

首先介紹一下我自己，我是圖拉古，是一個“帽子”搜集大師，我有很多帽子，最喜歡前三個帽子，天圖萬境的創始人、中國導演、科研從業者。

我還有一個屬性，我是跨行業的從業者，而且在一線，我是以導演的身份拍攝了很多國際大片，也拍了很多國內的片子。我從事計算機編程和AI，自己寫代碼。

第三個，我自己做電路設計，做電路繪畫，做生產。我是一個沉浸式愛好者，經常玩各種劇本殺、密室逃脫。原來AI需要視聽行業的人參與進來，但是視聽行業的人又不知道該怎么開發，我碰巧介于這之間，我的優勢逐漸凸顯出來。

我分享的主題是：AIGC的我們，我們的AIGC。

一、比MidJourney更早探路圖像生成，但起太早容易看不到曙光

先說“AIGC的我們”。

有人說電影是一門綜合性藝術，它從視聽技術到制造生產技術，再到調度與管理能力，到故事與敘事，最主要的是情緒和心理學都很重要，本質上講，是從文本到視頻這一件事。

天圖萬境圖拉古：大部分大模型公司5年內死去，自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

從文本到視頻在今天的時代很簡單，文本到視頻、文本到圖片，再到合成、剪輯、視頻發行，其中文本就是劇本，我們現在熟悉的軟件都可以做。

到今天為止，AI時代，文本生成有GPT，圖片有Stable Diffusion、Midjourney，合成有Wonder studio，剪輯Meta似乎在做，視頻Sora，發行還是老牌發行，世界的格局沒有變化，因為賺錢的地方沒有發生變化。

天圖萬境圖拉古：大部分大模型公司5年內死去，自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

前面都是技術在迭代，下一個時代將會產生產業的迭代，發行怎么變？這些年我們在這些領域做了什么工作？以及為什么說現在做AIGC的同行們都是“弟弟”。

第一個，文本。看這張圖，在輸入文字的位置添加新故事，加引導詞，輸入三個引導詞就可以自動生成一段故事，這是最早的AI擴寫。

天圖萬境圖拉古：大部分大模型公司5年內死去，自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

下面是用來整理語義分析的，分析人物關系的，分析時長的，再下面是分析故事和情感節奏的，這只能用AI做，不然就會把“皇上急的像熱鍋上的螞蟻”，認為是一種動物而不是一種情緒。這是最早的文字生成。什么時候？2021年9月份。誰在做這件事？只有我們在做。

天圖萬境圖拉古：大部分大模型公司5年內死去，自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

第二個，圖片。這個大家都很熟悉了，放一個原始圖像，就可以看到實時可編輯的圖像，下方是參數拖拽區。左側是2021年5月份我們發布的產品，右側是2023年馬普所潘教授發布的，當時震驚整個娛樂圈。

天圖萬境圖拉古：大部分大模型公司5年內死去，自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

上面是選擇模型、風格的區域，選擇輸入風格，輸入一張圖片，按照圖片風格生成圖片。

天圖萬境圖拉古：大部分大模型公司5年內死去，自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

這里是輸入漢字的圖像實時生成，這在今天來看每個人都極其熟悉，甚至嗤之以鼻。但把時間往回倒一倒，Stable Diffusion是2022年7月份，Midjourney是2022年3月份，天圖是2021年9月份。

天圖萬境圖拉古：大部分大模型公司5年內死去，自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

我們以前做事不會在互聯網上留足跡，碰巧這件事情留下了足跡。右圖是跟聯想ThinkPad做的現場為期七天的實機演示。

第三個，合成制作。通過4張圖片重建一個我的數字人，通過一段視頻重建整個3D場景。我們還發布首條支持NeRF渲染的循環引擎管線，這是在2022年9月份。右側的大家也很熟悉，Luma AI，當時全世界都很震驚，時間是2022年11月份，而我們在2022年9月份就發布了可以商用的產品。

天圖萬境圖拉古：大部分大模型公司5年內死去，自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

還有人體穩定跟蹤，大家都很熟悉，還可以把鏡頭中的人物完美地擦掉，這兩者結合到一起，是Wonder studio，它是2023年3月份，天圖是2022年11月份。

這個案例非常明顯，做這么多，我們也沒有做PR，沒有被大家記住。我們有很深的感觸：不要起太早，容易看不到曙光，因為資本看不懂。

二、“他們看不懂，看不明白，也不愿意學習”

有一個很知名的專家問我，你連一個傳感器都沒有，怎么叫感知？我現在可以告訴他，這就叫感知，感知是通過智能來判別這個世界的。這是我得到的第一個經驗，在創業的時候不要起太早，因為看不到曙光。

天圖萬境圖拉古：大部分大模型公司5年內死去，自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

第二個，他們看不懂，看不明白，并且也不愿意學習。“他們”不止指資本，也指創作身邊的每一個人，他們只能跟著潮流順著大勢而為。我想說一句話：“追風的人是沒法飛起來的，因為風箏是逆風飛翔的。”我們要準確判斷下一個點在哪里，從現在開始往下一個點走。

第三個經驗，投資絕大部分是FOM（afraid of missing），到今天為止，他們對這件事情看起來也是迷迷糊糊的，你去問投資機構，什么叫AIGC？他們只能說一個網上能查到的詞，沒有經過仔細思考，沒有經過認真對產業調研的人很難明白AIGC的明天在哪里，這就是血淋淋的經驗和教訓。

三、自媒體用“炸裂”“吊打”是瞎說，大部分AI大模型公司在5年內死去

下面說說我們在積累經驗之后又做了什么事，現在逐漸被大家關注起來了。

資本眼中的AI大模型：以前100個人干活兒，通過AI自動化3個人干活兒，生成了各種各樣的利潤，裁員、財源。

一個公司瘋狂PR以后，被資本投了以后，創始人自己套殼，自己訓練，結果一用自己的產品，這個東西不能用！這怎么辦？瘋狂地找，終于找到一個落地場景，然后跟媒體說，在這個場景我們可以做這件事，然后無限放大。

自媒體用的什么詞？“炸裂”、“吊打”、“驚艷”，這些詞能在這兒用嗎？這是瞎說。實際是什么樣的？這就是它們的實際情況，這是不可避免的問題，因為馬車在創造初期也不能一下子跑十公里，這是時代發展的必然結局。

我們現在的AI非常激進，仿佛進入了豐富且多元的生態，但如果我們用一用這些產品會發現，你的生氣指數會上漲。但是我們需要用發展的眼光去看待這件事情，十年以后的AI是什么樣？它一定是非常豐富且充滿了自動化的過程。

我們還講過一句話，今天的各種企業在這個行業的PR中，仿佛要使用AI這種技術把整個人都替代掉，讓整個社會都工業化，其實換句話說，他們在制造“槍”然后來殺掉彼此。

AI的初心應該是像《血戰鋼鋸嶺》一樣，我不帶槍，但是可以縫合這個世界，希望未來有更多做技術的人可以用這些技術來縫合這個世界，讓每個人、每個個體都能夠從中享受到AI帶來的快樂，這很重要。

人類的目光總是是很短淺的，他們想一口吃個胖子，所以在講大模型，大模型意味著一個輪船可以海上跑、天上飛、地道里面鉆，這叫大模型。但到頭來解決問題的還是專用模型，輪船只能在海上，飛機在天上，有一天我們希望有兩棲東西產生，但是現在這個時間點還不能擁有，此時此刻我們的生產力、物力、算法跟不上，需要等一等。

天圖萬境圖拉古：大部分大模型公司5年內死去，自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

大部分AI大模型創業公司會在5年內死去，我看到這個行業的人沒有技術壁壘，也找不到應用場景，解決不了真的問題，而且沒有錢繼續燒。此時此刻我把這個話放在這兒，再過5年后你們翻回來找這句話，如果發現這句話是錯的，請在評論下面罵我。

我們不應該只談大模型而放棄專用模型，不能只練大腦不練肌肉。

四、打造視聽領域垂直AI大模型集群，聯手華為推出視頻配音工具Sora Opera

AI大模型在各行各業都有使用，我們應該怎么發展？還是以我們的視聽行業為例，我們最早在布局這個產業的時候，別人說我們是騙子，因為他們不懂什么叫模型。

到今天為止，我們已經擁有中國視聽領域里面最專業的垂直AI大模型集群，本來是垂直AI模型集群，但我的合伙人說你把“大”加上吧，不然別人聽不懂，所以我們叫AI大模型集群，會在北京國際電影節發布。

先講我們做了什么。Sora Opera，用了半年多了，今年跟華為聯合推出。什么是Sora Opera？它本來不叫這個名字，Sora出來之后，一些人建議說最好跟Sora有關，我們就起這個名字Sora Opera，它可以給所有生成式視頻，所有手機拍的視頻進行配音。

我們先來看圖片上這個小怪物，再來看猛犸象。在展示更多之前，我想說一下，人們仿佛在按照計算機的邏輯適應計算機，比如你想需要一段好的文字或者視頻，必須要輸入適應計算機的提示詞，這其實是反著發展的。有沒有一種途徑可以讓人不去輸入Prompt，直接點上傳下載？可以，我們的Sora Opera去除所有的Prompt，這意味著你的模型必須識別圖片類的信息。

我們來聽第一個、聽第二個。每一個故事都是壓著節奏，手碰花，花會響，不碰花，花不會響，我們按照時間一致性來理解這個事情，讓這個模型具備視聽領域里面的智能。它可以識別很多個電視里面的內容，并且雜亂生成。它可以識別火車聲音從遠到近的效果，還有跳舞的小動物、自然環境。

未來哪里能用到？各家手機都在宣傳，“我家手機可以一鍵成片”，如果那個成片沒有音效，相當于這個世界沒有聲音，只有視覺是不夠的。未來的所有領域都可以使用這樣的技術。

再說一個，SoundMax。聲音是人類獲得信息34%的主要因素。這個功能主要用來配音，用我的聲音模擬各種各樣的聲音，我們不走TTS的路線，TTS是輸入文字變成聲音，我們需要有人在后面來模擬千行百業的人。

我們先聽第一個人叫白小姐，第二個人的聲音是說書人，這兩個人都是我用手機錄的，現在我們聽聽經過AI處理之后的兩個人。我們希望未來AI技術誕生以后讓每個個體都是超級個體，讓創作去中心化。

五、未來AI視聽的機會在哪兒？

最后再簡單說一說發行，未來的機會在哪里？

我們知道此時此刻是經濟下行，1905年到1914年美國的變化恰如此時此刻這個時代所經歷的變化。工具創新以Sora們為例，會出現一個結果，過度電子化，因為生產內容極其容易，網上線上本來就不缺內容，又因為過度容易的生產工具導致內容泛濫，就會出現過度電子化。

那么新業態在哪里？新工具誕生了，怎么沒有新業態？新業態可以這么理解，首先沖擊兩個不好的地方，第一是流媒體平臺，本來流媒體平臺就是有豐富的內容，現在又沖過來一堆動態PPT，人們非常焦急，甚至會花時間去甄別哪個真哪個假。

第二個，電影院，每個用戶都有機會表達自我，關注我發了朋友圈誰給我點贊，電影院的敘事方式已經不太適合當下的觀眾。

第三個，游戲平臺，做游戲會越來越容易，容易的不是編程，容易的是設計，美術越來越容易，編程方面也會推進，所以AI會對它們有沖擊。

我簡單總結了一下，一切非真人互動和非真實體驗的企業和產業都會受到這波沖擊。

新機會在哪里？第一個是XR產業，第二個是線下娛樂產業，未來巨大的機會在這個地方，我做了一個總結叫沉浸式產業。

這個產業有幾個屬性：第一，高科技加持。這個產業必須有科技，不然這個產業沒法變革。第二，強社交屬性。經濟下行，人們心理壓力會大，人們必須回歸到線下，并且見到真實的可確定性。第三，條件十分便宜，便宜到你喝一杯咖啡的價格就可以玩一個小時、兩個小時。

第四，模式可復制，全國各地可復制才能掙錢。第五，內容更新快，每天有兩個新的內容可以玩。最后，成本低，內容快就代表著成本低，而這一切全部是AI和今天的電子工業給我們帶來的機會，沒有這兩個產業的出現就沒有這樣的機會。

我認為，未來AI視聽的機會在線下，而不在線上。至少今天的傳統互聯網應該是沒什么機會了，不信可以看看，他們能做的就是投資，他們想真正研發出一款使用的產品太難了。

在線下可能會有哪些？今天不在這兒賣關子了，希望大家快來成為我的朋友，我們一起討論線下在哪里。

以上是圖拉古演講內容的完整整理。

国产又黄又猛又粗又爽的A片,小祖宗┅┅快┅┅用力啊视频,国产精品麻豆欧美日韩ww,少妇精品无码一区二区免费视频,波多野结衣在线播放

一、比MidJourney更早探路圖像生成，但起太早容易看不到曙光

二、“他們看不懂，看不明白，也不愿意學習”

三、自媒體用“炸裂”“吊打”是瞎說，大部分AI大模型公司在5年內死去

四、打造視聽領域垂直AI大模型集群，聯手華為推出視頻配音工具Sora Opera

五、未來AI視聽的機會在哪兒？

相關推薦