智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西10月1日報道,今日凌晨,OpenAI發布了旗艦視頻和音頻生成模型Sora 2,并推出“AI版抖音”——Sora應用程序。

OpenAI將Sora 2稱作“正直奔視頻領域的GPT-3.5時刻”。相比之前的Sora,Sora 2能更加精準逼真地模擬物理世界,并且更易于控制,還支持同步對話和音效。

從官方公布的視頻Demo來看,它可以完成一些對于之前的視頻生成模型難以完成的事情:奧運會體操動作、精準模擬浮力和槳板上后空翻,以及花滑運動員頭頂貓咪的三周半跳。

▲提示詞:花樣滑冰運動員頭頂一只貓表演三周半跳

Sora應用程序定位一款社交App,支持用戶將自己生成的視頻上傳,并通過“客串”功能讓用戶參與到好友視頻創作中。OpenAI的目標是試圖打造一種全新獨特的人際溝通方式。

剛剛,Sora 2來了!OpenAI還發了“AI抖音”,阿爾特曼被“玩壞”

▲OpenAI推出社交App Sora

目前,Sora iOS應用程序現已開放下載,以邀請制的形式在美國和加拿大推出。獲得邀請碼的用戶也可在Sora官網免費體驗Sora 2,ChatGPT Pro用戶可以體驗更高質量的Sora 2 Pro模型。

Sora 2一經發布就在外網炸開了鍋,有大部分人是求邀請碼的,有小部分人已拿到邀請碼。社交平臺X上立馬出現了不少Sora 2生成視頻,甚至連OpenAI CEO薩姆·阿爾特曼都被“玩壞了”。

剛剛,Sora 2來了!OpenAI還發了“AI抖音”,阿爾特曼被“玩壞”

同時也有不少人感到擔憂,X上的一位用戶稱:“幾個月后,我們將無法區分什么是真實的,什么不是真實的,那將是一個可怕的時代。”

剛剛,Sora 2來了!OpenAI還發了“AI抖音”,阿爾特曼被“玩壞”

▲社交平臺X的網友評論

一、Sora 2來了:“視頻領域的GPT-3.5時刻”

OpenAI稱,2024年2月發布的Sora在很多方面都堪稱視頻領域的“GPT-1 時刻”——視頻生成首次開始顯現成效,通過擴展預訓練計算能力,物體持久性等需求得以實現。

OpenAI將Sora 2稱作“正直奔視頻領域的GPT-3.5時刻”。先前的視頻模常常使得物體變形并扭曲現實,以便成功執行文本提示。例如,如果籃球運動員投籃不中,球可能會自動傳送到籃筐。但在Sora 2中,如果籃球運動員投籃不中,球會從籃板上反彈。

還比如,下面這個Sora 2生成的后空翻視頻,表演者甚至在落地后有一些踉蹌,且臉上出現了因小失誤有些尷尬的表情,很像真實生活中的場景。

▲提示詞:一個人做后空翻

有趣的是,該模型犯下的“錯誤”往往看起來像是Sora 2 隱式建模的內部智能體所犯的錯誤;盡管它仍然不完美,但與先前的系統相比,它在遵循物理定律方面做得更好。

OpenAI認為,對于任何有用的世界模擬器來說,這都是一項極其重要的能力——你必須能夠模擬失敗,而不僅僅是成功。

該模型在可控性方面也實現了巨大的飛躍,能夠執行跨越多個鏡頭的復雜指令,同時精準地保留世界狀態。它擅長處理寫實、電影和動漫風格。

▲提示詞:維京人參戰——北海發射(10.0 秒,冬季涼爽的日光/中世紀早期)……

作為通用的視頻音頻生成系統,它能夠創建具有高度真實感的復雜背景音景、語音和音效。

▲提示詞:兩名身穿亮色技術盔甲的登山探險者,臉上結滿冰霜,瞇著眼睛,急切地在雪地里喊叫,一次一個

用戶還可以將現實世界的元素直接注入Sora 2。例如,通過觀察我們一位隊友的視頻,該模型可以將其插入到任何由Sora生成的環境中,并準確刻畫其外貌和聲音。這項功能非常通用,適用于任何人類、動物或物體。

▲提示詞:大腳對他真的很好,有點兒太好了,好得有點兒古怪。大腳想跟他一起玩,但他想玩得太多了。

OpenAI稱,該模型遠非完美,并且存在很多錯誤,但它證實了進一步擴大視頻數據上的神經網絡將使我們更接近模擬現實。

二、AI版抖音推出,真人“客串”視頻,新社交神器?

今天,OpenAI還推出了一款名為“Sora”的全新iOS社交應用,該應用由Sora 2提供支持。

在應用中,用戶可以創作、混錄彼此的創作風格,在可自定義的Sora動態中發現新視頻,并通過“客串(Cameos)”功能將自己或好友引入到視頻中。使用客串功能,用戶只需在應用中進行一次簡短的音視頻錄制,即可以驚人的保真度將自己直接帶入任何Sora場景。

剛剛,Sora 2來了!OpenAI還發了“AI抖音”,阿爾特曼被“玩壞”

這看起來像一款AI版的抖音或TikTok,而OpenAI認為,圍繞這項“客串”功能構建的社交應用是Sora 2體驗的魅力所在。

幾個月前,OpenAI在Sora團隊開始嘗試“上傳自己生成的視頻”的功能,他們都玩得很開心。OpenAI稱,這感覺就像是溝通方式的自然演變——從短信到表情符號,再到語音備忘錄,再到現在的視頻。

上周,OpenAI向全體員工內部發布了這款應用。已經有同事反饋,他們通過這項功能在公司結識了新朋友。

三、邀請制推出,Sora 2免費可用,Pro用戶體驗更高級

OpenAI將Sora應用以邀請制的形式推出,確保用戶能與好友一同使用。

收到邀請后,用戶還可以通過sora.com訪問Sora 2 。Sora 2最初將免費提供,但這些功能仍受計算能力限制。ChatGPT Pro用戶還可以在sora.com上使用實驗性的、更高質量的Sora 2 Pro模型。

OpenAI還計劃在API中發布Sora 2。Sora 1 Turbo將繼續可用,用戶創建的所有內容也將繼續存在于sora.com中。

為了防止上癮等問題,OpenAI將采取一系列措施。

一是其將為用戶提供工具和自主選擇權,讓他們能夠掌控信息流中的內容。利用OpenAI現有的大型語言模型,其開發了一類新的推薦算法,可以通過自然語言進行指導;還內置了定期調查用戶健康狀況的機制,并主動為他們提供調整信息流的選項。

默認情況下,OpenAI會向用戶顯示主要針對關注或互動的人的內容,并優先顯示模型認為用戶最有可能用作創作靈感的視頻;不會針對用戶在動態信息流中花費的時間進行優化,明確設計這款應用的初衷是最大限度地提升創作量,而非消費量。

在青少年保護方面,OpenAI將通過ChatGPT推出Sora家長控制功能,以便家長可以覆蓋無限滾動限制、關閉算法個性化以及管理私信設置。

在客串功能方面,用戶可以與Sora端到端地掌控肖像。只有用戶本人才能決定誰可以使用自己的客串,并且可以隨時撤銷訪問權限或移除包含該客串的任何視頻。用戶可以隨時查看包含您客串的視頻,包括其他人創建的草稿。

OpenAI在這款應用中處理了許多安全問題,例如肖像使用方面的知情同意、出處確認、防止有害內容的生成等等。

剛剛,Sora 2來了!OpenAI還發了“AI抖音”,阿爾特曼被“玩壞”

其他應用的很多問題都源于其盈利模式。OpenAI目前唯一的計劃是,如果需求量相對于可用計算能力過大,最終允許用戶選擇支付一定金額來生成額外的視頻。

結語:Sora 2憋大招,或推動視頻生成產業洗牌

自OpenAI在2024年2月發布Sora已經過去超一年半時間,Sora 2終于到來。從效果來看,這款模型在模擬真實性、可控性及音效方面都有比較大的進展,有望推動視頻生成產業格局加速洗牌。

視頻模型正在飛速發展,通用世界模擬器不僅提供了新的內容生成方式,還有望重塑人際溝通方式。OpenAI正通過全新的Sora社交App靠近這一目標,也標志視頻生成模型在落地應用上更加成熟。