智東西(公眾號:zhidxcom
作者?|?香草
編輯?|?李水青

全量上線,免費可用!

智東西7月26日報道,今天一早,大模型獨角獸智譜AI正式發布視頻生成工具清影,可支持文生、圖生6秒時長的視頻,即日起在PC端、手機App端以及小程序端面向所有C端用戶免費開放

先來看看效果,以下是幾個(ge)官方(fang)放出(chu)的(de)文生(sheng)(sheng)和圖生(sheng)(sheng)視頻案例,覆蓋(gai)人像、動(dong)物、3D卡通等(deng)場景:

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

從Demo來(lai)(lai)看(kan),清影(ying)的(de)(de)生(sheng)成(cheng)效(xiao)果(guo)雖(sui)然(ran)相比Sora等還(huan)有一定進步空間,但就整體而言流暢度、運動(dong)幅(fu)度等都很不錯,無論(lun)是(shi)人(ren)物表(biao)情、動(dong)作(zuo),還(huan)是(shi)光(guang)影(ying)變化、鏡頭移動(dong),都沒(mei)有明顯的(de)(de)卡頓和突(tu)兀感,對運動(dong)幅(fu)度的(de)(de)把控也恰到好處,不會看(kan)起來(lai)(lai)像PPT也不會過于夸張(zhang)。

此外,雖然生成是完全免費的,但生成視頻需要排隊,智譜AI提供了兩種加速排隊的(de)訂閱方式,包(bao)括5元加(jia)速1天、199元加(jia)速1年。

清影API今天也同步上線,企業和開發者都可以通過調用API的方式,體驗并使用清影的文生、圖生視頻能力,據稱這也是國內上線的首個視頻生成API

智譜AI CEO張鵬解讀,清影基于自研的底座視頻生成模型CogVideoX打造,能將(jiang)文本、時(shi)間、空間三(san)個維度(du)融合起來。該模(mo)型(xing)參考Sora算法設計,采用了DiT架構,相(xiang)比前(qian)代CogVideo模(mo)型(xing)推理速度(du)提(ti)升了6倍。

智譜AI成立于(yu)2019年6月,起(qi)源于(yu)清華(hua)大學計算機系(xi)知識工程實驗室,專注于(yu)開發新一(yi)代(dai)認知智能(neng)大模(mo)型。一(yi)直(zhi)以來,智譜AI以對標OpenAI全(quan)模(mo)型產品線為線索,陸續研(yan)發了包括文(wen)本、代(dai)碼、圖像、Agent等(deng)方面的(de)(de)自研(yan)模(mo)型和產品矩陣。此次發布基于(yu)CogVideoX的(de)(de)清影,使其大模(mo)型矩陣又擴充(chong)類一(yi)個模(mo)態。

值(zhi)得一(yi)提的是(shi),這(zhe)也是(shi)國內做(zuo)語言大模型(xing)起家的大模型(xing)獨角(jiao)獸,首次推出視(shi)頻(pin)生(sheng)成產品——之前這(zhe)個賽(sai)道更多的是(shi)字節、快手(shou)等短(duan)視(shi)頻(pin)大廠,以(yi)及愛詩科技(ji)、生(sheng)數科技(ji)等專注(zhu)于視(shi)頻(pin)生(sheng)成模型(xing)的創企。

清影具體有哪些特點?其底層模型在哪些方面做了創新?具體效果如何?智東西第一時間上手實測了一番,有以下幾點發現:

1、簡短的提示詞效果更好,復雜(za)指令下會(hui)丟失(shi)細節。

2、人手仍是重災區,容易出(chu)現畫面閃爍的現象。

3、生成很快,但加上排隊等待時間仍達到1-2分鐘(zhong)

4、相比圖生視頻,文生視頻的穩定性更高

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

當然(ran),有(you)限次(ci)的體驗無法做到(dao)全面,也歡迎(ying)感(gan)興趣(qu)的讀者(zhe)朋(peng)友,在評論(lun)區分享體驗感(gan)受和新發現~

一、半分鐘生成6秒視頻,復雜指令、內容連貫

清影(ying)主要有4個(ge)特(te)點:生成(cheng)速度(du)快、復雜指令遵從(cong)能(neng)力強、內容連貫性高(gao)以及畫面調度(du)幅(fu)度(du)大。

首先在生成速度上,清影AI據稱可以在30秒(miao)內生成一段6秒(miao)、幀率16fps、分辨率1440*960的(de)視(shi)頻。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

▲實時演示視頻生(sheng)成(動(dong)圖有加速(su))

其次,在復雜指令遵從能力上,智譜AI自研(yan)了視(shi)頻(pin)理解模型,用(yong)于為視(shi)頻(pin)數據生成高度吻(wen)合的文本描述,進而構建(jian)了海量高質量視(shi)頻(pin)文本對,提升了指令遵循(xun)度。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

▲復雜指令演示

清影的第三個特點是內容連貫性,能夠比較好地還原物理世界當中(zhong)的一(yi)些運動(dong)的過程。

例如基于這張大家(jia)熟悉(xi)的杜甫畫作(zuo),清影讓杜甫不(bu)僅動了起來(lai),而且非常自然順滑地端起了一杯咖(ka)啡。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

▲內容連貫性

最后在畫面調度方面,清(qing)影采用(yong)文本、時間、空間融(rong)合的Diffusion Transformer架(jia)構,可(ke)生成遵循特定(ding)運(yun)動規則的動態視頻。

智譜AI豪邁地放出了幾十個Demo,其中不乏有一些效果驚艷,比如這個:木頭上長出兩朵奇特的透明塑料花

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

“透明塑(su)料花”不是真實存在(zai)的(de),清影的(de)想象力和審美在(zai)這個案(an)例中得以展(zhan)現。

再比如這個:比得兔開小汽車,游走在馬路上,臉上的表情充滿開心喜悅,全景畫面

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

清(qing)影(ying)繪制(zhi)的兔(tu)子表情很豐富,沒有出(chu)現五官扭曲(qu)的情況,前后(hou)景別還(huan)加了景深處理。

人像案例清影也拿捏住了,比如這個提示詞:油畫風格,美麗的少女側顏,光透過樹形成斑駁的影子,柔光落在她臉上

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

整個畫(hua)面光影(ying)對比鮮(xian)明,不過漏失了(le)“油畫(hua)”、“斑駁的(de)影(ying)子”等細節(jie)。

二、實測上手有驚艷也有翻車,付費加速有些雞肋

官方演示雖(sui)好,但清(qing)影(ying)到底好不好用,還是得自己試一下才能知道。打開清(qing)影(ying)網頁端,可以看到有(you)文(wen)生(sheng)、圖生(sheng)視頻兩(liang)種功能。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

▲清影網頁端

文生視頻中,我可以選擇(ze)視頻風格,包(bao)括卡(ka)通3D、黑白老(lao)照片(pian)、油(you)畫(hua)等;也(ye)可以選擇(ze)情感氛圍(wei),包(bao)括溫馨和諧、生動(dong)活潑、緊(jin)張刺激、凄涼寂寞等;運(yun)鏡方(fang)式包(bao)括水(shui)平、垂直、推近(jin)、拉遠四種。

圖生視頻中(zhong),我可(ke)以(yi)為圖(tu)片添加文字描述,如(ru)果不知道寫什么也(ye)可(ke)以(yi)空著,或是讓系統(tong)隨機(ji)生成(cheng)一(yi)個(ge)提示(shi)詞(ci)。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

▲兩種模式

首先我嘗試了一組動物場景的提示詞,第一個為:一只藍貓在貓爬架上,正在吃主人遞過來的芝士漢堡,情感氛圍(wei)選(xuan)擇(ze)了溫馨和(he)諧(xie)。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

可以看(kan)到,清影準(zhun)確理解了(le)提示詞(ci),整(zheng)體效果還是很(hen)不錯的。對于提示詞(ci)中細節,包括貓的品種、漢堡的種類以及“遞過來”的動作(zuo)等,都表達得比較精準(zhun),人手也沒有翻車。

第二個提示詞為:一只橘貓把鼠標推下桌子,情感氛(fen)圍為(wei)生動活潑。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

這次清影表(biao)現得一(yi)般(ban),鼠標上莫名其妙拴了一(yi)只小老鼠就算了,“推下桌子”的(de)動作也是完全沒有體現。

前兩個提示詞都屬于寫實場景,第三個提示詞則有些“魔幻現實”:一只白貓在車里駕駛,穿過繁忙的市區街道,背景是高樓和行人,情感氛圍(wei)為緊張刺(ci)激。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

清影對于這個提示詞(ci)的(de)理解和呈現(xian)都還比(bi)(bi)較準確,背景(jing)中動態場景(jing)的(de)運動幅度、一致性(xing)也(ye)比(bi)(bi)較高,但是穩(wen)定性(xing)還有所欠缺,畫面會(hui)出現(xian)抖動的(de)情況。

第二組提示詞我嘗試了人物場景。首先來試試經典的吃面:一個男人坐在桌邊吃面條,情感氛圍為凄涼寂寞。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

在(zai)這個經典(dian)難題(ti)上(shang),清影的表現還算可以,乍一看沒什么錯誤(wu)。但細看之下,男人吃面的餐具用(yong)的是勺子(zi),面條的形態也有些僵硬。

第二個提示詞是:一個女孩坐在米色沙發上,專心地用鉤針勾著一頂淺藍色帽子,情感(gan)氛圍為溫馨(xin)和(he)諧。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

這條(tiao)提示詞中我加入了(le)色彩的細節,清(qing)影都準(zhun)確地表(biao)現了(le)出來。女孩的鉤(gou)織動作也比較(jiao)真實,就是人手非常“鬼畜”。

第三個提示詞為:漂亮的水色瞳孔特寫,寫實風格,超清,情感氛圍為凄涼寂寞(mo)。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

清(qing)影生(sheng)成的視頻基本上滿足了我的預期,不(bu)過在特寫鏡頭下,人物的皮(pi)膚和(he)毛發都顯得(de)有些“油膩”。

最后我嘗試了讓清影自己生成提示詞,它直接整了這么長一段:雨天的咖啡館,以窗戶為媒介拍攝一個英式咖啡館內部,要清晰的拍攝咖啡館內部,捕捉咖啡館內的溫馨氛圍,然后變焦,對焦在雨滴拍打的窗戶上。細節上,注意捕捉顧客們的交談和笑容,以及雨水在窗戶上形成的光影效果,營造出舒適而寧靜的氛圍。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

結果很遺憾,清影自己給自己挖(wa)了(le)個坑,生成(cheng)的(de)不能說是(shi)視(shi)頻(pin),稱之為動圖都有(you)些為難。畫面僅(jin)僅(jin)是(shi)平(ping)移放(fang)大了(le)一圈,也沒能體(ti)現提(ti)示詞中的(de)大部(bu)分內容(rong)。

體驗完文生視頻后,我又嘗試了圖生視頻

首先在上傳圖片時,清影會提醒我對圖片進行裁切,且只能裁成進行固定比例的橫圖,這就造成了一定的局限性。上傳圖片之后,我輸入提示詞:花瓣在風中搖動

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

生成效果還(huan)是比(bi)較(jiao)準確的,不(bu)過這個提示(shi)詞本身(shen)的難度也(ye)不(bu)算大。

接著我上傳了一張(zhang)靜物(wu)圖,這次沒有輸入(ru)提示(shi)詞,看(kan)看(kan)清影會如何(he)自(zi)由發(fa)揮。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

這(zhe)張(zhang)圖上有很多獨立的物體,清影(ying)并沒有讓(rang)它們整(zheng)體運動而是為每個(ge)“小團子”添(tian)加(jia)了不同動態,整(zheng)體畫面(mian)比較(jiao)生動活潑。

第三張圖我上傳了一張戴著墨鏡的人像,提示詞為:男孩把墨鏡摘下來

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

這個提(ti)示(shi)詞(ci)的(de)難度很(hen)大,而且涉(she)及到“無中生有(you)”的(de)部(bu)分(fen)。清影成功表現了(le)“摘墨鏡”這一(yi)動作,不(bu)過摘了(le)是摘了(le),但沒(mei)完(wan)全摘,墨鏡還在人臉上掛著,視頻(pin)后半(ban)段還出現了(le)人體不(bu)自然的(de)扭(niu)曲。

如果不要求它憑空生成人臉又會如何?我有上傳了一張舉著攝像機的人像照片,提示詞改為:男孩轉身面向鏡頭

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

結果這次(ci)清影(ying)反(fan)而整(zheng)了個(ge)人臉出來(lai),就(jiu)是沒有眼(yan)白有些嚇人……不(bu)過忽略臉的(de)話,這次(ci)生成的(de)效(xiao)果轉身幅度更大,人物的(de)頭發(fa)也(ye)隨風飄(piao)動(dong),就(jiu)是他(ta)手中的(de)器材(cai)變了個(ge)模樣,人手也(ye)有些不(bu)自然。

一(yi)番體驗(yan)下來,清(qing)影生成視頻的效(xiao)果有的驚艷到我,比如第一(yi)個小貓吃漢(han)堡的例子,文字理(li)解十分準確;也有的翻車(che)嚴重,比如咖(ka)啡廳、橘貓的例子中(zhong),失誤都(dou)比較大(da)。

整體來看,清(qing)影(ying)在(zai)生(sheng)成速度上確實比較(jiao)快,雖然(ran)較(jiao)宣傳的(de)30秒還(huan)(huan)有些(xie)偏差(cha),但差(cha)不多1分鐘左右就能生(sheng)成視頻;在(zai)運動幅度、語義理解等方(fang)面(mian),會比較(jiao)看運氣,不過(guo)這(zhe)也是(shi)所有視頻生(sheng)成工(gong)具(ju)的(de)通病。與(yu)市面(mian)上其他公開(kai)可用的(de)工(gong)具(ju)相比,清(qing)影(ying)在(zai)生(sheng)成時長、清(qing)晰(xi)度方(fang)面(mian)還(huan)(huan)有一(yi)定(ding)的(de)進步(bu)空(kong)間,不支持畫面(mian)比例的(de)選(xuan)擇(ze)也是(shi)一(yi)大遺憾。

值得一提的(de)是,清影目前的(de)視頻生(sheng)成是完全免費的(de),不需要會員訂閱也沒有數量限(xian)制。不過(guo)在排(pai)隊生(sheng)成的(de)過(guo)程中,清影提醒我可以加(jia)速(su)。點擊加(jia)速(su)的(de)按鈕,可以看(kan)到它提供(gong)了(le)兩種訂閱方式:5塊錢加(jia)速(su)1天,或是199元加(jia)速(su)1年。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

▲加速排隊

該說不(bu)說,這個價格還是很實惠的,但為(wei)啥我(wo)加(jia)(jia)完(wan)速(su)排隊(dui)時(shi)間一(yi)點也沒(mei)減少呢……唯(wei)一(yi)的變化就(jiu)是,從“排隊(dui)中”變成(cheng)了(le)“加(jia)(jia)速(su)排隊(dui)中”。可能費(fei)用太便宜(yi)了(le),大家都加(jia)(jia)速(su)就(jiu)相當于沒(mei)加(jia)(jia)速(su)吧(doge)。

三、自研端到端視頻模型,首個API同步上線

清影基于(yu)智譜AI自(zi)研的底層模型CogVideoX打造,具(ju)有(you)內(nei)容連(lian)貫、可控性(xing)高等特點。

內容連貫性方(fang)面,智譜(pu)AI自研了(le)一個高效(xiao)的三維變分自編(bian)碼器(qi)結構,稱之為3D VAE。它能夠(gou)將原視頻空(kong)間(jian)壓縮至2%的大小,大大減少視頻擴散(san)生(sheng)成模(mo)型的訓(xun)練成本和難度,再(zai)配合3D RoPE(旋轉位置編(bian)碼)模(mo)塊,有利于(yu)在時(shi)間(jian)維度上捕捉(zhuo)幀間(jian)關系,建(jian)立食品中的長程依(yi)賴。

可控性方(fang)面,智譜AI自研(yan)了一(yi)個端到端的(de)(de)(de)(de)視(shi)頻理(li)解模型,用(yong)于(yu)為海量(liang)的(de)(de)(de)(de)視(shi)頻數據生(sheng)成(cheng)(cheng)詳細(xi)的(de)(de)(de)(de)、貼合(he)內(nei)容的(de)(de)(de)(de)描述文本,從而增(zeng)強模型的(de)(de)(de)(de)文本理(li)解和指(zhi)(zhi)令遵循的(de)(de)(de)(de)能力,使生(sheng)成(cheng)(cheng)視(shi)頻更符合(he)用(yong)戶(hu)的(de)(de)(de)(de)輸(shu)入,理(li)解超長的(de)(de)(de)(de)復(fu)雜指(zhi)(zhi)令。

模型結構上,CogVideoX采用了將(jiang)文本、時間、空間三(san)個維度全(quan)部(bu)融合起(qi)來的Transformer架構,摒棄了傳統的交叉注意力(Cross-Attention)模塊,將(jiang)文本和視頻兩個不同模態的空間進(jin)行對齊(qi),能夠更好(hao)地(di)進(jin)行模態交互。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

▲CogVideoX特點

張鵬稱,在(zai)CogVideoX的研發過程中,智譜AI有一次驗證了Scaling Law在(zai)視頻生成方(fang)面的有效性和(he)可靠(kao)性,未來團隊會在(zai)繼(ji)續擴大(da)數據規(gui)模和(he)模型規(gui)模的同時,尋找更具突破式(shi)創新的模型架(jia)構。

智譜AI又一次實現了(le)對(dui)(dui)OpenAI全模(mo)型產(chan)品線的(de)對(dui)(dui)標。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

▲智譜AI對標OpenAI全模型產品線

在算(suan)力方面,清影是在北京(jing)亦莊AI公(gong)共算(suan)力平(ping)臺上(shang)訓練而來的。數據層(ceng)面,智譜(pu)AI與(yu)Bilibili、華(hua)策(ce)影視等進(jin)行了合作。

張(zhang)鵬談(tan)道(dao),雖然(ran)視頻生(sheng)成(cheng)模型才剛剛起(qi)步,但已經(jing)受到了很多產(chan)業和(he)客戶(hu)側的需求(qiu),涉及電商產(chan)品宣傳、影視特效等領域。

今天起,清(qing)影AI也同步在智譜AI大(da)模型開(kai)放平臺上線(xian)了API,企業和開(kai)發者都可以通(tong)過(guo)調用API的方式體驗并使(shi)用CogVideoX的文生(sheng)、圖生(sheng)視(shi)頻能力(li),據(ju)稱這(zhe)也是國內上線(xian)的首個視(shi)頻生(sheng)成API。

隨(sui)著清影(ying)能力的(de)(de)加入,智譜AI旗下(xia)的(de)(de)AI助手清言App在功能的(de)(de)全(quan)面上再下(xia)一(yi)城,覆蓋對(dui)話、生圖、代碼、Agent和視(shi)頻。

智譜AI還(huan)準備了(le)一(yi)個(ge)One more thing——視(shi)頻(pin)(pin)生視(shi)頻(pin)(pin)能力(li)。不(bu)過準確來(lai)說,這相當于是一(yi)個(ge)手動視(shi)頻(pin)(pin)生視(shi)頻(pin)(pin)的(de)(de)能力(li):基于智譜AI近日開源的(de)(de)視(shi)頻(pin)(pin)理(li)解(jie)模型CogVLM2-Video,用戶(hu)可以上(shang)傳視(shi)頻(pin)(pin)并提取出詳細的(de)(de)文字描述,再將文字輸(shu)入清影,實現“視(shi)頻(pin)(pin)生視(shi)頻(pin)(pin)”的(de)(de)效果。

智譜AI“中國版Sora”實測:6秒視頻排隊2分鐘,貓貓很可愛,人手很翻車

▲視頻生視頻

結語:又一強力玩家入局AI視頻生成

Sora發布(bu)后,AI視(shi)頻生(sheng)成迎來“第(di)二春(chun)”,無論是技術、產品(pin)的(de)(de)迭代,還是資本市場的(de)(de)關注,都(dou)達到了新(xin)的(de)(de)高度。光是本周,就(jiu)有快手(shou)宣布(bu)全球上線、愛詩(shi)科技發布(bu)第(di)二代模型,以及今天智譜AI入(ru)局等重磅進展。()

不同于(yu)此前的文本、圖像模型(xing)賽道,國(guo)內長期處于(yu)追逐OpenAI等海外企(qi)業(ye)進展的狀態。在視頻生成領域,國(guo)內的大廠、創企(qi)在短短幾個月內實(shi)現彎道超車(che),不僅打磨出了高質量的底層模型(xing),而且個個公開可用甚至(zhi)免(mian)費,給至(zhi)今仍是期貨的Sora上了一課。