智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

智東西（公眾號：zhidxcom）
作者?|?香草
編輯?|?李水青

全量上線，免費可用！

智東西7月26日報道，今天一早，大模型獨角獸智譜AI正式發布視頻生成工具清影，可支持文生、圖生6秒時長的視頻，即日起在PC端、手機App端以及小程序端面向所有C端用戶免費開放。

先來看看效果，以下是幾個(ge)官方(fang)放出(chu)的(de)文生(sheng)(sheng)和圖生(sheng)(sheng)視頻案例，覆蓋(gai)人像、動(dong)物、3D卡通等(deng)場景：

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

從Demo來(lai)(lai)看(kan)，清影(ying)的(de)(de)生(sheng)成(cheng)效(xiao)果(guo)雖(sui)然(ran)相比Sora等還(huan)有一定進步空間，但就整體而言流暢度、運動(dong)幅(fu)度等都很不錯，無論(lun)是(shi)人(ren)物表(biao)情、動(dong)作(zuo)，還(huan)是(shi)光(guang)影(ying)變化、鏡頭移動(dong)，都沒(mei)有明顯的(de)(de)卡頓和突(tu)兀感，對運動(dong)幅(fu)度的(de)(de)把控也恰到好處，不會看(kan)起來(lai)(lai)像PPT也不會過于夸張(zhang)。

此外，雖然生成是完全免費的，但生成視頻需要排隊，智譜AI提供了兩種加速排隊的(de)訂閱方式，包(bao)括5元加(jia)速1天、199元加(jia)速1年。

清影API今天也同步上線，企業和開發者都可以通過調用API的方式，體驗并使用清影的文生、圖生視頻能力，據稱這也是國內上線的首個視頻生成API。

據智譜AI CEO張鵬解讀，清影基于自研的底座視頻生成模型CogVideoX打造，能將(jiang)文本、時(shi)間、空間三(san)個維度(du)融合起來。該模(mo)型(xing)參考Sora算法設計，采用了DiT架構，相(xiang)比前(qian)代CogVideo模(mo)型(xing)推理速度(du)提(ti)升了6倍。

智譜AI成立于(yu)2019年6月，起(qi)源于(yu)清華(hua)大學計算機系(xi)知識工程實驗室，專注于(yu)開發新一(yi)代(dai)認知智能(neng)大模(mo)型。一(yi)直(zhi)以來，智譜AI以對標OpenAI全(quan)模(mo)型產品線為線索，陸續研(yan)發了包括文(wen)本、代(dai)碼、圖像、Agent等(deng)方面的(de)(de)自研(yan)模(mo)型和產品矩陣。此次發布基于(yu)CogVideoX的(de)(de)清影，使其大模(mo)型矩陣又擴充(chong)類一(yi)個模(mo)態。

值(zhi)得一(yi)提的是(shi)，這(zhe)也是(shi)國內做(zuo)語言大模型(xing)起家的大模型(xing)獨角(jiao)獸，首次推出視(shi)頻(pin)生(sheng)成產品——之前這(zhe)個賽(sai)道更多的是(shi)字節、快手(shou)等短(duan)視(shi)頻(pin)大廠，以(yi)及愛詩科技(ji)、生(sheng)數科技(ji)等專注(zhu)于視(shi)頻(pin)生(sheng)成模型(xing)的創企。

清影具體有哪些特點？其底層模型在哪些方面做了創新？具體效果如何？智東西第一時間上手實測了一番，有以下幾點發現：

1、簡短的提示詞效果更好，復雜(za)指令下會(hui)丟失(shi)細節。

2、人手仍是重災區，容易出(chu)現畫面閃爍的現象。

3、生成很快，但加上排隊等待時間仍達到1-2分鐘(zhong)。

4、相比圖生視頻，文生視頻的穩定性更高。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

當然(ran)，有(you)限次(ci)的體驗無法做到(dao)全面，也歡迎(ying)感(gan)興趣(qu)的讀者(zhe)朋(peng)友，在評論(lun)區分享體驗感(gan)受和新發現~

一、半分鐘生成6秒視頻，復雜指令、內容連貫

清影(ying)主要有4個(ge)特(te)點：生成(cheng)速度(du)快、復雜指令遵從(cong)能(neng)力強、內容連貫性高(gao)以及畫面調度(du)幅(fu)度(du)大。

首先在生成速度上，清影AI據稱可以在30秒(miao)內生成一段6秒(miao)、幀率16fps、分辨率1440*960的(de)視(shi)頻。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

▲實時演示視頻生(sheng)成（動(dong)圖有加速(su)）

其次，在復雜指令遵從能力上，智譜AI自研(yan)了視(shi)頻(pin)理解模型，用(yong)于為視(shi)頻(pin)數據生成高度吻(wen)合的文本描述，進而構建(jian)了海量高質量視(shi)頻(pin)文本對，提升了指令遵循(xun)度。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

▲復雜指令演示

清影的第三個特點是內容連貫性，能夠比較好地還原物理世界當中(zhong)的一(yi)些運動(dong)的過程。

例如基于這張大家(jia)熟悉(xi)的杜甫畫作(zuo)，清影讓杜甫不(bu)僅動了起來(lai)，而且非常自然順滑地端起了一杯咖(ka)啡。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

▲內容連貫性

最后在畫面調度方面，清(qing)影采用(yong)文本、時間、空間融(rong)合的Diffusion Transformer架(jia)構，可(ke)生成遵循特定(ding)運(yun)動規則的動態視頻。

智譜AI豪邁地放出了幾十個Demo，其中不乏有一些效果驚艷，比如這個：木頭上長出兩朵奇特的透明塑料花。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

“透明塑(su)料花”不是真實存在(zai)的(de)，清影的(de)想象力和審美在(zai)這個案(an)例中得以展(zhan)現。

再比如這個：比得兔開小汽車，游走在馬路上，臉上的表情充滿開心喜悅，全景畫面。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

清(qing)影(ying)繪制(zhi)的兔(tu)子表情很豐富，沒有出(chu)現五官扭曲(qu)的情況，前后(hou)景別還(huan)加了景深處理。

人像案例清影也拿捏住了，比如這個提示詞：油畫風格，美麗的少女側顏，光透過樹形成斑駁的影子，柔光落在她臉上。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

整個畫(hua)面光影(ying)對比鮮(xian)明，不過漏失了(le)“油畫(hua)”、“斑駁的(de)影(ying)子”等細節(jie)。

二、實測上手有驚艷也有翻車，付費加速有些雞肋

官方演示雖(sui)好，但清(qing)影(ying)到底好不好用，還是得自己試一下才能知道。打開清(qing)影(ying)網頁端，可以看到有(you)文(wen)生(sheng)、圖生(sheng)視頻兩(liang)種功能。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

▲清影網頁端

在文生視頻中，我可以選擇(ze)視頻風格，包(bao)括卡(ka)通3D、黑白老(lao)照片(pian)、油(you)畫(hua)等；也(ye)可以選擇(ze)情感氛圍(wei)，包(bao)括溫馨和諧、生動(dong)活潑、緊(jin)張刺激、凄涼寂寞等；運(yun)鏡方(fang)式包(bao)括水(shui)平、垂直、推近(jin)、拉遠四種。

在圖生視頻中(zhong)，我可(ke)以(yi)為圖(tu)片添加文字描述，如(ru)果不知道寫什么也(ye)可(ke)以(yi)空著，或是讓系統(tong)隨機(ji)生成(cheng)一(yi)個(ge)提示(shi)詞(ci)。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

▲兩種模式

首先我嘗試了一組動物場景的提示詞，第一個為：一只藍貓在貓爬架上，正在吃主人遞過來的芝士漢堡，情感氛圍(wei)選(xuan)擇(ze)了溫馨和(he)諧(xie)。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

可以看(kan)到，清影準(zhun)確理解了(le)提示詞(ci)，整(zheng)體效果還是很(hen)不錯的。對于提示詞(ci)中細節，包括貓的品種、漢堡的種類以及“遞過來”的動作(zuo)等，都表達得比較精準(zhun)，人手也沒有翻車。

第二個提示詞為：一只橘貓把鼠標推下桌子，情感氛(fen)圍為(wei)生動活潑。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

這次清影表(biao)現得一(yi)般(ban)，鼠標上莫名其妙拴了一(yi)只小老鼠就算了，“推下桌子”的(de)動作也是完全沒有體現。

前兩個提示詞都屬于寫實場景，第三個提示詞則有些“魔幻現實”：一只白貓在車里駕駛，穿過繁忙的市區街道，背景是高樓和行人，情感氛圍(wei)為緊張刺(ci)激。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

清影對于這個提示詞(ci)的(de)理解和呈現(xian)都還比(bi)(bi)較準確，背景(jing)中動態場景(jing)的(de)運動幅度、一致性(xing)也(ye)比(bi)(bi)較高，但是穩(wen)定性(xing)還有所欠缺，畫面會(hui)出現(xian)抖動的(de)情況。

第二組提示詞我嘗試了人物場景。首先來試試經典的吃面：一個男人坐在桌邊吃面條，情感氛圍為凄涼寂寞。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

在(zai)這個經典(dian)難題(ti)上(shang)，清影的表現還算可以，乍一看沒什么錯誤(wu)。但細看之下，男人吃面的餐具用(yong)的是勺子(zi)，面條的形態也有些僵硬。

第二個提示詞是：一個女孩坐在米色沙發上，專心地用鉤針勾著一頂淺藍色帽子，情感(gan)氛圍為溫馨(xin)和(he)諧。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

這條(tiao)提示詞中我加入了(le)色彩的細節，清(qing)影都準(zhun)確地表(biao)現了(le)出來。女孩的鉤(gou)織動作也比較(jiao)真實，就是人手非常“鬼畜”。

第三個提示詞為：漂亮的水色瞳孔特寫，寫實風格，超清，情感氛圍為凄涼寂寞(mo)。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

清(qing)影生(sheng)成的視頻基本上滿足了我的預期，不(bu)過在特寫鏡頭下，人物的皮(pi)膚和(he)毛發都顯得(de)有些“油膩”。

最后我嘗試了讓清影自己生成提示詞，它直接整了這么長一段：雨天的咖啡館，以窗戶為媒介拍攝一個英式咖啡館內部，要清晰的拍攝咖啡館內部，捕捉咖啡館內的溫馨氛圍，然后變焦，對焦在雨滴拍打的窗戶上。細節上，注意捕捉顧客們的交談和笑容，以及雨水在窗戶上形成的光影效果，營造出舒適而寧靜的氛圍。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

結果很遺憾，清影自己給自己挖(wa)了(le)個坑，生成(cheng)的(de)不能說是(shi)視(shi)頻(pin)，稱之為動圖都有(you)些為難。畫面僅(jin)僅(jin)是(shi)平(ping)移放(fang)大了(le)一圈，也沒能體(ti)現提(ti)示詞中的(de)大部(bu)分內容(rong)。

體驗完文生視頻后，我又嘗試了圖生視頻。

首先在上傳圖片時，清影會提醒我對圖片進行裁切，且只能裁成進行固定比例的橫圖，這就造成了一定的局限性。上傳圖片之后，我輸入提示詞：花瓣在風中搖動。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

生成效果還(huan)是比(bi)較(jiao)準確的，不(bu)過這個提示(shi)詞本身(shen)的難度也(ye)不(bu)算大。

接著我上傳了一張(zhang)靜物(wu)圖，這次沒有輸入(ru)提示(shi)詞，看(kan)看(kan)清影會如何(he)自(zi)由發(fa)揮。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

這(zhe)張(zhang)圖上有很多獨立的物體，清影(ying)并沒有讓(rang)它們整(zheng)體運動而是為每個(ge)“小團子”添(tian)加(jia)了不同動態，整(zheng)體畫面(mian)比較(jiao)生動活潑。

第三張圖我上傳了一張戴著墨鏡的人像，提示詞為：男孩把墨鏡摘下來。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

這個提(ti)示(shi)詞(ci)的(de)難度很(hen)大，而且涉(she)及到“無中生有(you)”的(de)部(bu)分(fen)。清影成功表現了(le)“摘墨鏡”這一(yi)動作，不(bu)過摘了(le)是摘了(le)，但沒(mei)完(wan)全摘，墨鏡還在人臉上掛著，視頻(pin)后半(ban)段還出現了(le)人體不(bu)自然的(de)扭(niu)曲。

如果不要求它憑空生成人臉又會如何？我有上傳了一張舉著攝像機的人像照片，提示詞改為：男孩轉身面向鏡頭。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

結果這次(ci)清影(ying)反(fan)而整(zheng)了個(ge)人臉出來(lai)，就(jiu)是沒有眼(yan)白有些嚇人……不(bu)過忽略臉的(de)話，這次(ci)生成的(de)效(xiao)果轉身幅度更大，人物的(de)頭發(fa)也(ye)隨風飄(piao)動(dong)，就(jiu)是他(ta)手中的(de)器材(cai)變了個(ge)模樣，人手也(ye)有些不(bu)自然。

一(yi)番體驗(yan)下來，清(qing)影生成視頻的效(xiao)果有的驚艷到我，比如第一(yi)個小貓吃漢(han)堡的例子，文字理(li)解十分準確；也有的翻車(che)嚴重，比如咖(ka)啡廳、橘貓的例子中(zhong)，失誤都(dou)比較大(da)。

整體來看，清(qing)影(ying)在(zai)生(sheng)成速度上確實比較(jiao)快，雖然(ran)較(jiao)宣傳的(de)30秒還(huan)(huan)有些(xie)偏差(cha)，但差(cha)不多1分鐘左右就能生(sheng)成視頻；在(zai)運動幅度、語義理解等方(fang)面(mian)，會比較(jiao)看運氣，不過(guo)這(zhe)也是(shi)所有視頻生(sheng)成工(gong)具(ju)的(de)通病。與(yu)市面(mian)上其他公開(kai)可用的(de)工(gong)具(ju)相比，清(qing)影(ying)在(zai)生(sheng)成時長、清(qing)晰(xi)度方(fang)面(mian)還(huan)(huan)有一(yi)定(ding)的(de)進步(bu)空(kong)間，不支持畫面(mian)比例的(de)選(xuan)擇(ze)也是(shi)一(yi)大遺憾。

值得一提的(de)是，清影目前的(de)視頻生(sheng)成是完全免費的(de)，不需要會員訂閱也沒有數量限(xian)制。不過(guo)在排(pai)隊生(sheng)成的(de)過(guo)程中，清影提醒我可以加(jia)速(su)。點擊加(jia)速(su)的(de)按鈕，可以看(kan)到它提供(gong)了(le)兩種訂閱方式：5塊錢加(jia)速(su)1天，或是199元加(jia)速(su)1年。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

▲加速排隊

該說不(bu)說，這個價格還是很實惠的，但為(wei)啥我(wo)加(jia)(jia)完(wan)速(su)排隊(dui)時(shi)間一(yi)點也沒(mei)減少呢……唯(wei)一(yi)的變化就(jiu)是，從“排隊(dui)中”變成(cheng)了(le)“加(jia)(jia)速(su)排隊(dui)中”。可能費(fei)用太便宜(yi)了(le)，大家都加(jia)(jia)速(su)就(jiu)相當于沒(mei)加(jia)(jia)速(su)吧（doge）。

三、自研端到端視頻模型，首個API同步上線

清影基于(yu)智譜AI自(zi)研的底層模型CogVideoX打造，具(ju)有(you)內(nei)容連(lian)貫、可控性(xing)高等特點。

在內容連貫性方(fang)面，智譜(pu)AI自研了(le)一個高效(xiao)的三維變分自編(bian)碼器(qi)結構，稱之為3D VAE。它能夠(gou)將原視頻空(kong)間(jian)壓縮至2%的大小，大大減少視頻擴散(san)生(sheng)成模(mo)型的訓(xun)練成本和難度，再(zai)配合3D RoPE（旋轉位置編(bian)碼）模(mo)塊，有利于(yu)在時(shi)間(jian)維度上捕捉(zhuo)幀間(jian)關系，建(jian)立食品中的長程依(yi)賴。

在可控性方(fang)面，智譜AI自研(yan)了一(yi)個端到端的(de)(de)(de)(de)視(shi)頻理(li)解模型，用(yong)于(yu)為海量(liang)的(de)(de)(de)(de)視(shi)頻數據生(sheng)成(cheng)(cheng)詳細(xi)的(de)(de)(de)(de)、貼合(he)內(nei)容的(de)(de)(de)(de)描述文本，從而增(zeng)強模型的(de)(de)(de)(de)文本理(li)解和指(zhi)(zhi)令遵循的(de)(de)(de)(de)能力，使生(sheng)成(cheng)(cheng)視(shi)頻更符合(he)用(yong)戶(hu)的(de)(de)(de)(de)輸(shu)入，理(li)解超長的(de)(de)(de)(de)復(fu)雜指(zhi)(zhi)令。

在模型結構上，CogVideoX采用了將(jiang)文本、時間、空間三(san)個維度全(quan)部(bu)融合起(qi)來的Transformer架構，摒棄了傳統的交叉注意力（Cross-Attention）模塊，將(jiang)文本和視頻兩個不同模態的空間進(jin)行對齊(qi)，能夠更好(hao)地(di)進(jin)行模態交互。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

▲CogVideoX特點

張鵬稱，在(zai)CogVideoX的研發過程中，智譜AI有一次驗證了Scaling Law在(zai)視頻生成方(fang)面的有效性和(he)可靠(kao)性，未來團隊會在(zai)繼(ji)續擴大(da)數據規(gui)模和(he)模型規(gui)模的同時，尋找更具突破式(shi)創新的模型架(jia)構。

智譜AI又一次實現了(le)對(dui)(dui)OpenAI全模(mo)型產(chan)品線的(de)對(dui)(dui)標。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

▲智譜AI對標OpenAI全模型產品線

在算(suan)力方面，清影是在北京(jing)亦莊AI公(gong)共算(suan)力平(ping)臺上(shang)訓練而來的。數據層(ceng)面，智譜(pu)AI與(yu)Bilibili、華(hua)策(ce)影視等進(jin)行了合作。

張(zhang)鵬談(tan)道(dao)，雖然(ran)視頻生(sheng)成(cheng)模型才剛剛起(qi)步，但已經(jing)受到了很多產(chan)業和(he)客戶(hu)側的需求(qiu)，涉及電商產(chan)品宣傳、影視特效等領域。

今天起，清(qing)影AI也同步在智譜AI大(da)模型開(kai)放平臺上線(xian)了API，企業和開(kai)發者都可以通(tong)過(guo)調用API的方式體驗并使(shi)用CogVideoX的文生(sheng)、圖生(sheng)視(shi)頻能力(li)，據(ju)稱這(zhe)也是國內上線(xian)的首個視(shi)頻生(sheng)成API。

隨(sui)著清影(ying)能力的(de)(de)加入，智譜AI旗下(xia)的(de)(de)AI助手清言App在功能的(de)(de)全(quan)面上再下(xia)一(yi)城，覆蓋對(dui)話、生圖、代碼、Agent和視(shi)頻。

智譜AI還(huan)準備了(le)一(yi)個(ge)One more thing——視(shi)頻(pin)(pin)生視(shi)頻(pin)(pin)能力(li)。不(bu)過準確來(lai)說，這相當于是一(yi)個(ge)手動視(shi)頻(pin)(pin)生視(shi)頻(pin)(pin)的(de)(de)能力(li)：基于智譜AI近日開源的(de)(de)視(shi)頻(pin)(pin)理(li)解(jie)模型CogVLM2-Video，用戶(hu)可以上(shang)傳視(shi)頻(pin)(pin)并提取出詳細的(de)(de)文字描述，再將文字輸(shu)入清影，實現“視(shi)頻(pin)(pin)生視(shi)頻(pin)(pin)”的(de)(de)效果。

智譜AI“中國版Sora”實測：6秒視頻排隊2分鐘，貓貓很可愛，人手很翻車

▲視頻生視頻

結語：又一強力玩家入局AI視頻生成

Sora發布(bu)后，AI視(shi)頻生(sheng)成迎來“第(di)二春(chun)”，無論是技術、產品(pin)的(de)(de)迭代，還是資本市場的(de)(de)關注，都(dou)達到了新(xin)的(de)(de)高度。光是本周，就(jiu)有快手(shou)宣布(bu)全球上線、愛詩(shi)科技發布(bu)第(di)二代模型，以及今天智譜AI入(ru)局等重磅進展。（）

不同于(yu)此前的文本、圖像模型(xing)賽道，國(guo)內長期處于(yu)追逐OpenAI等海外企(qi)業(ye)進展的狀態。在視頻生成領域，國(guo)內的大廠、創企(qi)在短短幾個月內實(shi)現彎道超車(che)，不僅打磨出了高質量的底層模型(xing)，而且個個公開可用甚至(zhi)免(mian)費，給至(zhi)今仍是期貨的Sora上了一課。

国产又黄又猛又粗又爽的A片,小祖宗┅┅快┅┅用力啊视频,国产精品麻豆欧美日韩ww,少妇精品无码一区二区免费视频,波多野结衣在线播放

一、半分鐘生成6秒視頻，復雜指令、內容連貫

二、實測上手有驚艷也有翻車，付費加速有些雞肋

三、自研端到端視頻模型，首個API同步上線

結語：又一強力玩家入局AI視頻生成

相關推薦