智東西(公眾號:zhidxcom)
編輯?| ?GTIC
智東西4月13日報道,在剛剛落幕的GTIC 2023中國AIGC創新峰會上,快手MMU自然語言處理中心、音頻中心負責人張富崢進行了主題為《AIGC在快手的探索和應用》的演講。
短視頻場景存在包括短視頻、直播、商業化廣告、電商商品在內的海量復雜內容形態,對AIGC技術有廣泛的需求。
快手MMU自然語言處理中心、音頻中心負責人張富崢通過演示AI生成數字人、智能音樂生成、一鍵成片的最新案例,分享了快手在AIGC的探索和應用。
張富崢說:“AIGC基于創作者的想法來進行內容輸入,再通過AI技術合成內容。”快手通過平臺引擎、基礎設施、AI原子能力、AIGC解決方案、落地場景等多方面布局了AIGC。
據張富崢介紹,在數字人的應用中,用戶只用簡單輸入文字,5分鐘內就能生成具備精確口型、豐富表情/動作的專屬數字人,能用于知識分享、電商帶貨、行業招聘等多個場景。
在智能音樂方面,用戶可以輸入指定的主題詞等信息,AI就能生成押韻且與主題詞相關的歌詞、旋律,AI歌手等應用也已接近真人的歌唱水平。
在視頻制作方面,快手旗下視頻軟件快影的“一鍵成片”功能日均消費量超4.5億,文案成片日均作品消費量超4000萬。
以下為張富崢的演講實錄:
大家上午好!我是張富崢。
非常感謝主辦方邀請我來跟大家做分享,前面的老師和嘉賓也講到行業上最近確實出現了很多顛覆性的變化與進展,無論是文本大模型、多模態大模型,還是以此催生出來的最近的AIGC浪潮,都確確實實給技術行業包括工業界帶來了非常多的變化。
在這個進程中,快手作為一家短視頻公司,我們也一直在做相關的研發和響應的業務應用。今天非常榮幸在這里跟大家分享AIGC在快手里有哪些階段性的成果。??
首先,跟大家簡單介紹一下AIGC的概念,AIGC本質上基于底層的文本大模型或是多模態大模型,能用AI的方式自動生成各式各樣的內容,包括文字內容、圖片內容、語言內容、多模態視頻內容等,這些內容的生成方式可能與傳統的UGC(用戶生成內容)或是專業的PGC(專業生成內容)相比,確實能做得很好。
以前的任何一種方式很難在成本和質量之間做到兼顧,要么是質量很高的PGC,但是成本難以接受,能產生的影響相對來說較小,也只有非常頭部的機構才能去制作這些高質量的內容。
在移動互聯網時代,網絡信息中有很多的UGC內容,這些UGC內容的覆蓋面非常廣,量也足夠多,但是很多場合下的質量不夠高。所以通過AIGC方式,無論是ChatGPT還是大家目前所看到的各種以文生圖的方式,能生成很多質量非常高的圖片,再加上完全自動化的機器生成方式,我們能在質量和成本之間做到同時兼顧。這也證明AIGC確實蘊含著巨大的機會。
快手在整個AIGC從賽道上會有很多的布局,我們可以看到,無論是AIGC的能力,還是大語言模型的能力,本質上是一系列工作的整合,從底層的訓練平臺、云原生服務架構,再往上會有更多的基礎設施,以及AI原子能力和AIGC解決方案,比如視頻創作、智能音樂生成、虛擬人等等。
有了這些AIGC解決能力之后,我們就能更好地服務各個應用場景,包括快手內部幫助內容生產者制造出更好的視頻內容,幫助電商場景更好地進行主播帶貨等等。
今天我主要跟大家分享快手在AIGC領域的3個階段性成果:數字人、智能音樂和視頻生成。
一、數字人:模擬人類表情神態,適用于知識分享、直播帶貨等場景
第一個是數字人的場景。
數字人是通過機器產生人格化的內容表達的典型應用,我們知道,真人主播在很多場景下還是會有門檻,比如主播的時間、主播的表達方式等,對于很多商家和個人創作者而言,它都有一個進入門檻。我們希望通過數字人的方式,幫助商家去更好地創作視頻,包括直播的內容等。
大家可以看我們現在應用的例子,主要包括知識類、招聘類和電商類三種數字人主播。

知識類數字人主播能為用戶介紹知識類視頻,此外,快手短視頻中有很多招聘的業務場景,招聘類數字人主播可以滿足大量的用工需求,找到相應的求職者。在招聘場景中,真人主播的數量是遠遠不夠的,數字人主播就能幫助求職者和企業之間進行很好的連接。
另外一個是非常典型的電商場景,數字人主播能詳細介紹商品內容,還具備實時互動的能力,能夠觀眾進行交互。
數字人主播呈現出來的效果代表著非常典型的AIGC能力,有表情、動作的驅動,這種驅動本質上就是從輸入的文字信息去生成圖片信息的方式。這其中也包括劇本創作,創作者、商家甚至不需要向數字人提供文案,只用告訴幾個關鍵詞,它就能寫一段商品介紹,還能根據劇本創作的方式輸出內容,包括智能交互、畫面渲染、語言合成等AIGC相關技術。
接下來我主要和大家分享表情生成這個模塊。
大家可以看到,表情生成的技術就是要通過文本去生成虛擬人、數字人的圖像,而且這種圖像還要能隨著視頻流的推進,自然得像真實的人類主播一樣,嘴型、面部表情能動起來,而這其中有非常多的技術挑戰。

挑戰之一是我們的錄制數據量少。這和大模型一樣需要以預訓練作為技術底座,用海量數據來訓練一個高質量的模型,再根據具體的業務場景需求來進行微調,以達到一個比較好的效果狀態。其中還包括一些實時性,整體上要保證快速交付,以天級別來完成數字主播的復刻,并保證數字人的形象、動作、語音都屬于比較自然的狀態。
目前數字人已有不少進展。核心亮點在于我們能提供不同的需求場景,分為大眾化和專業定制兩種版本,適配不同類型的用戶。對于大眾化的版本,如果用戶對于質量要求不算特別高、不是一點小瑕疵都不能接受的話,就僅僅只需要拍攝五分鐘的素材,就能根據素材來自定義自己的數字人主播。即使是特定的專業場景,也只需要20分鐘來生成高質量的數字人主播。
這些技術已經應用到快手的各個場景當中,比如知識類主播、電商、招聘場景等都已經廣泛應用。
二、智能音樂:歌詞、旋律自動生成,AI歌手仿真演唱
下面主要跟大家分享一下AIGC智能音樂的創作。
對于一家短視頻公司而言,音樂是很重要的一個部分。當前音樂行業的典型制作流程非常流水線化,里面包含很多個模塊,比如音樂人最開始有自己的動機,這種動機包括它腦海中想到的旋律、節奏或是這個音樂應該表達出來的情緒。用這種原始的想法來進行一些專業的分工,比如作詞人怎么根據情緒、節奏來做一首合適的歌詞,作曲人怎么根據歌詞、節奏旋律來編曲,還包括后面的混錄等等,整個流程都非常的流水線化。
其中的很多環節都可以通過AI來幫助創作者去提高效率,甚至在場景下實現完全自動化。歌詞可以用AIGC來自動生成,我們只需要給它輸入指定信息,如這首歌的歌名、主題等。它最后生成的歌詞還能滿足歌詞中的很多限制,比如最后一個詞需要滿足押韻的條件,通過AIGC技術能夠很好地實現這樣的效果。
那整個歌詞生成技術的細節,要通過什么樣的AI技術可以達到效果呢?

我們使用的是類似大模型的方式。雖然目前階段沒有到千億以上的這種規模,但是已經可以通過類似方式,通過海量數據獲取、多階段預訓練和微調模式來這些技術。其中,包括歌詞領域中很多限制類知識我們也添加了進去,通過Transformer去把歌詞一個一個的產生出來。
音樂制作除了制作歌詞,還需要制作旋律,而且旋律在其中尤為關鍵。
所謂旋律,按照自然語言的思路來看,其本質上也是一種序列,只是序列中有特定的高低音關系和節奏關系,每個歌詞由音高和音低的組合,使得大家聽上去能感受到一種旋律的節奏信息。
我在這里舉兩個通過AIGC生成的節奏的例子。通過輸入慢節奏關鍵詞來生成一段旋律時,旋律是比較舒緩地,當輸入快節奏的關鍵詞,它又能生成節奏更加快的旋律。當然,當我們給它更多的關鍵詞時,它又能生成更加復雜的、符合用戶需求的旋律。
整個旋律生成的技術框架本質上其實和歌詞生成很類似,只是輸入和模型的細節會有很多不同。怎么得到一段旋律?有很多種方式,識別、轉錄已有的曲譜等就能得到旋律的數據信息。

快手有個典型例子,通過旋律生成、歌詞生成,最后讓專業的歌手來演唱這首歌。我們輸入了主題信息,然后它輸出對應的歌詞,有了這些歌詞之后再找到一個真實的專業歌手來演唱,之后再進一步基于這個演唱來改寫旋律。最終得到的成品是由AI生成的歌詞和旋律,但是是由專業歌手唱出來的。
唱歌其實本身也是一件有高門檻的事情,要求人有很高的天賦。我們也希望讓AI歌手來唱歌,并在很多場景中幫助到我們的專業歌手,還要能為用戶在真實的短視頻創作中提供幫助。AI歌手的技術也是輸入歌詞和旋律信息之后,用AI的方式去產生歌手的合成聲音。
這里也可以舉個例子。快手內部的AI歌手張鳳琴,她有自己極具代表性的兩首歌,一首是古典的、慢節奏的舒緩風歌曲,另一首則更加現代,節奏比較快。
歌唱合成技術的技術底座也是通過類似序列生成的方式產生的,只是在聲學模型中要更加復雜一些,我們輸入歌詞及旋律,通過聲學模型得到一些更符合真人歌唱的特征,基于這些特征,通過解碼器、編碼器將AI的聲音用語音合成的方式生產出來。
三、一鍵成片、文字成片:分享生活場景,用戶創作量高達百萬
第三部分,想和大家分享一下視頻創作。
視頻創作對于快手這樣的短視頻公司確實是非常關鍵的。我們也有一些階段性的進展。目前的視頻創作方式還不是每個畫面、視頻流都完全用AI圖片來生成的,我們現在的技術是通過找到一些匹配的圖片并將它們連接起來,串聯成為一個視頻。
第一個場景是一鍵成片功能,這是在我們的APP快影中上線的一個功能,用戶可以選擇自己相冊中的幾張相片,點擊一鍵成片功能,生成右邊這樣的結果。一鍵成片還能把不同的圖片關聯起來,生成與之相對應的音樂,能滿足用戶對于這些場景的創作需求。這個功能上線之后,很多用戶都在使用,每天的作品創作數都在百萬以上,日均消費量4.5億以上。

文案成片功能比上一個功能還要再更進一步。
前面的功能還需要用戶自己選一些特定的圖片,文案成片只需要用戶告訴它一些文字信息,來表達自己當前的思想、情感,它就能幫用戶創作出來與之匹配的視頻。文案成片這個功能每天的作品量在10萬以上,每天消費量在4千萬以上。
通過這些方式,能幫助快手這樣一家短視頻公司更好地去服務創作者,服務消費者。
我和大家分享的內容到此結束,謝謝大家!
以上是張富崢演講內容的完整整理。