智東西(公眾號:zhidxcom)
作者 |?徐珊
編輯 | 云鵬

智(zhi)東(dong)西(xi)4月25日(ri)報(bao)道,今天(tian)騰訊云(yun)(yun)智(zhi)能(neng)推出了騰訊云(yun)(yun)智(zhi)能(neng)小樣本(ben)數(shu)智(zhi)人生產平臺,從(cong)而實現(xian)“自(zi)助(zhu)式(shi)”數(shu)智(zhi)人生產制(zhi)作。

通過騰訊云智(zhi)能小樣本數智(zhi)人生(sheng)產平臺(tai),用(yong)戶只(zhi)需要3分(fen)鐘真(zhen)人口播視頻、100句語音素(su)材(cai),就可以在24小時內制作出與真(zhen)人近似的“數智(zhi)人”。

做一個數智人,現在你只需要3分鐘視頻和100句短語

目前,騰(teng)訊云(yun)智能主要將行業提供(gong)數智人底(di)層(ceng)aPaaS能力, 并且(qie)提供(gong)專屬(shu)的技術支(zhi)持(chi)(chi)和商機流量扶持(chi)(chi),而合(he)作伙伴主要負責為云(yun)智能數智人服務(wu)打造上層(ceng)應用(yong),形成數智人SaaS方案。

從現場我們了解到,目前騰訊云智能、騰訊優圖實驗室、騰訊AI LabNext Studios等多個業務團(tuan)隊都為該數智人(ren)工廠提供技術支(zhi)持。

做一個數智人,現在你只需要3分鐘視頻和100句短語

一、從數字人到數智人,騰訊數字人在口播等多領域應用

據(ju)騰(teng)(teng)訊(xun)(xun)云(yun)智能數(shu)(shu)智人(ren)產(chan)品總經理(li)陳磊透(tou)露,從2016年(nian)開始,騰(teng)(teng)訊(xun)(xun)就已經開始接(jie)觸對(dui)話式AI,也就是早(zao)期(qi)的數(shu)(shu)字人(ren)。2018年(nian),騰(teng)(teng)訊(xun)(xun)正式投(tou)入數(shu)(shu)智人(ren)研發和服(fu)務,成為國內(nei)最早(zao)投(tou)入數(shu)(shu)字人(ren)領域的企業之一,目前騰(teng)(teng)訊(xun)(xun)已發布數(shu)(shu)百篇相關技術頂會、期(qi)刊(kan)論(lun)文、專利近百份。

數智人的發展階段(duan)(duan)一(yi)共分為三個階段(duan)(duan),離(li)線(xian)階段(duan)(duan)、在(zai)線(xian)階段(duan)(duan)、在(zai)場階段(duan)(duan)。

做一個數智人,現在你只需要3分鐘視頻和100句短語

在場(chang)階(jie)段(duan),數(shu)智(zhi)人(ren)(ren)在生(sheng)產效率和生(sheng)產效能大幅提(ti)升。從三年前(qian)的百(bai)萬級(ji)價(jia)格(ge),到如(ru)今的千元級(ji),數(shu)智(zhi)人(ren)(ren)的成本正在迅(xun)速下降,數(shu)智(zhi)人(ren)(ren)也開始(shi)走向更廣泛商用市(shi)場(chang),“普惠化”、“場(chang)景化”趨(qu)勢明(ming)顯(xian)。

騰訊云智(zhi)能還提出(chu)自(zi)動化(hua)“AI+數智(zhi)人(ren)工(gong)廠(chang)”,提供(gong)讓(rang)企業開箱即可以直(zhi)接使用的數智(zhi)人(ren)生(sheng)產服務。該數智(zhi)人(ren)工(gong)廠(chang)依托于騰訊云TI平臺(tai),內置超過10項AI算(suan)法能力。

未來,無需(xu)任何算法、研發經驗,企業只要在(zai)平臺導入視頻、語(yu)音(yin)訓(xun)練素材,即可通過“自(zi)助(zhu)式(shi)”服(fu)務,完成大(da)批量數智人形象、音(yin)色定制。

目前,已經有數十(shi)家(jia)合作(zuo)伙伴依托平(ping)臺(tai),向行業提供(gong)數智人直(zhi)播SaaS、知識口播SaaS應用(yong),覆蓋醫療、傳媒、金融(rong)多個(ge)行業。

“騰訊和其他相比,更懂行(xing)業內的(de)市場需求。”在陳磊看來(lai),未(wei)來(lai)人們可(ke)以在騰訊云上傳(chuan)自(zi)己(ji)的(de)照片,然后(hou)選擇(ze)下(xia)一個(ge)虛(xu)擬數智人的(de)訂單,在一天(tian)內就可(ke)以獲(huo)得(de)自(zi)己(ji)的(de)數智人。

二、以“小樣本”見“大模型”,揭開小樣本打造數字人背后的AI黑科技

騰訊(xun)優(you)圖實驗室(shi)研究(jiu)總監汪鋮杰認(ren)為(wei)目前數(shu)(shu)智人(ren)服務的(de)問題主要聚(ju)焦(jiao)在(zai)兩(liang)大方(fang)面:如何將數(shu)(shu)智人(ren)做的(de)更(geng)高效(xiao),以及(ji)如何將數(shu)(shu)智人(ren)做得更(geng)逼真。

比如說(shuo),想要虛擬數智人更(geng)加(jia)逼(bi)真,要考慮如何將(jiang)此前(qian)的產(chan)品變得(de)更(geng)加(jia)標準化(hua)和流程化(hua),離不開人像編輯生成(cheng)、人像3D技(ji)術、生成(cheng)輔(fu)助(zhu)技(ji)術等多樣的AI技(ji)術幫(bang)助(zhu)。

他覺得2D小(xiao)樣(yang)本技(ji)術的背后是(shi)3D技(ji)術。“小(xiao)樣(yang)本數智(zhi)人從直觀上(shang)感受是(shi)2D視頻,背后其(qi)實是(shi)3D人像在做支撐。從‘文本/音頻’信息(xi)到(dao)‘3D人像驅動’再(zai)到(dao)‘2D人像視頻’的模(mo)式,通(tong)過3D人臉結構的先(xian)驗信息(xi)引入,使數智(zhi)人口型、表(biao)情更到(dao)位。”

如今用戶可(ke)以通過兩三分鐘的視頻(pin),借助騰訊(xun)云智能的相關功(gong)能,就可(ke)以獲得自己的虛擬數智人。這(zhe)其中,像是3分鐘的視頻(pin)或者文本、圖片都是屬于(yu)小(xiao)樣本,但為(wei)這(zhe)些小(xiao)樣本做(zuo)背后支撐的都是各種不(bu)同的大模型。

比如(ru)說,在數(shu)據獲(huo)取和數(shu)據篩(shai)選階段,騰(teng)訊(xun)訓練通(tong)(tong)用基礎模(mo)(mo)型(xing)(xing)時,引入自監督(du)機制,讓(rang)(rang)AI自己(ji)去約(yue)束數(shu)據,從(cong)而構建通(tong)(tong)用基礎模(mo)(mo)型(xing)(xing),如(ru)通(tong)(tong)用語音合成/編碼模(mo)(mo)型(xing)(xing)、通(tong)(tong)用3D重建模(mo)(mo)型(xing)(xing)、通(tong)(tong)用人像編輯模(mo)(mo)型(xing)(xing)。有了自監督(du)機制,3D騰(teng)訊(xun)數(shu)字人不(bu)在需要現場掃描(miao),就可以(yi)還原(yuan)每一道皺紋級的細(xi)節,讓(rang)(rang)3D數(shu)智(zhi)人更加逼(bi)真(zhen)。

做一個數智人,現在你只需要3分鐘視頻和100句短語

語音方面,騰訊接(jie)(jie)入兩大3D口(kou)型驅動接(jie)(jie)口(kou),覆蓋了ARKit、metahuman等不同的建模標準(zhun)。同時,人像編輯生成技術也是數智人的重(zhong)要技術之一,包括(kuo)人像分(fen)割(ge)、綠(lv)幕去(qu)光、背景更(geng)換、視線矯正、人像美顏(yan)等多個環(huan)節(jie),可以讓數智人后期制(zhi)作更(geng)加方便快捷。

此(ci)外,通過構建(jian)大規(gui)模高質量音色數(shu)據的預訓練(lian)基底模型(xing),未來小(xiao)樣本(ben)數(shu)智人還將支持用戶(hu)只錄(lu)制普通話,即可合(he)成英文及方言語音。

三、數智人應用千行百業,場景深度還需挖掘

騰訊(xun)研究院(yuan)高級研究員宋揚覺(jue)得,虛(xu)擬數字人產業被用(yong)戶普(pu)及,既有各類爆款事件結合在一起的(de)造成的(de)熱度助力,如一些網(wang)紅數字人推動(dong)C端最直觀的(de)認(ren)知和(he)概(gai)念普(pu)及,又有技(ji)術推動(dong)、用(yong)戶需求(qiu)、生態建設和(he)標準等底層支撐(cheng)。

做一個數智人,現在你只需要3分鐘視頻和100句短語

他發現虛擬數(shu)字人(ren)發展的成本正在不斷的下降,AI技(ji)術(shu)升(sheng)級能(neng)夠(gou)讓虛擬數(shu)字人(ren)同時有“好看的皮囊”和“有趣的靈魂”,3D數(shu)字人(ren)制(zhi)作(zuo)的效(xiao)能(neng)也在繼(ji)續(xu)提升(sheng)。AI技(ji)術(shu)技(ji)術(shu)驅動數(shu)智(zhi)人(ren)多模型(xing)交互(hu)還(huan)有智(zhi)慧,并且逐步(bu)覆蓋多類型(xing)的數(shu)智(zhi)人(ren)生產運營全流(liu)程。

從目(mu)前發展的途徑來看,虛擬數(shu)字(zi)人(ren)將成為企業降本增效(xiao)的工具(ju),千行千面(mian)的數(shu)字(zi)人(ren)將成為人(ren)機交互新(xin)入口,但(dan)是數(shu)智人(ren)應用(yong)的深度還需要挖(wa)掘(jue)。

結語:走向企業,數智人成為降本增效好工具

從QQ秀開始(shi),騰(teng)訊(xun)可以說是最早(zao)打造數(shu)(shu)字人(ren)(ren)的企業(ye),在此領(ling)域,騰(teng)訊(xun)已有多年的技術積(ji)累(lei)。今(jin)天,騰(teng)訊(xun)正式帶來數(shu)(shu)智人(ren)(ren)工廠和小樣本數(shu)(shu)智人(ren)(ren)生(sheng)產平臺,面對不(bu)同的企業(ye)需求,提(ti)供相(xiang)應的企業(ye)服務,幫助(zhu)各大(da)企業(ye)打造自己的數(shu)(shu)智人(ren)(ren)。

如何打造一個深受用戶喜愛的數字人,成為所有數字人玩家共同的考題。而在這道題上,騰訊已經交出自己的答卷——打造數(shu)(shu)字(zi)人(ren)(ren)工(gong)廠。當騰訊的(de)小樣本數(shu)(shu)智(zhi)人(ren)(ren)生產(chan)(chan)平臺走入(ru)產(chan)(chan)業深處將(jiang)會碰撞出什(shen)么樣的(de)火花?我們(men)也將(jiang)持續(xu)關(guan)注數(shu)(shu)字(zi)人(ren)(ren)在產(chan)(chan)業深處應用的(de)最新(xin)動向(xiang)。