智東西(公眾號:zhidxcom)
作者 | 韋世瑋
編輯 | 漠影

搜狗在超寫實3D數字人領域再度攻破一城,“跨界”手語數字人領域實現新突破!

5月17日,搜狗發布全球首個手語AI合成主播“小聰”,能夠自然流暢地為聽障者播報手語,在測評中可懂度約85%。

與搜狗以往發布的3D AI合成主播不同,“小聰”并不能穿越攝影棚為大家口播新聞,也不需要真人原型進行形象特征和表情肢體的數據采集,只是通過靈活的手勢動作和表情,為聽力障礙人士提供“無聲的溝通”。

從技術上來看,“小聰”的背后基于搜狗長期研發積累的AI分身技術,結合原力科技的行業領先3D重光照掃描還原完成的手語數字人高精度模型及采集的動畫數據,輔助自研的表情肢體手勢捕捉技術,生產出了高度還原真人發膚、形象逼真、動作自然生動的數字人模型。

從3D AI合成主播到手語AI合成主播,搜狗的分身技術實現了哪些突破和挑戰?“小聰”的誕生又將會給社會帶來哪些改變?它未來還有哪些需要不斷完善的地方?

為了更深一步了解“小聰”的誕生,智東西與少數媒體對搜狗AI交互技術部總經理陳偉的團隊進行了采訪,在探究“小聰”背后的技術新突破的同時,進一步挖掘搜狗對“小聰”未來的戰略布局和構思。

一、手語主播的三大技術優勢,表情唇動逼真豐富

何為搜狗分身技術?簡單來看,該技術集成了超寫實3D數字人建模、機器翻譯、多模態數字人生成、遷移學習、實時面部動作生成及驅動等多項AI技術。正是基于這項技術,搜狗才能讓超寫實3D數字人具備自然可懂的手語主播能力。

整體來看,“小聰”在數字人寫實度、手語表達可懂度、手語展現接受度三大方面,都躍上了新的技術臺階。

1、超寫實的逼真數字人效果

數字人寫實度大幅提升的好處在于,它能顯著提升手語播報帶來的真實感與親切感,進一步提高播報用戶體驗。

為此,“小聰”使用了行業最領先的3D重光照掃描還原、面部肌肉驅動、表情肢體手勢捕捉技術,能生產出高度還原真人發膚、形象逼真、動作自然生動的數字人模型。

2、高可懂度的手語表達能力

手語有沒有像自然語言一樣有一套完整的語言體系?實際上,手語也有一套自己通用的詞典。

“小聰”基于我國在2019年發布的《國家通用手語詞典》,健聽人只需輸入日常生活中的語言文本,就能低延遲地生成高準確率的手語語言表征。同時,通過搜狗分身的多模態生成技術,系統能實時預測生成對應的超寫實3D數字人驅動參數,并快速生成數字人手語播報視頻。

陳偉談到,“小聰”手語播報的可懂度在測評中達85%以上,能有效幫助聽障者克服理解障礙,達成信息有效傳遞。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

3、高接受度的手語展現效果

作為一種視覺語言,手語表達不僅僅需要依靠手勢,還需要配合面部表情、唇動、姿態等方式來傳達更準確的意圖,也稱為“非手控信息”的表達。因此,除了高可懂度的手語表達能力之外,“小聰”的手語表達細節也十分真實豐富。

通過搜狗機器翻譯,系統能生成覆蓋手部動作、面部表情、口動唇動等多個維度的手語表征信息。同時,基于搜狗多模態端到端生成模型進行聯合建模及預測,生成高準確率的動作、表情、唇動等序列,從而實現自然、地道、接受度更高的手語表達效果。

基于搜狗分身技術,“小聰”還能實現快速生成和批量復制,成為全年無休的“勞模”,更好地幫助聽障人士解決日常生活、公共服務、特殊教育等多個場景下的溝通不暢問題。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

二、面向2700萬聽障人群,手語合成背后的語言鴻溝

也許有人認為,現在的語音轉文字技術如此成熟了,新聞、影視等作品都有字幕,為什么還要大費周章地開發手語AI合成主播技術?相比以往的AI合成主播,它的技術到底難在哪?

據世界衛生組織發布的數據,目前全球聽力障礙人群高達4.66億人,在我國則有2700萬人。其中,受教育程度和了解健聽人語言體系越來越高地主要集中在年輕聽障人群中,還有不少中老年聽障人士在學習上仍有難度。

“我國2700萬聽障人群的教育程度是參差不齊的,上了高中、大學的聽障人僅占了很小的比例。”陳偉說,從學習角度來看,由于聽障人士在聽力上天生有障礙,少了一個能更快學習語言的因素。所以短期內,手語仍是聽障人士主要的學習方式,更是他們主要的表達方式,難以被字幕所替代。

盡管也有一些電視節目能夠提供手語解說,但多以正常語序編排,與手語的特殊表達結構不符,讓大部分聽障人士只能理解不到60%的內容。這就導致了許多聽障人士無法常態化、高質量地接收信息,逐漸變得難以融入社會,最終成為被邊緣化群體。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

與此同時,當搜狗聯合新華社在2020年5月發布全球首個3D AI合成主播后,搜狗AI交互技術團隊開始思考,自己在數字人方向上是否還能沖上更高的技術壁壘?同時又能找到有強烈需求的場景?

因此,一群對手語一竅不通的研發團隊開始與許多聽障人士進行探討,嘗試挖掘手語AI合成主播這條賽道更大的可能性,并在內部組建了一個除語言、產品、研發三大體系外的顧問團,包含中國聾人協會的專業人士、手語學校的老師,以及手語AI合成主播的真實用戶——聽障人士。

但AI合成主播技術深厚如搜狗,在面對手語合成技術這條新賽道上,也面臨著不少挑戰。

“我們最開始接觸手語的時候發現,它跟我們之前了解的所有語言語種都不太一樣,他是一個視覺語言,并不能直接用語音語言的方式去解決手語的事情。”一位參與研發的團隊成員談到,在手語語言體系的構建過程中,有三個最主要的難點:

1、手語語序結構獨特,翻譯難

手語的語序結構和漢語語言大有不同,例如漢語中的“貓追老鼠”,在手語表達中為“貓、老鼠、追”;“開車不準喝酒”在手語表達中為“開車、喝酒、不準”。

這些跟漢語語序表達的不同,使得研發團隊難以直接采用原有的語料庫和數據庫進行算法訓練。因此,搜狗專門建立了相應的語言規則嘗試進行“漢語-手語”的語序轉換,先將手語進行翻譯后再給算法進行訓練。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

2、詞匯類型缺失,表達差異大

手語的詞匯類型并不像漢語那么豐富,并沒有量詞、程度副詞,更多是直接省略或是采用肢體語言來表達。例如漢語中的“我買兩支鉛筆、一本書”,在手語表達中為“我買鉛筆、二、書、一”;“大雪紛飛”在手語表達中則是表達一個“雪”,然后在雪的基礎上加大身體的擺動來體現程度副詞。

因此在詞匯方面,搜狗AI交互團隊還建立了一個手語到漢語之間的映射詞典,嘗試去解決手語和漢語之間詞匯上的差異問題。

3、特有非手控信息,需建立新表情庫

漢語的博大精深在于,哪怕是同一句話,用不同音調或語氣也能表達出不同信息,這讓手語表達的難度系數大大提高。因此手語也有特有的非手控信息,通過不同的表情、口動、身體姿態等方式來傳達信息。例如一句“我做的好不好”,皺眉時是詢問的語氣,挑眉時則是感嘆的語氣。

非手控信息也是搜狗AI交互團隊在開發過程中遇到的最大難點,針對這一問題,搜狗目前正嘗試通過建立數據庫等規則方式來解決。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

三、技術難度系數增大,還需解決恐怖谷難題

值得注意的是,手語語言中的三大問題僅僅是語言體系建立方面的難點,具體落實到技術方面,搜狗也面臨著不少挑戰。

一是數據挑戰。陳偉談到,國內從來沒有這樣規模化地思考如何構建一個能讓AI學習的手語大數據庫,無論是數據體系的構建、標注的方法,以及如何找到手語專業老師幫助團隊高效地推進研發, 這些對搜狗AI交互團隊來說都是一個新的技術挑戰。

二是算法挑戰。無論是機器翻譯還是數字人生成,搜狗都要面臨更多機器語言特點的定制。以往搜狗做3D AI合成主播時一直在強調唇形、表情,但在手語AI合成主播上還需加上嘴形、表情、姿態和手部動作等維度,并保證在同一時間內完全對齊。

三是3D驅動挑戰。手語表達的特殊性需要手語AI合成主播實現連續大幅手部動作的自然生成。基于此,搜狗通過3D建模技術結合AI實時驅動,大大提升手語AI合成主播動作的靈活性、可控性和連貫度,提升動作表達能力。

“我們也一直和顧問團保持非常緊密的聯系和溝通,對專業人士和聽障人士覺得手勢、位置、運動等不標準的地方進行及時糾正,這樣才能確保我們每一步的技術迭代都能時刻得到最真實的反饋。”陳偉談到。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

當一個數字人無限接近真人時,不少細節容易讓人感到害怕。例如有人認為,搜狗去年推出的3D數字人張嘴時,看不到聲帶或咽喉的共振,或是模型偶爾的穿模,這些都容易讓人產生恐懼感。但如果將合成主播做成卡通形象,盡管能解決恐怖谷問題,但用戶和數字人交互的親切感、體驗感也大大降低。

“當我看到一個數字人時沒有產生恐怖谷效應,我會覺得我和數字人之間時有情感連接的,交流時就像是面對面的溝通。”陳偉提到,這也是搜狗做數字人的初衷。

為了減少“小聰”的恐怖谷效應,搜狗對“小聰”的皮膚材質、紋理、手勢形狀等渲染都進行了優化,寫實度大大提高。“我們認為在未來一到兩年的時間內,3D建模會突破恐怖谷效應。”陳偉說。

同時在他看來,真正讓人覺得不恐怖的狀態還需要在數字人的表達能力和對話能力上進行突破。“只有數字人或AI越來越像人的時候,人機交互的可能性才能做到真正的自然交互,才能實現人和數字人的情感連接。”陳偉解釋,這也是搜狗堅定不移地把重心放在數字人超寫實方面的原因。

揭秘搜狗手語AI合成主播背后:跨越語言溝通的“鴻溝”,搜狗分身技術是核心

四、今年Q4規模應用,手語AI合成主播的兩大落地方向

現階段,“小聰”手語AI合成主播從數據到算法,再到3D建模等工程化技術仍在持續地優化迭代。陳偉預計,到今年第四季度,“小聰”將真正實現規模應用。

在落地方面,“小聰”也將從實時場景和非實時場景兩個方向落地。

在實時新聞信息、公共廣播信息等實時場景方面,搜狗將考慮人機交互與多模態動作的結合,把手語放到人機交互的環境中,方便聽障人士自主地與機器進行交流。

在偏文化娛樂和生活相關等非實時場景中,搜狗也將和更多電視媒體,以及對內容播報有強需求的團隊合作,通過“小聰”將視頻和文字內容視頻化,讓更多節目都能通過手語的方式進行信息傳遞,幫助聽障人群更好地融入社會生活,同時也減輕傳統手語老師的工作壓力。

“我們希望通過聚焦數字人技術,讓它為社會創造更大的價值。”陳偉談到,這不僅是嘴形的播報,而是充分把數字人的靈活性、真實性、自然連貫的性能全部發揮出來,做出高品質且符合國家標準的手語表達技術,真正提高手語的普及力度和應用范圍。

結語:搜狗AI合成主播打開行業創新突破口

作為我國AI合成主播的行業風向標,搜狗一直不斷精進數字人技術,在增加機器的溫度,拉近人機之間關系的同時,也幫助傳統內容行業提高生產力和創新力。

這次搜狗將分身技術聚焦在更少數的聽障人群,去挑戰一個又一個新的技術難關,不僅讓我們看到了搜狗攀爬技術壁壘的魄力,也看到了搜狗作為一家企業的社會責任感和擔當,也是一次與弱勢群體的共情。

也許對更大規模的健聽人群來說,“小聰”的誕生對自己的生活并沒有帶來任何改變。但對我國那2700萬聽障人士而言,這也是他們能拉近與社會的距離,更輕松、更溫暖地感受當下生活,甚至輕松走出國門的重要技術突破。