智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影
智東西9月30日消息,剛剛,通義千問推出多語言實時音視頻同傳模型Qwen3-LiveTranslate-Flash,占據多個中英及多語言語音翻譯榜單第一名!
Qwen3-LiveTranslate-Flash實現了覆蓋18種語言的離線和實時兩種音視頻翻譯能力,主要有以下5個核心亮點:
1、多語言和方言:支持中文、英文、法語、德語、俄語、意大利語、西班牙語等主要官方語言和普通話、粵語、北京話、吳話、四川話、天津話的方言翻譯。

2、視覺增強:首次引入視覺上下文增強技術,Qwen3-LiveTranslate-Flash可以通過識別和利用口型、動作、文字、實體等多模態信息,有效應對嘈雜音頻環境以及一詞多譯詞場景下的翻譯不準問題。
3、3秒延遲:輕量的混合專家架構與動態采樣策略,同傳實現最低3秒的延遲。
4、無損同傳:該模型采用語義單元預測技術緩解跨語言翻譯的調序問題,實現與離線翻譯幾乎無損的翻譯質量。
5、音色自然:該模型使用海量語音數據訓練,可以根據原始語音內容自適應調節語氣和表現力的擬人音色。
一、超越Gemini-2.5-Flash,同傳準確度達94%以上
在公開測試集上,中英及多語言語音翻譯榜單中,Qwen3-LiveTranslate-Flash的準確度優于當前主流大模型Gemini-2.5-Flash、GPT-4o-Audio-Preview和Voxtral Small-24B等模型,在除AVG.XX-EN以外的測試中均是第一名。

Qwen3-LiveTranslate-Flash在不同領域和復雜聲學環境下的測試成績也優于Gemini-2.5-Flash等主流大模型。

該模型研發語義單元預測技術來緩解跨語言調序問題,其實時同傳可在保持非實時翻譯94%以上準確度的同時,顯著降低延遲。
視覺增強技術進一步讓Qwen3-LiveTranslate-Flash在嘈雜音頻、一詞多譯、專有名詞翻譯等場景翻譯更精準。在實時場景中,視覺信息彌補了語音上下文的缺失,優勢更明顯。

二、能分清mask和Musk,還有多種不同聲色
官方給出了豐富的實例,Qwen3-LiveTranslate-Flash在同傳翻譯、視覺增強輔助等能力上的表現確實能打,著實為專業翻譯工作人員捏了一把汗。
例如將阿里巴巴2023年12月份季度業績電話會議進行中文同傳:
輸入音頻:
輸出效果:
憑借視覺增強輔助語音翻譯功能,Qwen3-LiveTranslate-Flash能夠識別出來mask(口罩)和Musk(馬斯克)的區別:
該模型還可以識別低頻專有名詞,比如人名:
Qwen3-LiveTranslate-Flash還支持多種語言或方言的不同音色,例如:
1、芊悅,voice參數:Cherry
音色效果:
描述:陽光積極、親切自然小姐姐。
支持的語種/方言:中文、英語、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語
2、不吃魚,voice參數:Nofish
音色效果:
描述:不會翹舌音的設計師。
支持的語種/方言:中文、英語、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語
3、上海-阿珍,voice參數:Jada
音色效果:
描述:風風火火的滬上阿姐。
支持的語種/方言:中文(吳語)
4、北京-曉東,voice參數:Dylan
音色效果:
描述:北京胡同里長大的少年。
支持的語種/方言:中文(北京話)
5、四川-晴兒,voice參數:Sunny
音色效果:
描述:甜到你心里的川妹子。
支持的語種/方言:中文(四川話)
6、天津-李彼得,voice參數:Peter
音色效果:
描述:天津相聲,專業捧哏。
支持的語種/方言:中文(天津話)
7、粵語-阿清,voice參數:Kiki
音色效果:
描述:甜美的港妹閨蜜。
支持的語種/方言:粵語
8、四川-程川,voice參數:Eric
音色效果:
描述:一個跳脫市井的四川成都男子。
支持的語種/方言:中文(四川話)
結語:通義千問加速AI音視頻翻譯落地
Qwen3-LiveTranslate-Flash首次引入視覺上下文增強技術,讓音視頻AI翻譯更上了一個臺階。
通義千問團隊稱,今后還將持續提升語音翻譯的準確性、自然度、情感一致性,拓展更多語種的覆蓋范圍,增強在各種復雜語音環境下的翻譯魯棒性。
在語音翻譯這個應用面推進技術進步的紅海賽道,通義千問這次推出新模型,或將大幅降低全球開發者在實時跨語言交流應用上的創新門檻,加速催生從國際會議、跨境直播到無障礙溝通等場景的下一代產品落地。