又一国产多模态大模型开源，复杂声音一耳朵分辨，多测试SOTA，还能聊哲学

智東西（公眾號：zhidxcom）
作者 | 王涵
編輯 | 漠影

智東西9月1日消息，今天上午，階躍星辰正式發布開源端到端語音大模型Step-Audio 2 mini，該模型在通用多模態音頻理解等多個國際基準測試集上取得SOTA成績。

Step-Audio 2 mini將語音理解、音頻推理與生成統一建模，在音頻理解、語音識別、跨語種翻譯、情感與副語言解析、語音對話等任務中表現較好，并支持語音原生的Tool Calling能力，可實現聯網搜索等操作。

一句話總結，Step-Audio 2 mini可以“聽得清楚、想得明白、說得自然”。

該模型現已上線階躍星辰開放平臺、GitHub、Hugging Face、魔搭社區等平臺：

又一國產多模態大模型開源，復雜聲音一耳朵分辨，多測試SOTA，還能聊哲學

體驗地址：

//realtime-console.stepfun.com

GitHub：

//github.com/stepfun-ai/Step-Audio2

Hugging Face：

//huggingface.co/stepfun-ai/Step-Audio-2-mini

魔搭社區：

//www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini

一、口語對話能力第一名，拿捏方言和小語種

Step-Audio 2 mini在多個關鍵基準測試中取得SOTA成績，在音頻理解、語音識別、翻譯和對話場景中表現突出，綜合性能超越Qwen-Omni、Kimi-Audio在內的開源端到端語音模型，并在大部分任務上超越GPT-4o Audio。

又一國產多模態大模型開源，復雜聲音一耳朵分辨，多測試SOTA，還能聊哲學

在通用多模態音頻理解測試集MMAU上，Step-Audio 2 mini以73.2的得分位列開源端到端語音模型榜首；
在衡量口語對話能力的URO Bench上，Step-Audio 2 mini在基礎與專業賽道均拿下開源端到端語音模型最高分，超越Qwen-Omni和Kimi-Audio；
在中英互譯任務方面，Step-Audio 2 mini在CoVoST 2和CVSS評測集上分別取得39.3和29.1的分數，領先GPT-4o Audio；
在語音識別任務上，Step-Audio 2 mini取得多語言和多方言第一。其中開源中文測試集平均CER（字錯誤率）3.19，開源英語測試集平均WER（詞錯誤率）3.50。

又一國產多模態大模型開源，復雜聲音一耳朵分辨，多測試SOTA，還能聊哲學

在不同語種的基準測試上，Step-Audio 2 mini在評價中文能力的FLEURS Chinese上取得第一名的成績。

二、引入CoT還支持web檢索，擴大語音模型的知識面

過往的AI語音常被吐槽智商、情商雙低。一是“沒知識”，缺乏文本大模型一樣的知識儲備和推理能力；二是“冷冰冰”，聽不懂潛臺詞，語氣、情緒、笑聲這些“弦外之音”。Step-Audio 2 mini通過創新架構設計，試圖解決此類問題。

端到端多模態架構：Step-Audio 2 mini突破傳統ASR+LLM+TTS三級結構，實現原始音頻輸入到語音響應輸出的直接轉換，架構更簡潔、時延更低，并能有效理解副語言信息與非人聲信號。

又一國產多模態大模型開源，復雜聲音一耳朵分辨，多測試SOTA，還能聊哲學

CoT推理結合強化學習：Step-Audio 2 mini在端到端語音模型中首次引入鏈式思維推理（Chain-of-Thought，CoT）與強化學習聯合優化，能對情緒、語調、音樂等副語言和非語音信號進行精細理解、推理并自然回應。

音頻知識增強：模型支持包括web檢索等外部工具，有助于模型解決幻覺問題，并賦予模型在多場景擴展上的能力。

三、實測：可以精準識別鳥鳴和引擎聲，但沒分清Meta和微軟

智東西第一時間對Step-Audio 2 mini進行了實測。總的來說，其生成的語音真人感比較強，停頓和語氣都比較自然，但是Step-Audio 2 mini在信息識別上還需要加強。

其可以選擇的音色也有限，主頁只可以選擇男聲或女聲，其他條件可以在prompt中進行調整。并且在Step-Audio 2 mini的體驗網頁上，個人用戶體驗只能對話一次，次數比較有限。

又一國產多模態大模型開源，復雜聲音一耳朵分辨，多測試SOTA，還能聊哲學

以下是一些實測案例：

在官方提供的案例中，Step-Audio 2 mini能分清鳥叫、流水、車聲和發條玩具聲這四種不同的聲音，它甚至能聽出汽車聲中的引擎加速變化。

用戶也可以選擇聯網模式，讓Step-Audio 2 mini進行實時搜索，并且用語音輸出。

聊到OpenAI最新動態，Step-Audio 2 mini通過工具調用搜索，迅速挖掘出最新語音模型資訊。

在這里智東西也進行了實測，我問“你知道最近Meta最新的人工智能部門有什么新的動態嗎？”：

Step-Audio 2 mini卻回答成了微軟的AI動態，但是語音識別出的是正確的Meta，其在生成準確性上還需要加強。

又一國產多模態大模型開源，復雜聲音一耳朵分辨，多測試SOTA，還能聊哲學

用戶也可以通過語音控制，讓Step-Audio 2 mini調整語速。

比如，讓Step-Audio 2 mini變換語調讀《靜夜思》：

當被問及“愛美是自由還是枷鎖”這類哲學難題時，Step-Audio 2 mini可以與用戶進行實時溝通，能將抽象問題轉化為“購物前問自己三個問題”的方法論。

結語：階躍星辰端到端語音大模型加速落地

此前，吉利發布了搭載階躍星辰端到端語音大模型的吉利銀河M9，這是行業內端到端語音大模型首次實現量產上車。

據階躍星辰相關人士介紹，自去年發布國內首個千億參數端到端語音大模型Step-1o Audio以來，階躍星辰持續迭代模型性能，并跟吉利、鯨魚機器人、TCL、Cyan青心意創等終端廠商達成合作，讓語音大模型在生活場景中加速落地。

開源方面，今年階躍星辰已開源8款多模態模型，覆蓋語音、視頻生成等領域，助力全球開源社區。

国产又黄又猛又粗又爽的A片,小祖宗┅┅快┅┅用力啊视频,国产精品麻豆欧美日韩ww,少妇精品无码一区二区免费视频,波多野结衣在线播放

一、口語對話能力第一名，拿捏方言和小語種

二、引入CoT還支持web檢索，擴大語音模型的知識面

三、實測：可以精準識別鳥鳴和引擎聲，但沒分清Meta和微軟

結語：階躍星辰端到端語音大模型加速落地

相關推薦