智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影

智東西8月7日報道,今天,MiniMax推出新一代語音生成模型Speech 2.5

相比5月發布的Speech 02,Speech 2.5有三大新突破:多語種表現更自然音色復刻更像、40個語種覆蓋更廣。

目前,Speech 2.5已全球上線,用戶可以登錄MiniMax開放平臺或MiniMax Audio官網體驗:

MiniMax開放平臺:minimaxi.com/platform_overview

MiniMax Audio:minimaxi.com/audio

MiniMax語音模型上新!40種語言真人級生成,喜馬拉雅、網易已接入聲線

▲Speech 2.5主頁

用戶可以在Speech 2.5主頁選擇想要的音色,在對話框內輸入文字描述,也可以上傳文件,就可以一鍵生成所需音頻。下文呈現了官方公布的Speech 02生成音頻的Demo和智東西實測案例:

一、多語種自然表達,減小機械感

MiniMax Speech 2.5提高了生成音頻的相似度和自然韻律度,降低了字錯率、減小了AI生成的商務會議、日常對話、英文播客的機械感。

智東西實測,其還可以給音頻添加場景氛圍音,例如美國女高中生在廣播中演講

音頻內容:Two years is nothing, but at the same time a lot can be accomplished in two years. You can try a sport you’ve always wanted to start, and become great at it. You can start a morning routine and affect your mood and stress at a deep level. You can meditate for a few minutes per day, become more self-aware and change the way you react to problems. You can start a business and make it a big success.

生成的音頻不但可以清晰準確地念出文字,還有母語者很地道的停頓、語調。

立下復仇誓言的哈姆雷特

音頻內容:Remember? Yea, from the tables of my memory, I’ll wipe away all trivial fond records. All saws of books, all forms, all pressures past, that youth and observation copied there. And then commandment all alone shall live within the book and volume of my brain, unmixed with baser matter. Yes, yes by heaven.

再比如,充滿激情的西班牙體育賽事解說員:

音頻內容:?Arranca el genio por la derecha, deja atrás a uno, se saca de encima al segundo, entra al área, prepara el remate…?GOLAZO MONUMENTAL! ?Una obra de arte que sella la victoria y desata la locura total!

二、跨語種復刻口音,還原聲線

Speech 2.5還可以跨語種復刻口音,保留同語種不同地區的口音,還能保留特殊年齡的聲線特點,用戶可以自由選擇自己想要的音色。

智東西實測,用霸道總裁的聲線說甄嬛傳中皇上的經典臺詞:

音頻內容:嬛嬛一裊楚宮腰,那更春來香減玉消。紫禁城的風水養人,必不會叫你玉減香消。

用英國女王的經典發音來介紹最新的Speech 2.5會是什么樣?

音頻內容:Hello everyone. We’re thrilled to introduce the next generation of our voice model: MiniMax Speech 2.5. Building on its predecessor, Speech 2.0, this new version is more powerful than ever. But where it truly shines is in its incredible realism. The model masterfully captures the subtle nuances of the human voice——from trailing intonation and vocal style, to the full spectrum of emotion, all reproduced with stunning authenticity.

從停頓、節奏、到發音處理,模型生成的語音保持了純正的“女王腔”。

跨語種復刻也可以辦到,智東西讓Speech 2.5用熱血韓漫男主的音色說“美美桑內”歌詞,在韓語和英語中切換:

音頻內容:???? ??,???? ??,never stop burn it,? ?? ??? oh you know?

同一音色在意大利語、英語間的切換:

音頻內容:Questa è la mia vera voce. I find speaking English a bit difficult. It’s like trying to speak Italian without using hand gestures.

在不同的語言中切換,Speech 2.5生成的內容依舊可以保留口音特色細節。

三 、新增多個小語種,語種類型增至40個

Speech 2.5新增了保加利亞語、丹麥語、希伯來語、馬來語、波斯語、斯洛伐克語等多個小語種,語種類型擴充到了40個。跨境電商、出海客服、本地化營銷,全球化內容可以一鍵創作。

比如馬來語:

音頻內容:Selamat datang, semoga hari anda indah.

希伯來語:

音頻內容:.?????? ??????? ???? ???

四、促進跨境業務,喜馬拉雅、網易都用了

MiniMax Speech語音模型可以應用在多種場景下,例如多語種客服、跨國廣告配音、跨國教育、跨境電商等。

目前,MiniMax Speech語音模型已在全球被廣泛采用。在海外,Vapi、Pipecat等Agent平臺選擇使用MiniMax Speech提供服務,Hedra、Icon、Syllaby等頭部AI應用也已接入MiniMax Speech。

國內,高途教育、喜馬拉雅、網易、Rokid眼鏡等頭部平臺及產品都選擇了MiniMax Speech。

結語:MiniMax在AI音頻賽道繼續深耕

MiniMax在AI音頻賽道并非初出茅廬,其今年5月發布的Speech 02在Artificial Analysis和Hugging Face TTS Arena兩項語音基準測評榜單中超越 OpenAI、ElevenLabs等知名模型,獲得雙料第一。

Speech 2.5可視為Speech 02的進階版本,在繼承前代優勢的基礎上,進一步在多語種、音色復刻及語種覆蓋上深入優化。

當下,眾多企業和研究機構紛紛布局,AI音頻賽道競爭愈發激烈,MiniMax Speech 2.5的發布為市場注入了新的活力。