智東西(公眾號:zhidxcom
作者?| 王涵
編輯?| 漠影

智東西7月23日報道,7月11日,清華大學和生數科技發表合作論文,正式推出一種基于免訓練方法的精準時間可控長時文生音頻系統FreeAudio

AI音頻生成重要突破!超10秒精準可控免訓練,清華×生數科技最新研究被ACM頂會收錄

論文鏈接:

據介紹,該系統無需額外訓練,可以基于自然語言文本與時間提示實現精確的時間控制與長時音頻生成,突破10秒時長限制,解鎖了10秒以上場景的文生音效時間精準可控

該方法利用LLM對時間結構進行規劃,將文本與時間提示解析為一系列互不重疊的時間窗口,并為每個窗口生成適配的自然語言描述。隨后,FreeAudio再依次生成各時間片段的音頻內容,并通過上下文融合與參考引導機制實現最終的長時音頻合成。

目前相關研究成果已被計算機多媒體領域的國際頂級會議ACM Multimedia 2025錄用,并由AC推薦為Oral錄取。

此前,生數科技曾聯合清華大學推出文生音效系統,自稱是全球首個實現10秒內精準時間控制的商業落地系統,支持獨立時間窗音效生成,其多音軌時間窗可控功能已通過生數科技Vidu平臺落地商用。?

先從幾個例子感受一下:

1、狼嚎聲拼接蟋蟀聲:

AI音頻生成重要突破!超10秒精準可控免訓練,清華×生數科技最新研究被ACM頂會收錄

2、森林復合音效:

AI音頻生成重要突破!超10秒精準可控免訓練,清華×生數科技最新研究被ACM頂會收錄

3、男聲吉他伴唱:

AI音頻生成重要突破!超10秒精準可控免訓練,清華×生數科技最新研究被ACM頂會收錄

Demo鏈接:

一、3大核心技術,FreeAudio系統突破10秒時長瓶頸

文生音頻(T2A)生成技術雖在生成模型推動下取得進展,但受限于時間對齊的音頻-文本數據質量和數量,現有系統在處理含精確時間控制的復雜文本提示時表現不佳。

即便部分研究通過數據增強或引入時間條件實現了10秒內的時間可控生成,生成質量仍有限。此外,多數公開音頻數據集時長較短(通常約 10 秒),且標注較粗,制約了細粒度時間控制和長時連貫性模型的發展。

清華大學和生數科技合作研發的FreeAudio系統,能夠依據自然語言文本與時間提示,無需額外訓練即可同時支持時間控制與長時生成,突破了10秒時長限制,其主要有3大核心技術

1、LLM規劃:

該系統利用大語言模型(LLM)的規劃能力,將文本和時間提示轉換為一系列非重疊時間窗口,每個窗口配有自然語言重新描述,解決時間重疊和間隙問題。

AI音頻生成重要突破!超10秒精準可控免訓練,清華×生數科技最新研究被ACM頂會收錄

▲時間可控音頻生成的LLM Planning和Decoupling & Aggregating Attention Control模塊

2、解耦與聚合注意力控制:

在DiT-based T2A模型基礎上,該系統對基礎潛變量按時間窗口分割,引導每個子段與對應重新描述提示獨立進行交叉注意力計算,再將子段聚合整合,實現時間對齊和全局一致性。

AI音頻生成重要突破!超10秒精準可控免訓練,清華×生數科技最新研究被ACM頂會收錄

▲長時音頻生成的整體架構圖

3、長時生成優化技術:

(1)上下文潛變量合成:FreeAudio系統通過處理相鄰音頻段重疊區域,增強局部邊界平滑度;

(2)參考引導:在自注意力模塊中,該系統利用參考音頻特征,維持長時音頻的全局一致性;

(3)上下文修剪與拼接:該系統去除重疊區域冗余部分,后將解碼后的段拼接,以生成最終長時音頻。

二、多項指標得分最優,長時生成能力排名第一

在時間可控音頻生成實驗中,在AudioCondition測試集上,FreeAudio系統的事件級(Eb)和片段級(At)得分均排名第一

AI音頻生成重要突破!超10秒精準可控免訓練,清華×生數科技最新研究被ACM頂會收錄

在客觀指標方面,FreeAudio系統的FAD和KL散度與最優的訓練型模型相當,CLAP分數排名第一。在主觀評估中,FreeAudio系統同樣獲得了最高的時間一致性與音頻可聽性評分。

AI音頻生成重要突破!超10秒精準可控免訓練,清華×生數科技最新研究被ACM頂會收錄

進一步的消融實驗表明,參考引導技術有效提升了長時音頻的全局一致性,當λ在0.1至0.2范圍內時,各項指標均表現最優,在同類設置中排名第一

AI音頻生成重要突破!超10秒精準可控免訓練,清華×生數科技最新研究被ACM頂會收錄

在長時生成性能上,針對26秒和90秒生成任務,FreeAudio系統在多數指標上排名第一,在主觀評估中,其質量、一致性和連貫性三個維度的得分均排名第一

AI音頻生成重要突破!超10秒精準可控免訓練,清華×生數科技最新研究被ACM頂會收錄

AI音頻生成重要突破!超10秒精準可控免訓練,清華×生數科技最新研究被ACM頂會收錄

三、將繼續研究更長時長機制,FreeAudio或在Vidu產品端上線

此次推出的FreeAudio系統實現了新的技術突破,即突破10秒時長限制,能夠在10秒以上場景中實現文生音效的時間精準控制。

總的來說,該系統解決了多個行業痛點,如避免音效版權風險,解決音效匹配難題;大幅降低音效制作成本;支持多音軌秒級對齊,如環境聲與動物鳴叫可精準疊加等。?

據了解,FreeAudio系統未來或將考慮在Vidu產品端上線。研發團隊計劃在未來進一步探索結合自然語言事件描述的訓練式時間控制文本到音頻生成系統,以提升時間對齊精度和音頻生成質量。

在長時音頻生成方面,未來他們還計劃研究支持更長時長甚至無限長生成的機制,同時希望將該方法拓展至空間音頻生成等方向,以支持更多樣的聽覺場景。

結語:FreeAudio系統具備應用潛力

隨著AI音頻生成技術的加速發展,市場對精準時間控制和長時音頻生成的需求日益凸顯,但現有方案在時長限制、版權風險及制作成本等方面仍存在瓶頸。

FreeAudio系統突破了“10秒魔咒”,技術成果獲國際頂級會議認可,為行業提供了新的解決方案。未來隨著商業化落地及技術迭代,其在影視音效等領域的應用潛力值得關注。