智東西(公眾號:zhidxcom)
編 |?王穎
導語:Facebook研發出可以轉換歌聲的AI模型,能在5~30分鐘將一個歌手的聲音轉換成另一個歌手的聲音。
智東西4月17日消息,Facebook?AI研究院和以色列特拉維夫大學的科學家們發表了一篇關于轉換歌手歌聲的論文——《無監督的歌聲轉換》()。
這篇論文描述了一種可以直接將一個歌手的聲音轉換成另一個歌手聲音的系統。這個系統能夠對以前對未遇到過的,未分類、未注釋的數據執行轉換。
研究小組稱,他們的模型僅用5到30分鐘就能學會歌手之間的轉換。

一、AI模型如何轉換歌聲?
這個AI模型分兩個階段進行培訓。首先對每個歌手的樣本分別應用一個稱為softmax重構損失的數學函數(將神經網絡得到的多個值,進行歸一化處理,使得到的值在[0,1]之間,讓結果變得可解釋。即可以將結果看作是概率,某個類別概率越大,將樣本歸為該類別的可能性也就越高)。
然后混合矢量嵌入(即數值表示)得到新歌手的樣本,訓練歌手的樣本生成后再進行反向翻譯步驟。
為了擴充訓練數據集,研究人員通過倒向播和改變相位來轉換音頻剪輯。這種方法將數據集的大小增加了四倍。第一次增加的數據創造出了一首胡言亂語的歌曲,但仍然可以識別為同一名歌手所演唱,第二次增加的數據創造了一個已無法辨認歌手的新歌曲。
二、歌聲轉換無需大量訓練數據
論文作者表示:“我們的方法不以文本或音符為條件,不需要各種歌手之間的平行訓練數據,提供了一定的靈活性以及其他聲音特征,可以讓我們有能力從自己聲音的某些局限中解放出來。”
研究人員介紹,他們的轉換方法建立在WaveNet的基礎上,這是一種谷歌開發的自動編碼器(一種無監督的神經網絡模型,它可以學習到輸入數據的隱含特征,同時用學習到的新特征可以重構出原始輸入數據),可以從音頻記錄的波形中生成模型。
它采用了反向翻譯,即將一個數據樣本轉換為目標樣本(在這種情況下,一個歌手的聲音轉換為另一個),然后將其翻譯回來,如果與原文不匹配,則調整下一次嘗試。
此外,該研究小組的合成樣本,在不輸入歌手真實信息的情況下,能夠使用更接近源歌手的聲音信息,構成一個“虛擬身份”。
三、歌聲轉換相似度獲好評
在實驗中,研究小組收集了兩組公開的數據集——斯坦福大學的移動表演數字檔案館(DAMP)語料庫和新加坡國立大學的成語和口語語料庫(NUS-48E)。
第一組中,他們隨機選擇了5名歌手演唱的10首歌(其中9首被他們用來訓練AI系統)。?第二組中,他們選擇了12名歌手,每名歌手有4首歌,所有這些歌曲都被用于訓練系統。
接下來,他們讓人類評審員以1-5的評分標準來判斷生成的歌聲與目標歌聲的相似性,并使用一個包含分類系統的自動測試來更客觀地評估樣本的質量。
評審員對轉換后的音頻平均打分約為4分(認為質量較好),而自動測試發現,所生成樣本的識別精度度幾乎與重建樣本的識別精度一樣高。
研究人員表示,未來AI歌聲轉換模型將可以在存在背景音樂的情況下執行歌聲轉換。
結語:AI技術高速發展,不斷催生新技術、新產品誕生
自1956年AI的概念確立以來,人類一直在這個領域進行不斷的探索。
如今,AI在基礎研究和技術產業方面都進入了高速發展時期,也開始越來越多的應用于日常生活和工作的各個方面。不斷出現的各種AI機器學習模型被應用于醫療、建筑和藝術等各個領域。
AI正在作為新一輪產業革命的核心驅動力,不斷催生新技術、新產品的誕生。
論文鏈接://arxiv.org/abs/1904.06590
原文來自:VentureBeat