智東西(公眾號:zhidxcom)
編輯 | GenAICon 2024
2024中國生成式AI大會于4月18-19日在北京舉行,在大會首日的主會場開幕式上,昆侖萬維董事長兼CEO方漢以《從天工SkyMusic音樂大模型談SOTA紅利》為題發表演講。
方漢強調了“技術領先”在AI領域的重要性,不同于互聯網時代產品的商業模式導向,大模型時代技術導向才能帶來市場上的領先優勢,吸引大量用戶并獲取紅利。
OpenAI在AI創企中的地位,本質上是其文本大模型的SOTA(當前技術指標第一)能力帶來的。對于當前的AI創業者,在圖像、視頻、音樂等任何賽道,只要能取得SOTA,就能通過技術優勢獲得大量用戶,后續再通過產品創新、商業模式創新把用戶固化在平臺上,形成自己的護城河。
在AGI和AIGC領域,昆侖萬維研發出了天工3.0模型,包含音樂大模型SkyMusic和全球最大規模的開源MoE大模型。其中音樂大模型SkyMusic就處于音樂領域的SOTA地位。
SkyMusic音樂大模型支持多種方言輸出,具有辨識度的自然人聲、降低音樂創作門檻和成本等,便于內容行業發展。基于音質、自然度和理解度方面的優勢,即使是沒有音樂背景的普通人也能夠利用該技術進行音樂創作,而這也將極大地擴展音樂創作的可能性和范圍。
此外,天工3.0大模型數學、推理、代碼等方面能力大幅提升,同時具有多輪搜索與綜合工具的調用能力,將帶來內容行業的爆發,同時也將促進文化平權和打破壟斷,讓每個人更好地塑造和表達自我。
以下為方漢的演講實錄:
SOTA其實是一個學術上用得非常多的專有名詞,全稱是“State of the Art”,這個比較拗口,其實是當前技術指標第一的意思。這本來是在機器學習領域用來評估模型的一個技術指標,原本是個學術詞,為什么會備受關注?
一、在垂類領域拿到SOTA,才能將技術紅利轉化市場紅利
縱觀這一波大模型的投資以及創業浪潮,可以發現一個明顯的現象。在上一波移動互聯網,所有創業公司的CEO或者Leader基本上都是產品或者是商務背景,也就是說移動互聯網是商業模式和產品模式的創新,而這一波AI創業的大潮,所有AI公司的CEO基本上都是技術背景。
為什么呢?因為在AI領域技術遠遠超過產品商業模式,技術的領先才能帶來業務上的紅利。
舉幾個例子,首先不可避免要談到這個行業的第一名,OpenAI。OpenAI為什么現在估值這么高,為什么全世界對它這么期許?因為本質上在ChatGPT之后,它在文本大模型上的SOTA地位一直非常穩固。直到Claude 3出來之后,才第一次有大模型可以接近GPT-4的位置,所以它趕忙拋出Sora,這是在視頻生成領域的SOTA。也就是說在最泛化的通用人工智能、文本大模型領域,OpenAI的SOTA紅利非常明顯。
但是我們看圖像生成賽道,DALL·E 3出來得非常早,但是很快像Midjourney、Stable Diffusion出來之后,這些中小型的創業公司獲取大量的用戶,遠遠超過OpenAI的DALL·E 3。為什么?就是因為DALL·E 3沒有達到SOTA。SOTA被Midjourney以及后面的一些中小創業公司拿到,用戶肯定會選擇中小公司的產品,而不會選擇其他公司的產品。
也就是說在任何一個領域,對于我們所有的創業者和后來者,只要你能在這個領域拿到技術指標上的第一,你就能夠獲取大量的用戶。在獲取大量用戶之后,才可以用你的產品模式、商業模式把這些用戶固化在你的平臺上。
從長期來看,只要新的大模型和新的競爭者沒有明顯的代際壓制的話,你仍然能夠繼續靠這些用戶獲取紅利。就像Midjourney V6出來之后,它的SOTA地位已經不是很穩固了,但是用戶基礎仍然很堅實。
前面是我的一些背景介紹,當然中國企業因為進入大模型賽道,其實大家都蠻晚的,但是我們在全球的競爭中心仍然是堅持技術第一,我們一定要在某個垂類領域拿到SOTA之后,才能夠由技術上的紅利,轉化為用戶和市場上的紅利。
二、以天工大模型為底座,形成六大業務矩陣
首先給大家匯報一下昆侖萬維是從什么時候開始做AGI和AIGC這件事情。
我們是2020年GPT-3出來的時候就成立了一支團隊做文本大模型的預訓練工作,2021年開始做音樂大模型的生成預研工作,當然我們也走過很多彎路,比如音樂大模型一開始走的符號生成,再轉到端到端。現在所有垂直賽道到終局一定是端到端。
2022年12月,我們發布了中國首個開源文本大模型,當時海外的各種開源大模型也沒出來,這是來自中國企業的第一個基于中文的13B開源文本大模型。
2023年4月17日,我們發布了天工1.0;8月23號發布了國內首個AI搜索“天工AI搜索”。今年4月17日,我們發布天工3.0,包含首個中國的音樂AIGC賽道的SOTA,也就是SkyMusic音樂生成模型,以及4000億參數的全球最大規模的開源MoE大模型。

目前我們有六大業務矩陣,包括AI大模型、AI搜索、AI音樂、AI視頻、AI社交和AI游戲。
雖然矩陣這么多,但我們目標非常清晰。首先我們一定要做底座模型——天工大模型,從原來的文本大模型到現在的MoE大模型,再到下一代多模態大模型,我們一定要在底座大模型上持續去演進。
為什么?因為現在有一個明顯的現象,所有垂直賽道的各種垂類模型,不管音頻、音樂、視頻、圖像還是3D模型其實都嚴重依賴于底座文本大模型的能力,如果底座文本大模型能力不行,各種垂類模型能力上限比較低。
社交、音樂、游戲和視頻都屬于AIGC垂類賽道,我們認為在這些垂類賽道上只要進行持續和長期的投入,就一定可以達到SOTA,從而獲取市場上的領先優勢。
三、中國首個音樂AIGC上的SOTA,近2000萬首全量音樂數據集
首先給大家介紹一下天工音樂大模型SkyMusic,這個現在已經對全量用戶開放了,大家在App Store和應用商店搜索“天工”,“天工”里面有一個音樂的type,大家可以立刻去使用,這是中國第一個音樂AIGC上的SOTA。
這是我們把剁椒魚頭的菜譜做成一首歌的案例演示,是用粵語演唱出來的。

這是天工AI音樂和龐博聯合的案例,我們把龐博寫的詞做成了一首歌。

下面說一下技術指標,目前SkyMusic和Suno V3版本相比,在人聲、BGM音質、人聲自然度、發音可懂度方面都已經擊敗了Suno。我們相信在下一個版本里面可以把這個差距繼續拉大。
AI音樂大模型,自2021年開始研發到現在走過三年歷程,我們技術路線也在不斷地演進。去年8月份Sora沒有出來,我們就已經轉向Diffusion Transformer架構,因為這個架構是最為Scale up的一種架構。
我們的數據集包含將近兩千萬首全量的音樂數據集,并且經過三年多的清洗和處理,其數據質量是有保障的。我們采用類DiT架構做了SkyMusic音樂大模型的研發,目前這個大模型還只是我們的第一個版本,后續在實驗室版本會實現更多的功能。

下面介紹一下我們有哪些非常獨特的優勢。
用過Suno的都知道,你選擇的是文本標簽和風格。我們現在的制作方法是,上傳一首你喜歡聽的歌,甚至你自己錄的一個旋律,我們都能根據這個生成音樂。這其實更像傳統的音樂工作者創作音樂的一個邏輯,很多音樂工作者先在腦海或者嘴巴哼出一段曲子,然后寫下來,根據這個再做主歌、副歌、編曲的工作,SkyMusic示例音源生成音樂的能力非常強。
第二,我們支持單一語種方言的輸出能力。目前中文版本已經支持四川話、粵語、北京話、天津話、上海話等多種方言版本,這個對于用戶來說是非常有意義的。
最后是更具辨識度的自然人聲。人聲的音源質量,以及對于各種人群,女聲、男聲、幼兒聲和成人聲,SkyMusic都有非常好的一個泛化。
當做到技術上的SOTA時,怎么把技術上的SOTA轉為產品上的紅利?
我們認為所有的AIGC,包括音樂創作的大模型出來后,首先極大降低了音樂創作門檻。
就像我發的朋友圈,“人人皆可以歌明志”。以前我們做一首歌的邏輯是什么?首先要從四五歲就開始學鋼琴、學樂理、學樂譜。我自己的孩子在鋼琴方面可能花了七八年才考到一個專業級別,這個訓練時間很長。如果他能成為一個作曲家,可能還要在大學里面再學四年,學完四年之后這還只是作曲,作完曲還要編曲,編曲完還要找歌手演唱、找錄音棚來錄。我們在市場上錄一首歌從頭到尾,哪怕用最簡化的配置、最普通的設備也要兩萬人民幣左右。
這就導致了整個音樂創作,實際上僅僅依靠一個人是沒有能力創作歌曲的,但是有了SkyMusic大模型之后,所有人只要花1分鐘時間,只要你有歌詞,就能生成一首完整的歌曲,極大降低了音樂創作的門檻和造福全體內容行業。
以前大家知道所謂的配樂全是拿現有的曲子往視頻內容上配,今天可以把這個話題極大泛化,比如今天的主題演講,可以給每一位主題演講者配一首歌,比如微博上每一個大V給他們寫一首關于他們的歌曲,這個對于全體的內容行業都非常便利。
最后,SkyMusic證明中國研發也可以在垂直領域取得全球的SOTA,從而讓中國企業在全球的AIGC市場上去和國外的同行正面競爭,獲取我們應有的市場份額。
四、4000億參數開源MoE大模型天工3.0,拉低全領域創作門檻
下面介紹一下天工3.0,我們4月17日開啟公測的4000億參數的全球最大規模的開源MoE大模型,目前性能已經全部超越xAI發布的3140億參數的MoE大模型Grok-1。這是天工3.0 400B參數的MoE大模型的技術底座,目前在MMBench推理能力測試中標藍色的是處于領先的技術指標,我們在這個技術指標上還是遙遙領先的。

天工3.0,功能全面升級,它更聰明,模型的技術知識能力提升超過20%;數學、推理、代碼、文創能力提升30%;內容創作能力,包括能搜索、能寫作、能閱讀、能聊天,能夠語音對話,能夠文生圖,能夠給你作詞作曲。
給大家演示一下多輪搜索與綜合工具的調用能力。圖中問題是成都迪士尼怎么去,成都迪士尼實際上是一個梗,它是成都的一個小區,并不是真正的迪斯尼樂園。這時候通過搜索和大模型結合就判斷出來成都迪士尼實際上是一個網絡梗,但它還是把怎么去成都迪士尼這個小區規劃做出來。當你問到上海迪士尼天氣時候,大模型又生成一張天氣卡片,告訴你今天上海迪士尼下雨,最后再調用文生圖給你生成一張圖片。

第二個研究模式,做研究需要寫大綱、寫知識圖譜和思維導圖,而天工3.0在自動搜索之后不僅僅能生成表格,而且可以迅速生成大綱和自動生成腦圖,最后自動生成腦圖,可以即貼即用。
智能體廣場可以構建超強的AI智能體,去幫助你完成相應的工作。例如造一個智能體,幫助研究小米汽車和特斯拉汽車的一個差別,進行大量搜索獲取大量資料后,模型開始生成文圖俱備的對比表格,對于做文案工作的同學非常關鍵。
五、昆侖萬維新使命:實現AGI,讓每個人更好地塑造和表達自我
昆侖萬維作為一家中國的互聯網企業,現在的戰略是All in AGI與AIGC。我們在2023年宣布了公司的新使命:實現通用人工智能,讓每個人更好地塑造和表達自我。

為什么要做這樣一個使命的修正?因為實現通用人工智能,本質上是基于文本大模型把人類所有的知識壓縮到我們的通用大模型里面,這樣是通向通用人工智能的必經之路。
但是大家知道通用人工智能在現實中的落地是有先后之分的,什么樣的場景會更容易落地?
其實也比較簡單,有人開玩笑說,大模型剛出來的時候大家都覺得所有做生產工作的同學會最早失業,所有做創意藝術的同學應該是位置是最穩固的。但實際上經過這段時間的發展,大家可以看到,所有做文藝創作的同學失業概率會更大一些,也就是說在內容生成領域,其實AI的落地更容易。
很簡單,因為內容生成領域容錯率極高,用戶對于內容錯誤忍耐度非常高。我們可以容忍我們畫上、視頻的人多一根手指頭、少一根手指頭。但是我們工作中,你哪怕小數點后面少一位,這都是巨大的生產事故。也就是說在容錯率高的內容賽道,這一波大模型和人工智能的發揮空間是非常大的。
我們在人工智能、AIGC領域,研究目的就是降低創作的門檻。不管是文生圖、文生視頻、文生音樂、文生音效還是文生3D資產,本質上就是移除所有前序我們所需要的長期的專業訓練,而讓任何一個人覺得只要你會講故事,就可以創造出相應的內容來表達你自己。
這會帶來什么樣的影響?首先大家知道創作內容的成本極大降低了,創作內容的門檻降低了。我們知道創作內容方面只要門檻降低,創作內容的人數會急劇膨脹。
舉個例子,我小時候拍視頻都是電視臺記者扛幾十公斤的攝像機拍,這時候創作者非常少。但是智能手機出現之后把拍攝者變成全中國十幾億人,人人可以拍視頻,結果就是短視頻行業的巨大發展。這一波AI把全領域的創作門檻都拉低了,結果是什么?整個內容行業會迎來一個巨大的爆發。同時,它還帶來另外一個文化平權和打破壟斷的作用。
為什么?我在非洲待了蠻長時間,在尼日利亞的時候,了解到尼日利亞拍一部在院線上線電影的平均成本是兩萬美金到二十萬美金之間,這樣拍出來的片子和中國四五億人民幣拍出來的《流浪地球》、美國四五億美金拍出來的“漫威”系列電影相比,是毫無競爭力的。但是在我們下一代AIGC技術出來之后,我們認為全世界所有的弱勢文化的人都可以用非常低廉的成本,創造出媲美歐美強勢文化的內容。
這樣的結果是什么?每個弱勢文化的族群都可以通過AIGC技術來產生適合自己民族的文化、產生適合自己小語種的文化,這個對于全世界的文化平權是非常有意義的。這也就是第二條,讓每個人更好塑造和表達自我,這也是研發人員在文生音樂、文生視頻、文生小說、文生漫畫等內容創作領域持續不斷迭代改進的一個終極目的。
以上是方漢演講內容的完整整理。