智東西(公眾號:zhidxcom)
作者 | GenAICon 2024
2024中國生成式AI大會于4月18-19日在北京舉行,在大會第二天的主會場AIGC應用專場上,行者AI創始人&CEO尹學淵以《生成式AI賦能智慧文娛及教育新生態》為題發表演講。
尹學淵談到內容創作領域長期存在“不可能三角”的問題,即質量、成本、效率三者之間永遠無法達成平衡。而生成式AI的出現有望打破這一僵局,為教育、文旅行業開啟了交互式、沉浸式新體驗。
行者AI在多模態領域進行了廣泛探索,將美術大模型和音樂大模型用在實際落地的“最后一公里”階段。尹學淵強調了大模型與特定領域工作流程緊密結合的重要性,如果工作流程整合不當,一些看似功能強大的產品會在實際落地應用中問題頻出。
工業化AI與消費級娛樂AI的差異可以概括為三個關鍵特性:一致性、可控性、高精度。根據真實客戶反饋,行者AI的“行者丹爐”以及“圖刷刷”工具可將產品策劃、美術總監、原畫師、3D組、運營/美宣等工種的工作效率提升3-5倍。
以下為尹學淵的演講實錄:
我的原定主題為“生成式AI在文娛和教育領域的探索”,但主辦方認為這個標題過于謙遜,于是為我加上了“賦能”二字。今天我的分享將主要以案例為主,向大家展示我們是如何利用生成式AI進行創新實踐的。
首先,請允許我做個簡短的自我介紹。我自認為是一名連續創業者。2013年,我聯合創立了游戲公司龍淵網絡。2016年,我們在龍淵網絡內部成立了AI實驗室。到了2020年,我們將AI實驗室的產品獨立出來,分拆成一家AI公司。
我們公司專注于AI的應用層面,多年來一直在這個領域深耕。在生成式AI的概念尚未普及之前,我們就已經開始研發AI音樂、AI美術和AI智能體等產品,這些產品如今已在多個場景中得到應用。
今天我將分享的內容聚焦在文娛和教育這兩個行業。
一、生成式AI的關鍵作用,打破內容創作“不可能三角”
我們所有機會的起源都可以追溯到這張圖所展示的原理。在過去,內容創作領域存在著一個所謂的“不可能三角”。在這個三角中,質量、成本和效率三者之間似乎永遠無法達到平衡。

通常情況下,如果追求高質量的作品,那么成本必然高昂,且創作過程緩慢。如果你想要快速獲得成本低廉的成果,那么最終產出的內容很可能在美觀度上不盡如人意。如果你既想要高質量,又希望快速完成,那么唯一的辦法就是增加投入。
你會發現,在生成式AI出現之前,這個“不可能三角”一直是內容創作領域的一大難題。
生成式AI的主要作用就是打破這個“不可能三角”。現在,我們可以在保持作品質量的同時,實現快速且成本效益高的創作。
在我看來,所有的機會可以用兩個關鍵詞來概括:多模態和互動式。特別是當我們發現生成式AI技術解決了傳統內容創作的“不可能三角”問題之后,許多之前只能想象而無法實現的事情,現在已經有了實現的可能。
無論是游戲、大視聽、智慧教育、元宇宙,這些領域都可以分解為2D、3D、聲音、語言等不同的工程化組件。隨著生成式AI的革命性進步,我們現在能夠在這些領域實現多模態和互動式的應用。至于什么是互動式,我將通過一些案例來具體展開說明。
這個機遇的核心在于,過去在內容創作過程中,我們總是面臨著高成本和低成功率的雙重挑戰。在這種背景下,商業壓力使得大家不得不將注意力集中在提高付費率和轉化率上,很難真正從人類真善美的角度出發去設計和創造內容。無論是游戲還是影視劇作品,最終都不得不為了快速回收成本而犧牲某些價值。如果連成本都無法回收,那么這種商業模式就難以為繼。
傳統的教育、醫療、宣傳和文化傳播等領域,雖然非常值得投入,但高昂的成本限制了我們的行動。而今天,AI技術的發展為我們帶來了新的機遇。這就是我想要強調的點。通過AI技術,我們可以在保持高質量內容創作的同時,降低成本,提高成功率,從而為這些領域帶來更廣闊的發展空間。

二、美術、音樂大模型落地“最后一公里”,將真實用戶平均效率提升3~5倍
行者AI在多模態領域進行了廣泛的探索和嘗試。我們的美術大模型解決了很多基礎性問題,也帶來了很多新的可能。
然而,在將這些技術應用到實際工作中的最后一步,即“最后一公里”階段,我們發現所有大模型都必須與特定行業和領域的工作流程緊密結合。許多產品看似功能強大,但在實際應用中卻問題頻出,難以落地,這是工作流程整合不當所致。
從美術層面來說,我們通常會在每個環節使用不同的工具和算法來解決問題,這些環節包括美學設計、還原度、創意構思、用戶界面設計、圖標制作、原畫創作、3D建模以及特效和動作設計等。
并不是說我們可以通過一個包羅萬象的大模型來解決所有問題,實際上這樣做是非常困難的。相反,我們的目標是開發出各種不同的算法和工具,使美術從業者能夠走在AI技術的前沿,掌握并有效利用AI技術,而不是僅僅為了做出一個大模型。
工業化AI與To C的娛樂AI之間存在顯著差異,這些差異可以概括為三個關鍵特性:一致性、可控性、高精度。這三個特性是工業化AI作為實用工具不可或缺的要素。
首先,一致性意味著AI生成的內容保持風格和特征的統一。在設計兩個角色張三和李四時,他們應該各自保持獨特的外觀,而不是隨機變成王五的樣子。在實際應用中,許多產品依賴于提示詞來啟動生成過程,一旦提示詞發生變化,生成的作品也會截然不同。
無論是文生圖還是文生音樂,包括最近非常流行的一些創作工具,比如音樂,用戶可能會發現,如果想要修改生成內容的一小部分,整個作品就會變成完全不同的另一首歌,美術可能因為提示詞的變化,而變成一張全新的圖,不可深度編輯細節,這在工業化應用中是不可取的。
為了解決一致性的一問題,我們采用了“行者丹爐”這一概念。
大家調侃AI都在“煉丹”,我們干脆取一個名字叫“丹爐”。我們以這個比喻為基礎,創造了“丹爐”這一工具,以確保生成內容的一致性。通過這個工具,用戶可以迅速利用自己的素材、位置和數據標簽來訓練一個專屬于自己的AI模型,無論是畫風模型、人物模型、決策模型還是場景模型,都能輕松實現。

例如,如果你想訓練一個生成你個人肖像的模型,只需將你的照片輸入系統,訓練出的模型就會專門生成你的肖像,無論是站立、坐著還是躺著的姿勢;如果你想要模仿梵高的畫風,那么生成的作品就會具有梵高的風格;如果你偏好二次元風格,那么結果也會相應地呈現二次元特色。通過這樣的工具,我們不僅確保了一致性,還提高了可控性,使得最終生成的效果能夠完全滿足用戶的具體要求。
在討論工業化AI時,除了一致性和可控性之外,高精度也是一個關鍵特性。
比如一張16K的超高清的大圖,使用Midjourney嘗試將其縮小至4K分辨率的高清圖像可能會因為性能限制而變得不可行。同樣,自行搭建的Stable Diffusion在處理這種高分辨率圖像時也可能因為顯存不足而崩潰。 我們的算法可以做到16K,使其可以拿出去做美宣、原畫。
此外,生成這樣一張圖并非一次性完成,而是一個分階段、多模型疊加的過程。我們不是簡單地通過輸入一個Prompt然后點擊鼠標就生成一張圖,而是通過多個模型的疊加和分批次生成,最終合成為一張完整的圖像。這表明,生成式AI必須結合具體的應用場景,并且打造與工作流程緊密結合的工具,而不是依賴一個通用大模型。
根據真實客戶反饋,使用這些工具的平均效率提升了3~5倍。

這并不意味著某個行業被徹底革命或替代,而是使用這些工具的行業從業者的工作效率得到了顯著提升。即使是生成一張16K的大圖,也需要經過數天的多個步驟來完成,而不是瞬間生成。
當前,許多客戶反饋稱,他們的設計師正在轉變為AI工程師,每天都在訓練他們自己的模型。每個人都希望擁有自己獨特的畫風,每家公司也都不希望自家產品的設計看起來千篇一律或被指責為抄襲。在這種情況下,人類設計師可以專注于打磨自己的風格,訓練一個專屬于自己的模型,使得AI成為他們個性化創作的助手。
這大致是我們在美術領域的應用邏輯。
在音樂領域,我們的工作重點可以概括為“交互式”這三個字。
交互式的核心在于可控性,我們能夠實現非常精細的控制,如果某部分效果不盡如人意,可以立即進行調整。
這種交互式的方法涵蓋了AI音樂制作的多個方面,包括作詞、作曲、伴奏制作以及人聲合成。我們都為此開發了相應的工具,使得音樂創作過程不僅高效,而且可以細致調控。
以2021年世界大學生運動會的宣傳歌曲為例,這首歌曲的歌詞、旋律、伴奏以及演唱部分完全由AI完成。三年前的AI音樂制作水平,已經能夠滿足常規的宣傳和商業用途的需求,并且支持精細的控制和調整。
此外,我們還開發了AI智能體,也就是游戲中的Agent。
三、生成式AI如何改造教育和文旅?實時控制音樂創作,提供多模態互動體驗
在討論AI安全的同時,我們回到今天的主題,探討生成式AI在教育和文旅領域的應用。
在教育領域,尤其是在音樂教育方面,傳統的教學方法往往側重于演奏和演唱這兩個考核指標。學生通常需要演奏一首指定的曲目,相似度高則通過考核,否則需要回去繼續練習。
然而,隨著素質教育和美育教育的推廣,國家的教學大綱開始強調音樂鑒賞和音樂創作兩部分內容。音樂創作對于教學來說是一個挑戰,但有了生成式AI的幫助,我們可以快速地將其融入教學過程中,并且可以與國學文化相結合。
例如,許多唐詩宋詞原本就是吟唱的,但現代人往往不知道如何唱。利用AI,我們可以生成相應的曲調,如果覺得生成的旋律不夠理想,AI還能夠提供細粒度的調整建議,從而創造出千人千面的旋律。孩子們可以跟著這些旋律學唱,這樣既能學習音樂,又能在不知不覺中背誦古詩。

除了音樂創作,AI還可以用于教授音樂理論知識,如旋律曲線的繪制,AI可以根據用戶繪制的線條生成相應的旋律。
旋律曲線的繪制是音樂創作中的一個重要知識點,通過AI的輔助,學生可以通過簡單的點擊鼠標來體驗音樂創作的過程,并學習相關的音樂理論知識,如同頭異尾、模進等概念,同時還能進行音階和節奏的訓練。
在實際應用場景中,一些學校已經建立了美育教室,學生可以在這樣的教室中學習音樂創作和鑒賞,探索如何使音樂更加悅耳動聽。
這個系統不僅多次被央視報道,而且在全國范圍得到了推廣,包括成都、上海、北京等地區的美術教育中也都有所應用。通過這些創新的教學工具和方法,AI正在幫助教育者以更互動和沉浸式的方式進行教學,提高學習效率,同時也為學生帶來了全新的學習體驗。
什么叫交互式?交互式是指通過互動的方式進行溝通或教學,從而獲得更個性化和動態的體驗。
在AI音樂創作的例子中,交互式不僅指用戶可以實時調整和控制音樂創作的各個方面,也意味著可以通過AI生成的內容來教育和引導。例如,通過一個AI生成的小游戲來教育小朋友如何應對校園霸凌。在這個游戲中,孩子們可以身臨其境地體驗故事情節,學習在不同情況下如何應對和求助,這樣的交互式體驗比傳統的講授方式更加生動和有效。
與世界園藝博覽會的合作也是采用了類似的方法。通過AI技術,用戶可以快速生成一個包含世園會中上萬種植物信息的互動體驗,每個植物都有詳細的介紹,所有的圖像、角色、聲音和交互環節都是由AI生成的。

此外,AI還被用于與傳統文化的結合。例如與中國皮影戲博物館的合作案例,參觀者可以在博物館中通過攝像頭拍攝自己的照片,AI將根據這些照片生成個人的皮影形象,并允許用戶在皮影戲的虛擬世界中進行互動。這種體驗不僅增強了對傳統文化的了解,還通過AI的實時生成技術,讓每次的體驗都是獨一無二的。

AI技術也被應用于城市特色體驗的生成,如在成都可以生成以雪山為遠景、成都街景為近景的文化體驗,在廣州可以生成小蠻腰,在上海市可以生成東方明珠。這些體驗都是可以交互的,而且隨著進入博物館的人數增加,皮影戲中的角色也會相應增加,從而改變了傳統的沉浸式體驗模式。
傳統的沉浸式體驗內容更新周期長,游客體驗后可能就不會再次回訪。但通過AI技術,可以實現快速實時的內容更新,使得每次訪問都有新的體驗。AI可以生成365天都不重樣的沉浸式體驗,每天都有新的內容和互動,極大地提升了重游價值和文化體驗的深度。
AI技術與自貢宮燈會的結合,展示了AI在多語言交流和互動娛樂方面的應用。通過使用Agent和多樣的AIGC技術,宮燈會的AI角色不僅能夠使用多國語言與觀眾進行對話,還能驅動3D模型與觀眾進行互動。這些AI角色可以根據不同的國家和地區使用相應的語言進行交流,不僅能進行對話,還能唱歌和跳舞,為觀眾提供豐富的多模態體驗。
例如,如果今天要感謝“智東西”和“智猩猩”的邀請,只需將這兩個名字輸入AI系統,AI形象便可以根據輸入進行相應的表演。
這些都是AI技術具體落地的應用場景,體現了交互式多模態體驗的潛力。
此外,AI技術在文旅場景中的應用也非常廣泛。在許多文旅景點,由于人多,找到一個好的拍照位置并不容易,而且晚上的燈會等場景雖然景色迷人,但拍攝人物照片時往往因為光線問題導致面部暗淡。AI寫真打卡功能可以輕松解決這一問題,它不僅能夠美化照片背景,還能提升人物形象的亮度和清晰度。
AI技術還可以用于生成與植物相結合的抽象畫,這些畫作在現實中很難拍攝出來,但通過AI的生成能力,用戶可以創造出獨特的藝術效果。更進一步,如果現場有打印機,觀眾可以將這些AI生成的畫作打印出來并帶回家,極大地增強了參觀體驗。
以上是尹學淵演講內容的完整整理。