智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西10月9日報道,今日下午,美圖自研AI視覺大模型MiracleVision(奇想智能)3.0版本發布,并將全面應用于美圖旗下影像與設計產品,助力電商、廣告、游戲、動漫、影視五大行業。這也是美圖公司為其15周年交出的最新答卷。

3.0版本主打“奇思妙想”和“智能創作”,除了輸入文字生成相應圖像、輸入涂鴉秒變大作這些“基本功”外,MiracleVision 3.0版本的“智能腦補”和精準控制能力都變得更強,進一步降低了繪圖、修圖的操作門檻。

比如在描述畫面方面,輸入關鍵詞“椅子”,它就會自動補充聯想一些可能關聯的提示詞,如“霓虹燈光”、“透明質感”、“商業攝影”等,進而降低用戶寫提示詞的門檻。在生成圖像方面,點擊“畫面擴展”,視覺大模型就能在更大的畫布上“腦補”出輸入圖像的背景畫面。

距離美圖視覺大模型面世剛過去100天,三個版本的迭代升級區別有多大?和其他視覺大模型相比,MiracleVision 3.0有什么獨特競爭力?有哪些新的商業化方向?美圖公司創始人、董事長兼首席執行官吳欣鴻等六位高管與智東西等媒體進行深入交流,解讀美圖視覺大模型的核心技術實力、算力投入情況及落地商用規劃,并分享了對國產AI視覺大模型現狀與問題的最新思考。

目前市面上大部分視覺大模型都在卷數據量、參數量,但吳欣鴻認為,衡量視覺大模型能力的標準并非追求參數指標,而是抓住應用場景的核心需求,并在商業模式上得到驗證。他預測視覺大模型在2024-2025年進入高速發展期,2026-2030年進入成熟期,將助力千萬設計場景,引領美學的升級與社會經濟增長。

一、美圖視覺大模型100天進化:生圖更輕松、出圖更專業、改圖更精準
100天之間,美圖視覺大模型進化了哪些能力?
美圖公司創始人、董事長兼首席執行官吳欣鴻介紹說,MiracleVision展現出了可喜的成長速度,3個月前,它的繪畫水平還停留在初級階段,如今已經能描繪出真實細膩的畫面細節,用戶現可訪問AI視覺創作工具“WHEE”官網體驗。

美圖公司將自研AI視覺大模型MiracleVision(奇想智能)的核心能力拆解為兩大特性——“奇思妙想”和“智能創作”。
在“奇思妙想”層面,MiracleVision通過“提示詞智能聯想”功能降低大眾的使用門檻。

當用戶輸入關鍵詞,MiracleVision可自動補充相關表述,如光影效果、質感、風格、圖片質量等,推動創作平權。
此外,MiracleVision通過“提示詞精準控制”功能來滿足更加專業的設計要求,如使用“近景”、“遠景”、“順光”、“逆光”等描述控制最終生成效果。

除了亞洲人外,MiracleVision還支持不同地區、不同膚色的人像攝影,以滿足全球用戶多樣化的需求。

對于企業來說,設計物料更加高效省時。例如快速生成堪比專業棚拍效果的商品圖,并能隨心切換背景。

上傳一個logo圖像,再輸入幾個關鍵詞描述,視覺大模型就能生成出審美在線的品牌視覺海報。

在“智能創作”層面,MiracleVision通過“深化創作”功能,進一步豐富作品細節和提升表現力。

通過“AI畫面擴展”功能,可以讓作品尺寸更大、細節更豐富。

通過“局部修改”功能,圈住要修改的位置,輸入想修改的文字描述,就能對部分畫面進行精準修改與調整,做到指哪改哪。

通過“分辨率提升”功能,可以生成高清大圖,最高能支持4K分辨率,讓細節表現、色彩展示、物體辨識更加的精準和生動。

二、助力電商、廣告、游戲、動漫、影視五大行業,帶來更高效的AI原生工作流
在吳欣鴻看來,AI視覺大模型帶來的不僅僅是更好的視覺呈現,還有對工作流的效率提升,但目前大模型與工作流的結合仍在探索階段,抓住應用場景的核心需求更為重要。

據他介紹,MiracleVision將落地電商、廣告、游戲、動漫、影視五大行業,希望能助力行業“工作流提效”,推動AI視覺大模型的應用普及。

在電商行業,從涂鴉生成線稿、線稿上色、商品圖、模特試穿圖,再到電商物料輸出,全程可通過MiracleVision實現。

在廣告行業,MiracleVision覆蓋創意腦暴、創意深化、平面排版、多尺寸延展、線下投放預覽的全工作流,助力客戶在廣告物料制作環節提效。

在游戲行業,MiracleVision可以包攬場景設計、角色設計、道具設計、UI圖標、宣發物料等流程,拓寬設計師想象空間的同時助力游戲行業降本。

在動漫行業,MiracleVision打通了概念設計、故事板生成、線稿上色、動漫補幀、視頻轉動漫等流程,支持創意到物料成品的快速落地。AI的助力能夠讓動漫創作團隊把更多精力放在講好故事和打造更加令人印象深刻的動漫角色IP上。

在影視行業,MiracleVision的高可控性可充分滿足概念場景設計、分鏡設計、人物造型、道具設計、宣發物料的效果要求,極大提升影視行業設計環節的效率。

三、視覺大模型供大于求,2026-2030年走向成熟期
吳欣鴻透露,在深度參與視覺大模型建設的過程中,他重溫了自己年少學畫的時光,當時通過眼睛捕捉各種視覺信息,通過反復實踐和嘗試不同的技巧和風格,逐漸提高了繪畫技能。

“訓練AI也有共通之處,AI會學習各種不同的繪畫風格和技巧。通過充分的訓練,AI也能創作出具有獨特性的原創作品。”他認為AI視覺大模型的本質是一個無窮無盡的視覺創意庫,和應用之間相輔相成,大模型為應用提供技術支撐,應用反哺大模型的效果迭代。

目前,國內有很多團隊在研發視覺大模型,目前已知的有超過30個團隊,還有近百支團隊正在積極籌備進入該賽道。
但從實際情況來看,吳欣鴻總結為十個字:說得多,用得少,供大于求。

他談道,能將視覺大模型與生產環節結合的企業數量相對較少,視覺大模型與工作流的融合也處于前期探索階段。
對于成熟的大中型企業,他們對效果的精度要求很高,但當前大部分視覺大模型的生成效果與人類設計師的標準存在一定差距。對于小微企業,在視覺大模型部署方面要付出較高的學習成本。對于個體用戶來說,復雜的平臺交互仍是阻礙使用AI創作的一大門檻。與此同時,AI創作存在一些不可控的部分。

總體來看,吳欣鴻認為,大模型真正在生產端普及使用,需要解決三個問題:垂直領域的極致效果、工作流整合、變現能力。
據他預測,視覺大模型應用普及將經歷三個階段:探索期、高速發展期、成熟期。
2024年之前為探索期,廠商在這一階段進行不斷探索,效果勉強及格,視覺大模型在工作流里支持單任務的提效,驗證場景的可行性。
2024-2025年進入高速發展期,效果會逐步精進,有著明確的場景,帶來工作流的升級。
2026-2030年為成熟期,視覺大模型的生成效果會非常出色,凡是設計與創意,視覺大模型都是標配。
隨著視覺大模型在生產端的應用走向成熟,設計的邊界也會被不斷拓寬。
四、7款影像生產力工具,3個月進化成果披露
除了視覺大模型升級到3.0版本外,吳欣鴻公布了6月19日發布的其他6款影像生產力工具的一些最新進展:

1)AI視覺創作工具“WHEE”:優質AI效果生成數超過550萬張,打造的設計師生態初見成效。
2)AI口播視頻工具“開拍”:月活躍用戶數已突破35萬;桌面端AI視頻編輯工具“WinkStudio”已累計服務近10萬名視頻創作者;
3)WinkStudio:7月上線,服務近十萬名視頻創作者,成為他們必備的生產力工具。
4)主打AI商業設計的“美圖設計室”:正助力近百萬中小電商賣家降本增效。
5)AI數字人生成工具“DreamAvatar”:于8月底上線,并主打“AI演員”數字人服務。
6)美圖AI助手“RoboNeo”:每天幫助近萬名用戶自動修圖,比傳統修圖效率提升35%。
五、大模型算力成本壓力不大,訂閱和單購商業模式相輔相成
在發布MiracleVision(奇想智能)3.0版本后,美圖公司的六位核心高管與參會媒體進行深入交流。具體干貨信息如下:

1、美圖視覺大模型會應用到哪些產品中?
美圖大部分產品都會逐漸融入其自研大模型的能力。較顯性的是美圖秀秀,該產品已經是一個影像入口,整合了美圖大部分產品,所以讓用戶能夠一站式地感受其大模型的當前能力。未來美圖視覺大模型更多要賦能各行各業,先從相關性較強的5個行業入手,通過打磨驗證,未來進入行業的工作流并提高生產力。
美圖截至今年1月份的月活躍用戶數是2.47億,很多人都會通過美圖的產品逐漸用到AI提供的服務,切身感受到大模型帶來的效率提升。美圖希望服務的用戶群體包括大眾用戶、專業用戶、大眾用戶與專業用戶之間的傳播者。

2、美圖視覺大模型三個版本分別是什么狀態?
用關鍵詞來總結,1.0版本是“勤奮好學”,效果在及格線左右,美學評估的很多維度有待進化;2.0版本開始有些“奇思妙想”,創造力、想象力變得更好;3.0版本在精準控制細節、畫面精細度和質感、與行業工作流的結合等方面均提升顯著。
3、與其他市面模型相比,美圖視覺大模型有何獨特之處?
美圖視覺大模型完全自研,有針對美學的傾向性,基于自研模型建立了一個美學評估體系,以不斷優化美學效果。其模型結構和數據集都是以此為出發點來組織和建立。與其他公司不同的是,設計師及美學領域創造者高度參與了美圖視覺大模型的訓練過程。
美圖發展15年來一直處在相對激烈的競爭環境下,在視覺大模型領域,美圖的一大優勢是擁有較為龐大的用戶規模和現成的應用場景,可以源源不斷地融合大模型能力,并探索出相對成熟且不斷增長的訂閱商業模式,構建很好的閉環。對于美圖來說,視覺大模型競爭才剛剛開始,現階段先把自己做強是一個非常關鍵的基礎。
4、美圖在視覺大模型的投入情況如何?
美圖今年上半年研發投入將近3億元,全球超6億元,在其總營收中的占比超20%,與大模型相關的主要工程師約有600人,還有很多設計師、產品經理參與其中。
美圖研究院從2011年成立以來,一直在做核心的視覺AI能力,其核心團隊畢業于國內清華、北航、廈大等知名高校以及海外新加坡、澳大利亞、韓國的一些頂尖高校。美圖也長期與這些頂尖高校的老師有合作。
5、美圖視覺大模型有哪些核心技術競爭力?
從AI三要素來看,數據方面,有專業設計師標注的高質量數據,除了美圖設計師外,還有一些合作美院及藝術家參與了數據的標注與審核。算法方面,美圖已經在計算機視覺算法上有10多年的積累。此外,美圖在美學方面擁有深厚基礎,導致其視覺大模型的訓練效果更佳。
算力也非常充足,美圖與頭部廠商合作。大模型訓練方面用了很多A100和A800的計算卡,推理方面用的卡不太一樣,更多是V100、T10、A10等型號。在AI動漫或視頻類場景,推理方面最多差不多能用到8000張卡。算力對美圖來說不是很大的成本壓力。像AI動漫這樣的產品,雖然用了很多卡,但通過單購和會員的方式,算下來還是能實現盈利。
6、美圖在AIGC產品商業模式上會有哪些嘗試?
可滿足AIGC功能使用需求的購買美豆模式在9月初就上線了,目前運行比較良性,不過美圖有很多策略還沒上線,將逐步展開,這為訂閱提供了一個很好的補充,用戶可以先用美豆以極低的成本去嘗試生成效果,如果發現可能長期需要這樣的模型能力,再采用訂閱模式。
對于訂閱用戶,生成數量是有一定限制的,如果超出限制范圍,用戶也可以通過美豆來追加生成內容。訂閱目前只有VIP和SVIP,未來不排除針對一些行業、專業需求去增加更高級別的會員。
訂閱和單購兩種模式相輔相成,未來美圖也將就以美豆為代表的單購去做反復的策略驗證,短期內應該不會增加其他新付費嘗試。
結語:未來,萬物皆可生成
吳欣鴻認為,對于各行各業的從業者而言,AI視覺大模型帶來的改變不止限于視覺效果的提升,更重要的價值的是對工作流的改造和創新。
當前,AI視覺大模型主要被運用于生成各類藝術作品,包括繪畫、攝影和設計圖稿為主,能展現出初步的效果,但這只是起點。
未來AI視覺大模型將承擔更多瑣碎、重復的工作,成為讓創作者有更多時間和精力,去解放想象力,探索真正的創新與創造。
吳欣鴻相信AI的進化速度會很快,將來,在AI的幫助下,甚至萬物皆可生成。
