智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影

智東西9月24日報道,今天上午在2025云棲大會開幕式上,阿里巴巴一口氣發布了7個模型更新,阿里通義系列模型已累計發布了300多款

本次大會上發布的新模型包括:

1、Qwen3-MAX:萬億參數大模型,編程與工具調用能力登頂國際榜單;

2、Qwen3-Omni:原生全模態大模型,支持19種語言及方言輸入、10種語言輸出,可處理長達30分鐘的會議錄音或播客并精準輸出紀要;

3、Qwen3-VL:視頻理解模型,Agent和Coding能力全面提升;

4、Qwen-Image:開源圖片編輯模型,新版本支持多圖參考編輯,原生集成ControlNet;

5、Qwen3-Coder:智能編程模型,支持256K上下文,TerminalBench分數大幅提升;

6、Wan2.5-Preview:視頻生成模型,可以生成10秒長視頻,時長提升1倍,最高支持1080P 24fps畫質;

7、通義百聆:企業級語音基座大模型,幻覺率驟減67.8%。

阿里巴巴集團CEO、阿里云智能集團董事長兼CEO吳泳銘首次系統闡述了通往超級人工智能(ASI)的三階段演進路線,他認為實現通用人工智能(AGI)已是確定性事件,但AGI并非AI發展的終點,而是全新的起點。AI發展的終極目標是發展出能自我迭代、全面超越人類的ASI。

此外,阿里云智能集團首席技術官、通義實驗室負責人周靖人還介紹了阿里云百煉平臺在Agent智能體開發與AI基礎設施上的功能改進和升級。

一、吳泳銘:AGI并非AI發展的終點,而是全新的起點

在發布AI全家桶更新之前,吳泳銘率先登臺分享了他本人以及阿里對于AGI、ASI的洞察與思考,還透露了阿里對于AI發展的愿景和實現路徑。

他首先系統闡述了通往ASI的三階段演進路線

第一階段:“智能涌現”,特征是“學習人”,指的是AI通過學習海量人類知識具備泛化智能。

第二階段:“自主行動”,特征是“輔助人”,即AI掌握工具使用和編程能力以“輔助人”,這是行業當前所處的階段。

吳泳銘認為,實現這一跨越的關鍵,首先是大模型具備了Tool Use能力,有能力連接所有數字化工具,完成真實世界任務。其次,大模型Coding能力的提升,可以幫助人類解決更復雜的問題,并將更多場景數字化。

“發展大模型Coding能力是通往AGI的必經之路。”吳泳銘強調,“未來,自然語言就是AI時代的源代碼,任何人用自然語言就能創造自己的Agent。”

第三階段:“自我迭代”,AI通過連接物理世界并實現自學習,最終實現“超越人”。

吳泳銘談道,這個階段有兩個關鍵要素:

第一、AI連接了真實世界的全量原始數據。他認為,只有讓AI與真實世界持續互動,獲取更全面、更真實、更實時的數據,AI才能更好的理解和模擬世界,發現超越人類認知的深層規律,從而創造出比人更強大的智能能力。

第二點就是Self-learning自主學習。隨著能力的持續提升,未來的模型將通過與真實世界的持續交互,獲取新的數據并接收實時反饋,借助強化學習與持續學習機制,自主優化、修正偏差、實現自我迭代與智能升級。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

吳泳銘還分享了阿里對于當今AI影響的思考:

首先,阿里認為大模型將是下一代的操作系統。LLM將會是承載用戶、軟件與AI計算資源交互調度的中間層,成為AI時代的OS。

大模型作為下一代的操作系統,將允許任何人用自然語言,創造無限多的應用。未來幾乎所有與計算世界打交道的軟件可能都是由大模型產生的Agent,而不是現在的商業軟件。

其次,超級AI云是下一代的計算機。從CPU為核心的傳統計算,正在加速轉變為以GPU為核心的AI計算。新的AI計算范式需要更稠密的算力、更高效的網絡、更大的集群規模。

這一切都需要充足的能源、全棧的技術、數百萬計的GPU和CPU,這就需要超大規模的基礎設施和全棧的技術積累,只有超級AI云才能夠承載這樣的海量需求。未來,全世界可能只會有5-6個超級云計算平臺。

為實現這一暢想,阿里云作為“全棧人工智能服務商”,將通過兩大核心路徑實施AI戰略:

第一,通義千問堅定開源開放路線,致力于打造“AI時代的Android”。通義千問已經開源了300多款模型,覆蓋了全模態、全尺寸。截至目前,通義千問全球下載量超6億次,衍生模型超17萬個,是全球第一的開源模型矩陣。

其二,阿里還將構建作為“下一代計算機”的超級AI云,為全球提供智能算力網絡

為支撐這一宏大愿景,吳泳銘分享了一組數據,阿里巴巴正在積極推進三年3800億的AI基礎設施建設計劃,并將會持續追加更大的投入。根據遠期規劃,為了迎接ASI時代的到來,對比2022年這個GenAI的元年,2032年阿里云全球數據中心的能耗規模將提升10倍

在演講的最后,吳泳銘強調,一切才剛剛開始。他認為,AI將重構整個基礎設施、軟件和應用體系,成為真實世界的核心驅動力,掀起新一輪智能化革命。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

二、超級“6+1”,通義系列模型一攬子全面升級

隨后,阿里云智能集團首席技術官、通義實驗室負責人周靖人帶來了阿里通義系列的全棧更新發布。整個發布分為三個部分:大模型、Agent開發范式和AI基礎設施。

首先在大模型方面,也是本次大會開幕式最重磅的環節,周靖人一口氣發布了7款新模型,分別是Qwen3-MAX、Qwen3-Omni、Qwen3-VL、Qwen-Image、Qwen3-Coder、Wan2.5-Preview和首次亮相的通義百聆,具體升級如下:

1、Qwen3-Max

周靖人分享到Qwen3-Max為通義千問家族中最大、最強的基礎模型。該模型預訓練數據量達36T tokens,總參數超過萬億,主推Coding編程能力和Agent工具調用能力。

該模型包含Instruct和Thinking兩個版本,Instruct適用于代碼生成、工具調用等即時交互任務;Thinking 支持結合工具的深度推理與多步任務拆解,適用于復雜邏輯推演、科研解題等高階場景。

在大模型用Coding解決真實世界問題的SWE-Bench Verified測試中,Instruct版本斬獲69.6分,位列全球第一梯隊;在聚焦Agent工具調用能力的Tau2-Bench測試中,Qwen3-Max取得74.8分,超過Claude Opus4和DeepSeek-V3.1。理科推理能力方面,AIME25評測正確率達98%

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

Thinking版本在AIME25評測中得分81.6,顯著高于Qwen3-235B-A22B的70.3分,HMMT評測中預估沖擊95分,在SuperGPQA、LiveCodeBench、τ2-Bench等任務上也均優于Qwen3-235B-A22B。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

2、Qwen3-Omni

Qwen3-Omni是新一代全模態大模型,支持19種語言及方言輸入、10種語言輸出,可處理長達30分鐘的會議錄音或播客并精準輸出紀要。

該模型采用Thinker-Talker MoE架構,在支持音視頻、圖像等多模態能力的同時,文本智力不打折,原生支持Function Call與MCP協議,可無縫嵌入車機、智能音箱等語音助手系統。Qwen3-Omni閉源版提供17種擬人音色,每種音色支持10語種自然表達。

該版本的模型在音頻識別、語音生成、圖像理解等任務上全面超越Qwen2.5-Omni與GPT-4o,VoiceBench-CommonEval得分達90.8,在AIME25、ZebraLogic等文本推理任務上得分更高,語音生成(MiniMax-avg)達2.5803,VoiceBench-CommonEval得分91.0,在開閉源評測中22項達SOTA水平,多項指標領先開源模型。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

3、Qwen3-VL

Qwen3-VL是最新的視覺理解模型,可以實現“看懂、理解并響應世界”。該模型支持2小時視頻精確定位,OCR語言從19種擴展至32種,生僻字、古籍、傾斜文本識別率顯著提升,原生支持256K上下文,可擴展至100萬token

本次發布重點強化了視覺智能體、可視化編程、空間感知與3D Grounding、超長視頻理解與行為分析、Thinking版本STEM推理、視覺感知、多語言OCR與復雜場景支持、安防感知與風險預警、長上下文原生支持等能力,其中視覺智能體在OS World等評測中達世界頂尖水平,Thinking版本在MathVista、MathVision、CharXiv等評測中達SOTA水平。

4、Qwen-Image

Qwen-Image是全新升級的開源圖片編輯模型,新版本支持多圖參考編輯,強化人臉、商品、文字ID一致性,原生集成ControlNet,實現工業級穩定性。

多圖編輯支持人物、商品和場景的多重組合排列;單圖編輯在人物ID保持(支持各種風格肖像、姿勢變換)、商品ID保持(支持各種商品海報編輯)、文字編輯(支持文字內容、字體、色彩、材質修改)等方面一致性顯著增強。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

5、Qwen3-Coder

Qwen3-Coder是智能編程模型,支持多模態輸入,搭配Qwen Code系統,可上傳截圖+自然語言指令生成代碼。

周靖人透露稱,新版本通過Agentic Coding聯合訓練優化,在SWE-Bench Verified上得分達70.3,TerminalBench與SecCodeBench也顯著上漲。Qwen3-Coder在OpenRouter平臺一度成為全球第二流行的Coder模型(僅次于Claude Sonnet 4)。

Qwen3-Coder支持256K上下文,可一次性理解并修復整個項目級代碼庫,推理速度更快、Token消耗更少、安全性更高。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

6、Wan2.5-Preview

Wan2.5-Preview首次原生支持音畫同步,全面提升視頻生成、圖像生成、圖像編輯三大核心能力。

在視頻生成方面,該模型支持原生音畫同步,可以生成10秒長視頻,時長提升1倍,最高支持1080P 24fps畫質。其次,該模型還在復雜指令遵循、圖生視頻保ID優化、通用音頻驅動等方面對應升級。

在圖像生成方面,Wan2.5-Preview在美學質感、穩定文字生成(支持多種文字類型精準渲染)、圖表直接生成(可輸出多種結構化圖文)、指令遵循等方面全面升級;

此外,該模型在圖像編輯能力上,還支持豐富指令編輯任務,可以保持視覺元素ID一致性。

7、通義百聆

除了以上既有模型的升級以外,周靖人還帶來了全新發布的企業級語音基座大模型“通義百聆”

通義百聆整合了Fun-ASR 語音識別大模型Fun-CosyVoice語音合成大模型,致力于攻克復雜環境下的語音落地應用難題。

Fun-ASR通過首創的Context增強架構“CTC+LLM+RAG”,將幻覺率從78.5%降至10.7%,支持熱詞動態注入與跨語種語音克隆,實現了行業術語100%準確召回。

Fun-CosyVoice采用創新性的語音解耦訓練方法,大幅提升音頻合成效果,支持跨語種語音克隆。該模型還具備強定制化能力,引入RAG機制動態注入術語庫,5分鐘就可完成配置。

現階段,此次發布的所有模型已同步上線。用戶可進入魔搭、GitHub、Hugging Face一鍵部署,也可登陸阿里云百煉平臺調用API。

周靖人還分享稱,阿里的開發者社區魔搭社區,已經有超過1800萬的用戶數,有超過10萬個模型。

三、支持低代碼構建流程,還提供全新開發框架,阿里云百煉Agent平臺全面更新

Agent開發部分,周靖人稱當下Agent智能體需要更加清楚地理解業務需求,能夠調用工具幫助開發者充分發揮魔性能力,解決實際場景問題。

他提出,智能體開發還有諸多難題需要解決,首先就是從預定義流程編排到自動化分解需求的演變。

另一方面,阿里認為當下智能體開發,記憶是十分重要的能力。記憶能力可以讓Agent貫通上下文,與模型不斷提升的上下文能力有機結合。阿里會為用戶定制不一樣的記憶內容,做到實時動態更新記憶,這也為Agent個性化奠定了基礎。

在記憶方面,還要做到智能化記憶分層,例如具體的歷史記錄以及抽象化形成經驗的歸納和總結。并且,記憶還要做到多模態。

第三方面,阿里還希望可以在智能體上面做到信息增強,鏈接更加多元的信息,拓展模型的能力邊界。

特別是本地知識,阿里希望可以讓模型更加快速地學習本地、實時的知識,做到準確、可靠、實時和專業。

最后,周靖人認為智能體要從過去的對話聊天形式升級為自主行動模式。要完成這一轉變,模型需要強大的工具調用平臺,需要提供一個完整的沙箱的環境和一系列計算運行所需要的工具,這一系列都與云能力緊密相關。

為此阿里也推出了阿里云百煉Agent產品,可以從規劃決策、信息管理以及工具調用各個方面,全面支持AI時代的智能體的開發。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

百煉Agent提供多種開發方式,一種開發方式是通過低代碼的方式,開發者可以通過拖拽的方式去構建靜態或動態流程,能夠快速上手搭建一個智能體。

另外,該產品基于Agentscope的Agent開發框架(ADK),該框架提升了Agent調用云資源效率以及Agent應用開發效率,并且支持不同類型的Agent,具備可擴展性。周靖人透露,今天,Agentscope已經成為了國內開源社區最活躍的智能體開發的框架之一。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

在工具調用方面,百煉Agent支持MCP協議,能夠原生提供多種工具服務、沙箱服務以及相關的計算服務等等,開發者可以開箱即用、快速調用。

另外該產品也可以讓企業私有化的API一鍵式轉化成MCP服務,由百煉Agent進行托管,讓企業的智能體在專有域上調用內部工具,與模型能力有機結合。

同時,百煉Agent也可以在Agent和環境的交互服務、Agent數據和評測服務、Agent訓練服務以及模型部署服務上全鏈路支持Agent的持續調優和進化。

周靖人分享稱,到今天,阿里云的百煉模型服務已經完成了全球部署,部分模型的生成速度能夠達到100TPS。在過去的12個月里面,百煉模型服務的調用量增加了15倍

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

四、AI基礎設施面臨三大挑戰,阿里帶來從服務器到算力的全棧優化

周靖人認為,Agent發展給AI基礎設施提出了更高的要求:更強大的算力、模型全生命周期優化以及AI原生的應用的開發。

在服務器方面,阿里推出磐久AI Infra2.0 128超節點服務器。該服務器單柜最高功率以及液冷散熱可以達到350千瓦,系統供電可用性高達99.9999%。該服務器兼容開放架構,能夠兼容產業中各類主流芯片以及ALS AI原生Scale up協議。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

為了將服務器連接起來,阿里還推出高性能網絡HPN8.0,真正做到訓推一體。通過自研硬件的升級,阿里通過網絡連接,實現從萬卡規模到可以支持幾十萬卡規模數據中心建設的升級。同時,阿里還優化了通信的協議以及通信庫。HPN8.0網絡支持跨數據中心連接,實現資源調度。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

分布式的存儲方面,阿里面向Al Infra方面推出CPFS,單客戶端可以達到每秒40GB存儲量,相比傳統的方案提升了60%。面向Agent開發,阿里還推出OSS,原生支持向量數據,可以實現存檢一體,節省95%的成本。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

在算力方面,阿里推出了智能計算靈駿集群,支持業界主流GPU,支持多種異構芯片,故障發現率超過了98%。此外,容器計算與函數計算方面,阿里提供的容器計算能夠在每分鐘拉起15,000個沙箱,做到低延時快速啟動。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

面向智能體的開發,阿里做到AI應用全棧可觀測,也就是提供各種各樣的監測工具,幫助開發者跟蹤當前系統運行的狀態,做到故障檢測以及故障分析。阿里已經構建起了連接全球的智能算力網絡,可以為AI應用提供全球訪問加速。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

在模型優化服務方面,阿里推出的人工智能平臺PAI,可以貫穿大模型訓練、推理與強化學習的全鏈路性能優化。在數據平臺以及數據庫方面,阿里推出面向AgenticAl時代的多模態智能數據底座,可以實現多模態數據處理。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

最后,在安全方面,阿里向模型和Agent開發提供強大的AI安全護欄,用AI來保護AI安全,實現數據安全、內容安全、實人認證和智能安全運營。

阿里狂發300多款模型背后,吳泳銘:做“AI時代的安卓”

結語:阿里云AI布局藍圖逐漸明晰

總而言之,本次云棲大會開幕式清晰地勾勒出阿里巴巴在人工智能領域的雄心與實力,也展示了阿里在下一階段AI發展中的技術布局與產業思考。

從通義千問系列模型到Agent開發框架以及AI基礎設施,阿里展現了一個從頂層設計到技術落地的完整AI生態體系。阿里此番布局,或許有意搶占下一代AI操作系統和算力平臺的核心生態位。