智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影

智東西10月9日消息,昨日夜間,螞蟻集團正式開源Ling 2.0系列中首個旗艦級非思考模型Ling-1T參數量達到1T(1萬億)

Ling-1T-base基于Ling 2.0架構構建,在超20T token的語料上完成預訓練,支持最高128K上下文窗口。

Ling-1T全程采用FP8混合精度訓練,是目前已知規模最大的使用FP8訓練的基座模型。通過“中訓練+后訓練”的演進式思維鏈(Evo-CoT)技術,該模型的高效推理能力得到有效提升。

Ling-1T在推理、數學以及編程等基準測試中取得22項SOTA表現,部分基準測試超越DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905,復雜推理能力可媲美閉源API。

國產萬億參數模型開源,FP8訓練,性能超DeepSeek V3.1

Ling-1T現已在Hugging Face和魔搭社區全面開源。

開源地址:

HuggingFace:

//huggingface.co/inclusionAI/Ling-1T

ModelScope:

//modelscope.cn/models/inclusionAI/Ling-1T

Ling chat(國內用戶):

//ling.tbox.cn/chat

ZenMux(海外開發者,提供Chat測試與API等能力):

//zenmux.ai/inclusionai/ling-1t

一、數學推理能力SOTA,超越Gemini-2.5-Pro和DeepSeek-V3.1-Terminus

Ling-1T在7項有關數學以及推理能力的基準測試中獲得SOTA表現。在MultiPL-E、LiveCedeBenchi2408-25051、CadeForces-raling以及FullStack Bench等編程能力基準測試中,Ling-1T超越DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905以及閉源的GPT-5-main、Gemini-2.5-Pro

國產萬億參數模型開源,FP8訓練,性能超DeepSeek V3.1

國產萬億參數模型開源,FP8訓練,性能超DeepSeek V3.1

在AIME 25基準測試中,Ling-1T拓展了推理精度與推理長度的帕累托邊界,展示了其在“高效思考與精準推理”方面的優勢。

國產萬億參數模型開源,FP8訓練,性能超DeepSeek V3.1

Ling-1T結合了深度語義理解與精準代碼合成,在視覺推理與前端代碼生成任務中表現較好。研究團隊引入混合語法-功能-美學獎勵機制,使模型不僅能生成正確且功能完整的代碼,還展現出精致的視覺美感。

在AI代碼生成評測標準ArtifactsBench上,Ling-1T在開源模型中排名第一,且本文中的基準可視化內容實際均由Ling-1T自身生成。在BFCL V3工具使用基準測試中,Ling-1T僅通過輕度指令微調即實現約70%的工具調用準確率,盡管訓練期間未接觸大規模軌跡數據。

Ling-1T能夠解析復雜自然語言指令,將抽象邏輯轉化為功能化視覺組件,還能生成跨平臺兼容的前端代碼,以及生成創作風格受控的營銷文案與多語種文本,這些能力構成了通用協作人機智能的基礎。

例如,讓Ling-1T開發一個展示《三體》主要人物關系及陣營的圖譜頁面,并提供詳細的視覺效果要求(配色、風格、鼠標懸停效果等)。

讓Ling-1T根據要求開發Crane云平臺網頁,其完整實現了用戶登錄、數據儀表盤、客戶管理、設備管理等功能。

再比如,Ling-1T 開發的“在線塔羅牌運勢預測”頁面,完整實現了首頁、占卜流程、運勢報告、塔羅數據庫、用戶評價、塔羅知識小貼士等產品功能。

Ling還可以生成隨意控制的六邊形+小球運動:

指令:寫一個HTML腳本,展示1個小球在旋轉的六邊形內彈跳碰撞,需要滿足如下要求:
1. 六邊形大小可以實時調整
2. 六邊形旋轉速度可以實時調整
3. 小球大小可以實時調整
4. 小球和六邊形間的碰撞符合物理規律,需要考慮重力、摩擦力、反彈力等等

還可以要求Ling-1T開發一個展示其自身不同寫作風格能力的應用,包括前端頁面和后端服務調用腳本。

Ling-1T可以根據提示詞要求,對六種常見的優化問題(線性規劃、旅行商問題、車輛路徑問題、作業調度、最大流求解、交互式數獨)進行求解并同時用pygame生成教學演示動畫。

更日常一些,Ling-1T能夠根據給定信息和要求(酒店、目的地坐標,步行為主,停留時長等)進行上海一日游行程規劃,并開發頁面,利用mapbox地圖引擎展示整個行程。

Ling-1T還能玩掃雷游戲。

二、1萬億總參數、500億激活參數,Ling-1T預訓練推理語料占比超40%

Ling 2.0架構基于Ling縮放定律指導,確保了即使在1e25–1e26 FLOPs計算量下仍保持架構與超參數的可擴展性。

關鍵架構創新包括:

1、1萬億總參數/500億激活參數,混合專家激活比為1/32

2、MTP層用于增強組合推理;

3、無輔助損失、S型函數評分專家路由與零均值更新;

4、QK歸一化實現完全穩定收斂。

國產萬億參數模型開源,FP8訓練,性能超DeepSeek V3.1

Ling-1T全程采用FP8混合精度訓練,是目前已知規模最大的使用FP8訓練的基座模型。FP8混合精度訓練可以實現15%以上的端到端加速,提升內存效率,并在1萬億token訓練中保持與BF16精度損失偏差≤0.1%

由于Ling 2.0的層間異構架構容易導致流水線負載不均,研究團隊將interleaved 1F1B pipeline改進為異構細粒度pipeline,實現了更精細的流水線編排與更低的空泡率,帶來超過40%的端到端加速。

此外,研究團隊還在算子融合、通信優化、重計算、Checkpoint 存儲、仿真訓練與細粒度監控等方面進行了系統性優化。其研究團隊透露,其中大量設計思路和技術方案源自開源社區。

國產萬億參數模型開源,FP8訓練,性能超DeepSeek V3.1

訓練階段,Ling-1T使用了超過20萬億個高質量token,研究團隊在第二階段(后10T token)的預訓練中引入了高推理密度語料,使整個預訓練過程中推理相關語料的占比超過40%

在中訓練(Mid-training)階段,研究團隊進一步加入了高質量的思維鏈推理語料,這一策略能夠有效實現模型推理能力的 “預激活”,為后訓練階段提供更高的推理上限和更穩定的思維基礎。

與Ling-mini-2.0、Ling-flash-2.0類似,Ling-1T也采用了自研的WSM (Warmup-Stable and Merge)LR scheduler。通過mid-training checkpoint merging來模擬LR decay,進一步獲得下游任務的整體提升。

基于訓練中期的推理激活基礎,Ling-1T的后訓練階段采用進化思維鏈(Evo-CoT)方法,在可控成本下實現漸進式推理增強。該技術持續拓展推理精度與效率的帕累托邊界,特別適合反射式非思考模型。

強化學習方面,研究團隊提出LPO,即語言學單元策略優化,是一種創新的句子級策略優化方法。研究團隊認為,對于推理任務而言,句子是更符合語義邏輯的動作單元。

與GRPO(token級)或GSPO(序列級)算法不同,LPO以句子為自然語義動作單元,實現獎勵信號與推理行為的精準對齊。實證表明,LPO在推理任務中具有更優的訓練穩定性與泛化能力

國產萬億參數模型開源,FP8訓練,性能超DeepSeek V3.1

國產萬億參數模型開源,FP8訓練,性能超DeepSeek V3.1

結語:Ling-1T在自動化開發、智能編程助手等場景具有落地潛能

螞蟻集團通過開源Ling-1T,為開源社區帶來了首個萬億參數級別的旗艦非思考模型。憑借Evo-CoT演進式思維鏈、LPO句子級強化學習等創新技術,Ling-1T在保持高效能的同時,實現了與閉源頂級模型相媲美的復雜推理能力。

從應用前景看,Ling-1T在前端代碼生成、視覺理解等場景展示的實用能力,以及僅通過輕度指令微調就能實現約70%工具調用準確率的表現,使其在自動化開發、智能編程助手等場景具有應用落地潛能。