作者 | 江宇
編輯 | 漠影
智東西9月26日報道,螞蟻百靈團隊近日正式開源兩款全新混合線性推理模型——Ring-mini-linear-2.0與Ring-flash-linear-2.0。相比前代,這一輪升級在延續高稀疏MoE結構的基礎上,引入了混合線性注意力(Linear Attention)機制,專為長文本、低成本推理等場景提效而設計。
眼下,大模型開始真正走進應用場景,推理成本卻成了橫在企業面前的一道坎。一邊是用戶希望更快、更久地交互,另一邊卻是又貴又慢的模型部署現實。在不犧牲效果的前提下降本提效,已經成了各家模型團隊繞不開的問題。
據螞蟻團隊的實測數據,在保持SOTA精度的前提下,本輪開源的Ring-linear系列模型最大上下文長度512k,將推理成本壓縮至dense模型的1/10,相比原有Ring模型推理成本降低50%以上,并且在高并發解碼任務中吞吐量可達Qwen3-8B的12倍、Qwen3-32B的10倍以上。
此外,螞蟻團隊還引入了精細化的推理優化融合算子、RL訓練對齊機制等系統級工具,直指當前推理成本與訓練穩定性的關鍵瓶頸。
除了推理效率的顯著提升,Ring-linear系列模型在多項標準評測中的表現也不容忽視,尤其在數學推理、結構代碼生成、通用語言理解與寫作任務中,展現出與主流大模型相比具有競爭力的準確率。實測結果包括:
Ring-mini-linear-2.0:

Ring-flash-linear-2.0:


目前,這套模型現已同步上線多平臺,開源地址如下:
魔搭社區://modelscope.cn/models/inclusionAl/Ring-flash-linear-2.0/
GitHub://github.com/inclusionAI/Ring-V2/tree/main/hybrid_linear
Hugging Face://huggingface.co/inclusionAl/Ring-flash-linear-2.0
一、混合線性架構重構Attention計算圖,推理成本再砍一半
此次開源的Ring-linear系列模型,構建于螞蟻自研的Ring-mini-2.0與Ring-flash-2.0 MoE基座之上,最大特點是將主干Attention模塊替換為自研線性Attention融合模塊,輔以少量標準Attention,形成高效混合注意力結構。
以Ring-flash-linear為例,其結構中87.5%的層采用線性Attention(28層線性+4層標準),結合旋轉位置編碼(RoPE)與分組RMSNorm等訓練優化策略。這種高占比的線性架構,使得整體計算復雜度近似線性,在長上下文條件下,顯著降低訓練和推理的計算成本。
同時,該模型保持了1/32專家激活率的超稀疏MoE結構,通過MTP(Mixture Token Parallel)與全局負載均衡設計,實現“以6.1B參數模擬40B dense模型”的效果。在保持性能的前提下,大幅降低激活參數與計算需求。

▲Ring-linear-2.0系列模型架構示意圖,主干結構采用線性Attention與稀疏MoE混合設計,最大支持512K上下文長度,并引入MTP多token預測訓練目標。
在真實業務場景中,長文本處理、多輪交互頻繁,大模型推理速度慢、成本高成為了其上線部署應用的最大阻礙。正因如此,如何在不犧牲效果的前提下降本提效,成了螞蟻團隊重點探索的方向,而線性Attention與稀疏MoE結合,正是他們給出的答案之一。
二、推理吞吐大幅領先,Prefill、Decode雙線提速
當大模型真正部署起來之后,推理吞吐才是決定體驗和成本的“臨門一腳”。尤其在大模型進入多輪交互、長上下文等復雜場景后,單純追求更大的參數規模,未必能換來更好的效果,反而可能因吞吐不足拖慢響應、推高成本。因此,Ring-linear系列在推理性能上的表現,成為其能否落地的重要指標。
在推理性能方面,螞蟻團隊提供了詳盡實測結果,Ring-linear系列模型在長上下文與高并發生成場景中具備明顯優勢:

▲Ring-mini-linear-2.0 Prefill吞吐(batch size = 1)

▲Ring-mini-linear-2.0 Decode吞吐(batch size = 64)
Ring-mini-linear-2.0在Prefill階段(上下文256k+)吞吐量為Qwen3-8B的12倍以上;在Decode階段,生成長度32k+時吞吐量同樣為Qwen3-8B的12倍以上。

▲Ring-flash-linear-2.0 Prefill吞吐(batch size = 1)

▲Ring-flash-linear-2.0 Decode吞吐?(batch size = 64)
Ring-flash-linear-2.0則在對比Qwen3-32B時展現出突出優勢——上下文32k以上,Prefill階段吞吐量近5倍;生成長度64k時,Decode階段逼近10倍吞吐優勢。這些優化均得益于螞蟻團隊對推理框架(SGLang/vLLM v1)的深度適配與線性算子的定制化加速。
測試顯示,優化后的triton kernel最高加速比可達2.73倍(prefill單樣本任務),在典型decode場景中也能夠達到2.57倍,并支持批量prefill與混合推理模式,有效應對真實部署場景中的多并發挑戰。

▲Ring-linear系列在線性Attention算子推理任務中的加速表現
這些優化奠定了Ring-linear系列模型在推理層面的基礎。而要將模型真正推進RL訓練、提升長期表現,還得解決另一個關鍵問題:訓推一致性。
三、訓推一致性修復RL瓶頸,支持長輸出下的直接采樣
強化學習(RL)階段的穩定性問題,常常來源于訓練-推理(訓推)實現不一致。尤其在MoE模型中,組件如RMSNorm、RoPE、Attention、KVCache、softmax等在不同框架間存在精度/順序/后處理差異,會嚴重干擾on-policy策略更新,導致reward波動大、訓練上限低。
為此,螞蟻團隊從框架底層修正訓推邏輯差異,提出三項改進:
1、算子級一致性:訓練與推理采用相同模塊實現;
2、精度統一:重要模塊如KVCache與lm_head統一采用fp32;
3、確定性保障:MOE專家選擇、token加和順序引入穩定排序與固定順序。
實測顯示,修復關鍵模塊后RL reward顯著提升,并首次實現RL階段直接使用rollout probs而非training probs,不僅節省重前向計算時間,還提升了訓練效率與最終回報。

▲對比使用rollout probs與 raining probs 進行PPO clip訓練的效果。左圖為訓練獎勵(Reward)變化趨勢,右圖為訓推概率差異絕對值大于0.8的token占比,對齊后訓推差異顯著降低。
這一系列修復,為MoE模型走向強化學習階段掃清了落地障礙,也讓長輸出任務具備了穩定訓練和高質量采樣的基礎能力。簡單來說,就是模型在訓練時學會的“策略”,能夠在推理時原樣執行出來。一旦訓推一致,模型就真的學會了“決策”。
四、實測:結構代碼生成清晰完整,動畫邏輯具備通用性
螞蟻團隊也圍繞Ring-linear系列模型進行了多組結構化代碼生成的實測,任務涵蓋圖形動畫控制、規則邏輯實現與游戲基礎玩法復現。Ring-linear系列模型均可根據自然語言指令輸出結構清晰、可直接運行的Python代碼,展示出良好的代碼理解與生成能力。
實測任務包括:
1、數獨游戲web代碼生成
指令:“編寫一個數獨游戲的web應用”

模型生成代碼能夠快速實現一個bug free的數獨游戲應用,包括正確數字初始化、難易程度選擇、數字填寫是否正確提示等核心功能。
2、坦克大戰
指令:“Use Python to create a simplified tank battle game. Users use the up, down, left, and right keys on the keyboard to control the free movement of a tank. The spacebar fires bullets to defeat enemy tanks in the game scene. The scene contains five freely moving enemy tanks, which fire bull
ets in the direction of the current tank’s movement. Each time an enemy tank is defeated, one point is awarded, and a new enemy tank is randomly generated. The game ends when the user’s tank is hit by an enemy tank.”

輸出Python代碼覆蓋坦克位置的初始化、方向自動控制、積分更新等完整邏輯模塊,能夠自主指揮坦克運動和射擊。
3、股票系統應用
指令:“請生成一個模擬股票交易軟件的頁面,數據可以是隨機生成的,頁面包含了五部分部分:
1. 日內的秒級數據,這部分需要一秒更新一次,按照線的方式進行展示。
2. 日k線,這部分可以展示最近60天的ohlc的數據,使用蠟燭圖進行展示,漲了的是紅色,跌了的是綠色。
3. 實時的成交量,也是一秒更新一次,現實數字即可。
4. 日線的成交量數據,用柱狀圖表示。
5. 公司的介紹,可以隨機生成一些。
需要注意的點:
1. 請使用canvas繪制各種曲線和蠟燭圖, 但是需要注意繪制圖像的清晰度,需要為高清設備進行準備;
2. 需要可以根據窗口的大小自行調整canvas窗口的大小;
3. 使用原生的js和html5屬性不要使用額外的庫;
4. 請保證隨機生成的價格數據都是可以使用的。”

模型可生成完整的模擬股票交易軟件,涵蓋交易價格、數量展示、趨勢分析等核心功能。同時生成頁面展示精美,有較強的指令遵循能力。
整體來看,Ring-linear系列模型在結構化代碼生成任務中的表現穩定,具備良好的語義解析與邏輯組織能力,能夠覆蓋多類Python、Web編程指令,適用于可視化交互、小型邏輯游戲等場景的快速原型生成。
結語:混合線性架構成大模型新風口,百靈團隊再打開一扇門
隨著推理大模型越來越卷“長推理”“低成本”,Test Time Scaling正在變成新一輪技術追求的焦點。
螞蟻百靈團隊這輪開源的Ring-linear系列模型,結構上“做減法”,用混合線性機制精簡計算路徑;推理上“做乘法”,依靠稀疏MoE和系統級加速,把效率拉滿。不只是跑得快、用得省,更在RL訓練這塊最難啃的骨頭上,給出了全新解法。
隨著更多推理場景開始關注高并發生成與超長上下文,這一輪開源有望推動混合線性架構成為下一階段主流落地的關鍵方向之一。