手机能跑的3B推理模型开源，比Qwen 3-4B还快，超长上下文不降速

智東西（公眾號：zhidxcom）
作者 | 李水青
編輯 | 心緣

智東西10月9日報道，昨日，以色列AI創企AI21 Labs開源輕量級推理模型Jamba Reasoning 3B。該模型有30億個參數，可在包括手機、電腦在內的多種設備端運行，性能超過Qwen3-4B、Gemma 3-4B等業界頂尖模型。

手機能跑的3B推理模型開源，比Qwen 3-4B還快，超長上下文不降速

▲Jamba Reasoning 3B開源截圖

Hugging Face地址：
//huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B

A21稱，Jamba Reasoning 3B基于其新的SSM-Transformer架構構建，上下文窗口長度為256K個token，能夠處理高達1M token，與DeepSeek、谷歌、Llama和微軟等競爭對手相比效率提升了2-5倍，在基準測試中取得領先成績。

手機能跑的3B推理模型開源，比Qwen 3-4B還快，超長上下文不降速

▲Jamba Reasoning 3B在人類最后測試等測評中超Qwen 3-4B等模型

其將Jamba Reasoning 3B的優勢總結為三點：

1、智能性能不下降：由于采用了混合SSM-Transformer架構，Jamba Reasoning 3B比純Transformer模型更高效。

大多數基于Transformer的模型在上下文長度超過32K個token時性能會顯著下降，而Jamba Reasoning 3B能夠處理更長的上下文長度，包括高達100萬個token。這使得它在高級智能體系統或多模態應用中非常有用，因為長上下文理解對輸出質量至關重要。

手機能跑的3B推理模型開源，比Qwen 3-4B還快，超長上下文不降速

▲Jamba Reasoning 3B的性能雖上下文增長損耗小

2、領先的智能：Jamba Reasoning 3B的表現優于DeepSeek、谷歌、Meta和微軟的其他設備端模型。

它在指令跟蹤任務（IFBench）和常識性知識（MMLU-Pro和Humanity’s Last Exam）方面尤為出色，這使得Jamba Reasoning 3B成為一款高效且智能的模型，可用于高級智能體工作流程或設備端RAG應用。

這些成果源于訓練后流程，A21將RLVR、SFT、DPO和GRPO等對齊訓練技術與自主研發的專有方法相結合，以確保模型質量。

手機能跑的3B推理模型開源，比Qwen 3-4B還快，超長上下文不降速

▲Jamba Reasoning 3B測評超阿里、谷歌等模型

3、專為設備安全使用而構建：此模型獲得Apache 2.0許可，可直接下載到用戶的計算機或手機上，并使用用戶自己的文件在設備上進行定制，以實現完全安全的應用程序，即使斷網它們也可以繼續運行。

Jamba Reasoning 3B的混合SSM-Transformer架構成功利用了比原始Transformer架構小8倍的鍵值緩存（KV），即使在上下文增長的情況下也能保持較低的內存占用。

在M3 MacBook Pro上，它每秒可以生成40個token，上下文長度為32K，這一成績優于Qwen3-4B、DeepSeek Distill Qwen 1.5B、Gemma 3-4B等模型，使其成為高級智能體應用程序中的精簡組件。

手機能跑的3B推理模型開源，比Qwen 3-4B還快，超長上下文不降速

▲在M3 MacBook Pro上每秒可以生成40個token

該模型目前支持的語言包括：英語、西班牙語、法語、葡萄牙語、意大利語、荷蘭語、德語、阿拉伯語和希伯來語。

結語：輕量模型加速迭代，開辟智能體落地新路徑

隨著企業將AI融入運營，基于云端的大型語言模型暴露出經濟效率低下的問題。A21援引研究報告稱，40%-70%的AI任務可以通過小型語言模型處理，通過智能路由將成本降低10-30倍。

像Jamba Reasoning 3B這樣的設備端輕量模型能夠實現經濟高效的異構計算分配，在本地處理簡單任務，同時保留云端資源用于復雜推理。這為制造業和醫療保健領域的實時應用提供了低延遲，為遠程操作提供了離線恢復能力，并增強了數據隱私保護，有望開啟了一個去中心化的AI時代。