智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西10月9日報道,昨日,以色列AI創企AI21 Labs開源輕量級推理模型Jamba Reasoning 3B。該模型有30億個參數,可在包括手機、電腦在內的多種設備端運行,性能超過Qwen3-4B、Gemma 3-4B等業界頂尖模型

手機能跑的3B推理模型開源,比Qwen 3-4B還快,超長上下文不降速

▲Jamba Reasoning 3B開源截圖

Hugging Face地址:
 //huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B

A21稱,Jamba Reasoning 3B基于其新的SSM-Transformer架構構建,上下文窗口長度為256K個token,能夠處理高達1M token,與DeepSeek、谷歌、Llama和微軟等競爭對手相比效率提升了2-5倍,在基準測試中取得領先成績。

手機能跑的3B推理模型開源,比Qwen 3-4B還快,超長上下文不降速

▲Jamba Reasoning 3B在人類最后測試等測評中超Qwen 3-4B等模型

其將Jamba Reasoning 3B的優勢總結為三點:

1、智能性能不下降:由于采用了混合SSM-Transformer架構,Jamba Reasoning 3B比純Transformer模型更高效。

大多數基于Transformer的模型在上下文長度超過32K個token時性能會顯著下降,而Jamba Reasoning 3B能夠處理更長的上下文長度,包括高達100萬個token。這使得它在高級智能體系統或多模態應用中非常有用,因為長上下文理解對輸出質量至關重要。

手機能跑的3B推理模型開源,比Qwen 3-4B還快,超長上下文不降速

▲Jamba Reasoning 3B的性能雖上下文增長損耗小

2、領先的智能:Jamba Reasoning 3B的表現優于DeepSeek、谷歌、Meta和微軟的其他設備端模型。

它在指令跟蹤任務(IFBench)和常識性知識(MMLU-Pro和Humanity’s Last Exam)方面尤為出色,這使得Jamba Reasoning 3B成為一款高效且智能的模型,可用于高級智能體工作流程或設備端RAG應用。

這些成果源于訓練后流程,A21將RLVR、SFT、DPO和GRPO等對齊訓練技術與自主研發的專有方法相結合,以確保模型質量。

手機能跑的3B推理模型開源,比Qwen 3-4B還快,超長上下文不降速

▲Jamba Reasoning 3B測評超阿里、谷歌等模型

3、專為設備安全使用而構建:此模型獲得Apache 2.0許可,可直接下載到用戶的計算機或手機上,并使用用戶自己的文件在設備上進行定制,以實現完全安全的應用程序,即使斷網它們也可以繼續運行

Jamba Reasoning 3B的混合SSM-Transformer架構成功利用了比原始Transformer架構小8倍的鍵值緩存 (KV),即使在上下文增長的情況下也能保持較低的內存占用。

在M3 MacBook Pro上,它每秒可以生成40個token,上下文長度為32K,這一成績優于Qwen3-4B、DeepSeek Distill Qwen 1.5B、Gemma 3-4B等模型,使其成為高級智能體應用程序中的精簡組件。

手機能跑的3B推理模型開源,比Qwen 3-4B還快,超長上下文不降速

▲在M3 MacBook Pro上每秒可以生成40個token

該模型目前支持的語言包括:英語、西班牙語、法語、葡萄牙語、意大利語、荷蘭語、德語、阿拉伯語和希伯來語。

結語:輕量模型加速迭代,開辟智能體落地新路徑

隨著企業將AI融入運營,基于云端的大型語言模型暴露出經濟效率低下的問題。A21援引研究報告稱,40%-70%的AI任務可以通過小型語言模型處理,通過智能路由將成本降低10-30倍。

像Jamba Reasoning 3B這樣的設備端輕量模型能夠實現經濟高效的異構計算分配,在本地處理簡單任務,同時保留云端資源用于復雜推理。這為制造業和醫療保健領域的實時應用提供了低延遲,為遠程操作提供了離線恢復能力,并增強了數據隱私保護,有望開啟了一個去中心化的AI時代。