智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 云鵬
智東西9月1日報道,昨日,美團發布了其首款開源大模型LongCat-Flash,這是一款擁有5600億個總參數的MoE(混合專家)模型。
推理速度是這一模型最大的特點之一。美團稱,這一模型具備快捷連接架構,擴展了計算-通信重疊窗口,實現了每秒超過100個token的推理速度,理論每token輸出時間相比DeepSeek-V3降低近50%。
智東西的實測也印證了這點:我們要求其輸出大約100個token的內容,除去首token延時后,輸出速度確實在100 tokens/秒左右。

LongCat-Flash目前暫時不支持文件、圖像等多模態內容的上傳。網頁端內,提供了聯網搜索功能,但深度思考功能顯示為“敬請期待”的狀態。
在今年5月的財報電話中,美團創始人兼CEO王興已經透露了LongCat模型的更多信息,他稱,“增強后的模型(指LongCat)現在可以在推理和非推理模式之間無縫切換”,性能接近GPT-4o。王興還在電話會議中定調稱,美團在AI領域的戰略是主動進攻,而不是被動防守,其AI戰略包含工作中的AI、產品中的AI和自研大語言模型。
另據公眾號01 Founder爆料,經過01 Founder與多方信源的交叉確認,LongCat-Flash的訓練并非在英偉達GPU上完成,在其官方技術報告中,美團使用了“數萬個加速卡”的模糊表述,由于一些原因,該硬件廠商的具體名字不方便透露。不過,美團對具體使用何種GPU尚無官方信息放出。
根據美團龍貓團隊分享的技術報告,LongCat-Flash采用了創新的MoE架構,引入零計算專家,減少了在低難度token上浪費的計算資源,從而提升推理效率。
與DeepSeek-V3.1、Kimi-K2、Qwen3 MoE-2507等頭部開源模型相比,LongCat-Flash在通用領域、編程等場景的能力還有一定差距,但在Agentic工具調用、指令遵循等場景中,LongCat-Flash達到了開源模型SOTA的水準。

這一模型已經上線Hugging Face、GitHub等開源平臺,技術報告同步發布。同時,美團也提供了LongCat-Flash模型的網頁版體驗鏈接,智東西第一時間對其能力進行了體驗。
Hugging Face地址:
huggingface.co/meituan-longcat
GitHub地址:
github.com/meituan-longcat/LongCat-Flash-Chat
技術報告鏈接:
github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf
網頁版:
longcat.ai/
一、銳評外賣大戰階段性戰況,但算不清小學數學
智東西對LongCat-Flash的數學、編程、搜索、常識等能力進行了體驗。LongCat-Flash介紹,自己的知識截止時間為2024年6月,在不開啟聯網的情況下,它對之后發生的事情并不了解。

當被問及騰訊元寶這一AI工具的開發者是誰時,LongCat-Flash已經無法給出正確答案,它稱元寶是美團開發的。元寶的發布時間為2024年5月30號,剛好卡在其知識截止時間的邊界。

緊接著,我們讓LongCat-Flash完成聯網搜索,整合信息并輸出研報這一常見的工作流,使用的案例是最新的“外賣大戰”,要求LongCat-Flash搜索美團、阿里和京東三家企業的最新財報,并對“外賣大戰”做一個階段性評估。
LongCat-Flash僅搜索了10個網頁,與其他大模型相比數量較少。同時,其信源構成較為單一,主要來自百家號,缺少對權威媒體、公司官網等信源的覆蓋,在明確要求其查詢公司官網后,也未能在引用鏈接中看到相關網頁。
其引用的財報數據準確,分析部分基本符合業內對阿里、美團、京東三家外賣大戰的主流觀點。LongCat-Flash的結論中更看好阿里,不過并未提出過多新見解。

在9.8-9.11這類大模型容易“翻車”的簡單算數上,LongCat-Flash未能幸免。它很快給出了答案,但結果明顯錯誤。可以看到,模型沒有自主驗證結果的準確性,更像是“拍腦門”給出了答案。

在計算利息這類更為場景化的數學題中,LongCat-Flash能給出更為全面的分析和解題過程,并最終得出正確答案。

通用知識場景中,我們讓LongCat-Flash在未開啟聯網搜索的情況下,解釋了“為什么天空在白天是藍色的,而在日落時會變紅?”這一現象。
LongCat-Flash的解釋分為三個部分,不僅提供了對白天、日落時天空顏色的解釋,還補充了日出時顏色與前者的區別。其引用的理論準確,還能用表格清晰呈現,并主動提供了參考科普資料。

在編程場景,我們讓LongCat-Flash打造一個以龍貓為主題的小游戲。模型能按照要求在單一HTML網頁中實現游戲功能,但是游戲機制設計得不合理,導致可玩性一般。

二、采用新穎MoE架構,給專家合作搭建“捷徑”
技術報告中,美團分享了LongCat-Flash在模型架構設計和多階段訓練流水線的更多細節。
LongCat-Flash采用了一種新穎的MoE架構,這是模型實現較高推理效率的核心。

這一架構的主要模塊如下:
1、零計算專家(zero-computation experts)
在下一個token預測任務中,本身就存在計算負載的差異性,困難的token(例如推理復雜或語境模糊的部分)需要更多算力才能預測準確,簡單的token(如常見詞或模式化結構)幾乎不需要多少計算。
LongCat-Flash擁有一種動態算力資源分配機制,會將部分相對簡單的token交給零計算專家處理。這些專家的特點是直接把輸入原樣輸出,不做任何計算,因此不會額外增加計算成本。
每個token的激活專家數量會因上下文而異,模型因此能對重要token分配更多算力,對簡單token分配更少算力,從而在相同的算力預算下,獲得更好的性能。
為了讓模型真正學會這種“因上下文而異”的計算分配,必須對零計算專家的平均使用比例進行細粒度控制。否則,模型可能會過度依賴普通專家,而忽視零計算專家,導致資源利用效率低下。
LongCat-Flash給每個專家引入一個專家偏置項(bias),根據其近期使用情況動態調整路由分數。這些偏置不影響語言模型的主要訓練目標,僅用于保持計算資源分布的均衡。同時,LongCat-Flash還通過負載均衡控制,確保了MoE模型的高效訓練。
2、快捷連接架構MoE(Shortcut-Connected MoE,ScMoE)
在大規模MoE模型中,通信開銷仍是主要瓶頸。傳統的執行方式下,專家并行需要嚴格的順序流程:必須先完成一次全局通信,將token路由到對應的專家,然后才能開始計算。這種通信延遲會導致設備利用率不足,從而限制整體系統吞吐量。
共享專家架構嘗試通過將通信與單個專家的計算重疊來緩解上述問題,但由于單個專家的計算窗口太小,效率提升有限。
為突破這一限制,美團提出了快捷連接架構MoE,在層與層之間引入跨層的捷徑(Shortcut),重新排序執行流程。這一創新使得前一層的稠密計算能夠與當前MoE層的分發/聚合通信并行執行,形成比共享專家更大的重疊窗口。
測試顯示,ScMoE與非ScMoE基線模型的訓練損失曲線幾乎相同,說明這種重排不會損害模型性能。

同時,ScMoE帶來顯著的效率提升,更大的重疊窗口使得前一層計算可以與當前MoE通信階段完全并行,提升訓練效率。推理過程中,ScMoE啟用單批次重疊流水線,使得理論每token輸出時間相比頭部模型(如DeepSeek-V3)降低近50%。
同時,它還支持不同通信模式并行:節點內的張量并行通信(通過NVLink實現)與節點間的專家并行通信(通過RDMA實現)可以完全重疊,最大化網絡利用率。
3、可擴展的方差對齊設計
隨著模型規模的擴大,一些在小規模下表現良好的架構可能變得次優,導致模型性能不穩定。通過實驗和理論分析,LongCat-Flash團隊發現模塊內部的方差不匹配是造成這種問題的關鍵因素。
為此,他們提出了針對MLA(Multi-head Latent Attention,多頭注意力)和MoE模塊的方差對齊方法,通過引入了兩個尺度修正因子和專家初始化的方差補償,以提升模型可擴展性和穩定性。
三、模型從半規模版本擴展而來,Agent能力突出
在模型擴展與訓練策略上,LongCat-Flash構建了一個完整的穩定性與擴展性框架。
LongCat-Flash團隊沒有直接在數千億參數的模型上反復試錯,而是采用了“以小推大”的策略:先在一個小規模的模型上系統地搜索學習率、初始化方差等參數,然后通過理論推導的規則將這些最佳配置遷移到大模型中。這種方法既節省了大量算力,又能保證超參數在大模型中依然合適。
其次,在模型初始化上,團隊通過“模型增長”的方式,讓訓練過程更加平穩。該團隊先訓練了一個“半規模(half scale)”的模型,等它收斂到一定程度后,再把它擴展成完整的大模型繼續訓練。
新的大模型雖然在最初會出現輕微的波動,但很快就能進入穩定收斂狀態,最終表現也明顯優于完全隨機初始化的做法。
為了進一步保證訓練過程的穩定性,LongCat-Flash還配備了一套多維度的穩定性方案。
在路由層面,控制了不同專家的負載分布,避免出現有的專家過度繁忙、有的卻長期閑置的情況。
在激活層面,LongCat-Flash引入了類似“保險絲”的機制,對異常大的激活值施加輕微約束,從而防止訓練突然崩潰。
在優化器層面,LongCat-Flash團隊對Adam的參數做了細致調整,使其在大規模訓練場景下依然數值穩定。三方面配合,使模型在長時間訓練中都能保持平穩,不會出現不可恢復的損失峰值。
在訓練可靠性上,該團隊還特別強調了可復現性和錯誤檢測。這種嚴格的精度控制不僅保證了實驗可復現,還能幫助快速發現和定位所謂的“靜默數據損壞”(SDC),避免錯誤在大規模分布式系統中被掩蓋。
通過這些設計,LongCat-Flash不僅能在數萬張加速卡上穩定訓練,還能保證訓練結果可控、可靠,真正實現了在超大規模模型上的穩健擴展。
在訓練流程上,模型采用多階段管線。首先,通過雙階段預訓練數據融合,逐步提升推理密集型數據(STEM知識與代碼)的比例,構建出更適合后訓練的基礎模型。
在中期訓練中,模型的上下文被擴展至128k tokens,并利用合成數據進一步增強推理與編程能力。
在后訓練階段,LongCat-Flash團隊針對推理、編程和代理任務分別設計了數據與方法,尤其是提出多Agent合成框架,從信息處理、工具復雜度、用戶交互三方面生成高難度任務,以鍛煉模型的Agent能力。
在訓練基礎設施方面,團隊進行了內核優化、分布式并行策略設計以及監控與容錯機制的開發,使得模型能在數萬張加速卡上穩定訓練。
結合計算與通信編排、推測解碼、KV緩存優化、量化與調度優化,模型在推理中實現了每秒超100 tokens的吞吐,并將成本控制在0.7美元/百萬tokens(約合人民幣5元)。
LongCat-Flash團隊在30項基準測試上評估了模型的能力,可以看到,Agent任務是這一模型能力的“長板”,相較DeepSeek-V3.1、Qwen3 MoE-2507和Kimi-K2等國產開源有明顯優勢,但在編程、數學、推理等方面還有提升空間。
結語:主動進攻的美團,要打造AI原生產品
LongCat-Flash技術團隊透露,此次開源,他們旨在推動高效MoE架構、高質量數據策略以及自主Agent模型的相關研究,促進社區在大型語言模型領域的創新。
財報電話中,美團透露,已經在利用AI優化現有產品,并打造全新的AI原生產品,如AI運營助手等、消費者AI助手等。未來,美團在大模型領域的進展,值得持續關注。