智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 云鵬

美(mei)團(tuan)龍貓(mao)大模(mo)型,現在(zai)會(hui)思考了!

智東(dong)西9月(yue)22日報道(dao),最近,美(mei)團(tuan)在(zai)(zai)AI開(kai)源賽道(dao)上在(zai)(zai)猛踩(cai)加速。今天,在(zai)(zai)開(kai)源其首款(kuan)大語言模型僅(jin)僅(jin)24天后,美(mei)團(tuan)又開(kai)源了其首款(kuan)自研(yan)推理模型LongCat-Flash-Thinking。

與其基礎模型LongCat-Flash類似,效率也是LongCat-Flash-Thinking的最大特點。美團在技術報告中透露,LongCat-Flash-Thinking在自研的DORA強化學習基礎設施完成訓練,直接將訓練速度提升到原來的3倍還多,增幅超過200%。該模型重點優化了形式推理和Agent推理任務,使用工具后推理效率很高,例如,可將AIME-25基準(zhun)測(ce)試中(zhong)的(de)平均token消耗減少64.5%。

LongCat-Flash-Thinking在多(duo)領域基準測試中表(biao)現出不俗的實力:

通用問答、數學推理、通用推理的(de)相關測試中(zhong),它和GPT-5-Thinking、Gemini2.5-Pro、DeepSeek-V3.1-Thinking、Qwen3-235B-A22B-Thinking-2507等基(ji)本打平;

LongCat-Flash-Thinking還在安全、形式化定理證明等領域的多項基準測試中,大幅度領先上述4款推理模型,并在權(quan)威Agent工具(ju)調(diao)用基準測試(shi)τ2-Bench中(zhong),超越除了GPT-5-Thinking外(wai)的所(suo)有參評模(mo)型。

美團王興,又開源一款大模型!

目前,LongCat-Flash-Thinking模(mo)(mo)型(xing)已(yi)經開源(yuan)至GitHub、Hugging Face等(deng)平臺(tai),相關技術報告也(ye)同期發布,用戶也(ye)可在體驗鏈接(jie)中(zhong)直接(jie)使用。不(bu)過(guo),在實際體驗中(zhong),模(mo)(mo)型(xing)推理和回(hui)答長度往往會超出體驗鏈接(jie)里的限制,導致答案(an)不(bu)完整(zheng)。

美團王興,又開源一款大模型!

開源地址(zhi):

//huggingface.co/meituan-longcat/LongCat-Flash-Thinking

//github.com/meituan-longcat/LongCat-Flash-Thinking

體驗鏈接:

//longcat.chat/

一、靠課程學習逐步構建能力,Agent和形式化推理能力獲補強

在模型預訓練階段,LongCat團隊采用了課程學習的方式,讓模型(xing)先打基礎,再專項(xiang)突破,最終(zhong)構建出覆蓋(gai)廣(guang)度(du)與深度(du)的推理(li)能力(li)。

LongCat-Flash-Thinking是在LongCat-Flash的基礎上訓練而來的,經歷了推理增強(qiang)的中(zhong)期訓(xun)練(Mid-training)面向推理(li)的有監督微調(SFT)。

研究團(tuan)隊特(te)別構建了一個(ge)高難度的(de)推(tui)理(li)訓練集,涵蓋數學(xue)、物理(li)、化(hua)學(xue)及編程問題,并通過(guo)數據比例控制,確保模型(xing)既能強(qiang)化(hua)邏輯推(tui)理(li),又不丟(diu)失通用能力。

實驗表明,這一階段顯著拓寬了模型的“推理邊界”:在AIME、BeyondAIME和LiveCodeBench等基準上,單步準確率和高采樣(yang)準確率均有大幅提(ti)升。

美團王興,又開源一款大模型!

進入SFT微(wei)調階段(duan),LongCat-Flash-Thinking的(de)指令(ling)遵循和專業(ye)領域(yu)推理能力(li)得到進一(yi)步提升。這一(yi)步驟(zou)特別強調三(san)大方向:

1、一般推理:LongCat團隊整合跨學科高質量(liang)問(wen)題與(yu)答案,涵蓋STEM、編程、通用問(wen)答以及邏輯推理,利(li)用拒絕采樣與(yu)模型評審保證訓練(lian)數(shu)據的(de)準確(que)性(xing)和挑戰性(xing)。

2、形式化推理:該(gai)團隊還設計了(le)一(yi)套全(quan)新(xin)的基于(yu)專家(jia)迭代框架的數據合成方法(fa),利用集成了(le)Lean4服(fu)務器的專家(jia)迭代框架,生成經過嚴格驗證的證明過程,從而系統性(xing)提升模型的形式化(hua)推理(li)能力。

3、Agentic推(tui)理:LongCat團(tuan)隊(dui)提出了創新性的(de)“雙路徑(jing)推理框架”。該框架能夠比(bi)較(jiao)模型(xing)在“有工(gong)具(ju)(ju)”和“無工(gong)具(ju)(ju)”條件下(xia)的(de)表現,篩選出僅依賴(lai)工(gong)具(ju)(ju)才(cai)能解決的(de)高質量問題。

隨后,系(xi)統(tong)自動合(he)成多(duo)樣(yang)化(hua)的解題軌跡,從簡(jian)單調用(yong)到復(fu)雜(za)多(duo)步(bu)流(liu)程,并(bing)通過嚴格評(ping)審確保邏輯一致性和(he)(he)工具使用(yong)完整性。最(zui)終,軌跡被標(biao)準化(hua)并(bing)按復(fu)雜(za)度分層(ceng),用(yong)于課程訓練(lian),幫(bang)助模型在真實場景(jing)中更好地學(xue)習(xi)和(he)(he)發展穩健的工具使用(yong)能力(li)。

這(zhe)種中期訓練、推理微調的(de)兩段式體系,幫(bang)助LongCat-Flash-Thinking在(zai)推理任務(wu)中實(shi)現性能提升,也為后續(xu)的(de)強(qiang)化(hua)學習做好準備。

二、三管齊下優化強化學習,自研DORA框架提效超200%

強化學習中,LongCat-Flash-Thinking采用了一套“三管齊下”的方案,從系統、算法和獎勵(li)的(de)角度,提(ti)升強化學習的(de)效率和(he)穩(wen)定(ding)性(xing)。

在系(xi)統設計中,LongCat團(tuan)隊構建了名為DORA的(de)(de)分布式RL框(kuang)架,這是RL訓練的(de)(de)基(ji)石。DORA支持異步訓練與靈活的(de)(de)加速(su)器(qi)調度,既保證(zheng)穩定性,又提升(sheng)效率。

DORA通(tong)過流式架構(gou)讓已(yi)完(wan)(wan)成的(de)響(xiang)應立即進入訓練(lian),而不(bu)(bu)會被最(zui)長輸出拖(tuo)慢;通(tong)過多(duo)版本策略保證同(tong)一(yi)響(xiang)應由同(tong)一(yi)模型版本完(wan)(wan)成,避(bi)免(mian)推理片段(duan)間的(de)不(bu)(bu)一(yi)致;再結合彈性角色調度,讓不(bu)(bu)同(tong)算力設備可靈(ling)活切換角色,實現近乎零(ling)閑置。

這一機制在大規模算力集群上展現了較高的效率:在數萬張加速卡上,LongCat-Flash的RL訓練速度達到傳(chuan)統同步方式的3倍以上,FLOPs(Floating Point Operations,浮點運算數)的投入(ru)約為預訓練(lian)階段的20%。

算法(fa)層面,團隊則對(dui)經典的(de)PPO方法(fa)進行改(gai)良。異步訓練(lian)常因推(tui)理引擎(qing)與訓練(lian)引擎(qing)的(de)數(shu)值差異,或因舊(jiu)版本策略(lve)生成的(de)數(shu)據過多而導(dao)致(zhi)模型(xing)收斂不(bu)穩。

為此,研究人員引入(ru)了截斷重要(yao)性(xing)采樣(yang)(yang)來(lai)緩(huan)解引擎差異帶來(lai)的(de)(de)誤差,并設計了裁剪機(ji)制,對正(zheng)負樣(yang)(yang)本分(fen)別設置不同閾值(zhi)。這(zhe)些(xie)細(xi)節(jie)調整,大(da)大(da)提高(gao)了推(tui)理任務(wu)下的(de)(de)穩(wen)定性(xing)。

獎勵機制是RL的方向盤。對于寫作、問答等無法直接驗證的任務,團隊訓練了判(pan)別式獎(jiang)勵模型,基于人(ren)機(ji)聯合標注數據,學會判斷優劣偏好。

而在數學與編程等可驗證場景,則引入了生成式獎(jiang)勵(li)模型(GenRM),它不僅能(neng)判斷對(dui)錯,還能(neng)給出(chu)推理(li)鏈路,做到有理(li)有據。在編(bian)程(cheng)任(ren)務中,團隊還搭建了(le)分(fen)布式沙箱系(xi)統,支持數百萬(wan)次并發代碼執行,覆蓋20多(duo)種編(bian)程(cheng)語言(yan)。

最后,LongCat團隊提出了一個三階段的訓練配方:領域平(ping)行訓練、模型融(rong)合、通用RL微調。LongCat團隊先分別訓練數學、編程、智能體等專家(jia)模型,再通過參數融(rong)合技(ji)術合并為統一大(da)模型,最后用多樣化數據進(jin)行通用微(wei)調(diao),避免融(rong)合后的性(xing)能退化,確保安全性(xing)、泛化性(xing)和(he)實用性(xing)。

美團王興,又開源一款大模型!

▲融合后的模(mo)型(xing)性(xing)能優于專家模(mo)型(xing)

三、MATH-500得分接近滿分,用上工具后性價比更高

LongCat-Flash-Thinking在多領域(yu)的基準(zhun)測試中表現出色。

在通用能力上,LongCat-Flash-Thinking在MMLU-Redux上拿下89.3%的成績(ji),與(yu)業內多款頂級(ji)開源(yuan)模(mo)型處在同一水準,但與(yu)OpenAI-o3相比仍(reng)有差距。

數學推理是該模型的亮點之一(yi)。其在MATH-500中取得99.2%的高分,幾乎(hu)達到滿分水平。在更具挑戰性的(de)AIME與HMMT等競(jing)賽(sai)級任務(wu)中,同樣(yang)展現出接(jie)近甚(shen)至超越GPT-5與Qwen3的(de)表現,凸顯(xian)其復雜(za)多步(bu)推理的(de)強大能力(li)。

美團王興,又開源一款大模型!

在(zai)邏輯與一般推(tui)理(li)方面,該(gai)模型在(zai)ARC-AGI上達(da)到(dao)50.3%,超過了OpenAI-o3與Gemini 2.5-Pro。同時(shi),它在(zai)解謎任務ZebraLogic上得分高達(da)95.5%,并(bing)在(zai)數獨(du)測試Sudoku-Bench上遠超大部分模型,顯示出較強的結構化(hua)推(tui)理(li)能(neng)力。

編程能力(li)方面,LongCat-Flash-Thinking在動態(tai)編程測(ce)試LiveCodeBench中取得79.4%的(de)分數,緊追GPT-5,遠(yuan)超開源同類模型(xing)。

值得注(zhu)意的(de)是,LongCat-Flash-Thinking模(mo)(mo)型(xing)在工具增強推理能力(li)上(shang)表現(xian)出(chu)色。例如,它在模(mo)(mo)擬預定飛(fei)機票的(de)τ2-Bench-Airline中,實現(xian)67.5%的(de)最佳成績(ji),并在SWE-Bench、BFCL等(deng)任務上(shang)保(bao)持較強的(de)競爭力(li)。

美團王興,又開源一款大模型!

啟用外部工具后,其在AIME-25基準測試中的準確率保持不變,但平(ping)均(jun)token消耗減少近65%,驗證了智能體系統在效率與性能間(jian)實現平(ping)衡。

美團王興,又開源一款大模型!

在定(ding)理證(zheng)明領(ling)域,LongCat-Flash-Thinking在MiniF2F測試中(zhong)得分達(da)67.6%,比次優模型高出(chu)18%,奠定(ding)了其在形式化數學推理上的領(ling)先地位。

最后,在(zai)安全性上(shang),LongCat-Flash-Thinking在(zai)有害內容(rong)、犯罪、虛假信息(xi)及(ji)隱私四類(lei)風險測試(shi)中均拿下(xia)安全性最高分。

結語:切入真實場景,美團探索推理大模型落地路徑

LongCat團隊稱,憑借LongCat-Flash-Thinking的開源,他們希望進一步推動(dong)高(gao)效RL訓練、原生Agent推理等方面的研究(jiu)。

從論文的技(ji)術細(xi)節中(zhong),我們也能看到,LongCat有針對性地提(ti)升了模型在工具使用、指令遵循和安全性等(deng)方面的表(biao)現。

結合美團最近在面向(xiang)消費者(zhe)的(de)(de)Agent產(chan)品、AI搜索產(chan)品等領域的(de)(de)動態,不難預(yu)見,這些新模型或將(jiang)針(zhen)對性地服務于(yu)美團自身(shen)業(ye)務,帶來更(geng)智能的(de)(de)用戶體驗。