智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 漠影
智東西10月23日報道,昨日,百川智能正式推出了Baichuan-M2 Plus醫療大模型,這也是業內首個“循證增(zeng)強”醫療大模(mo)型(xing)。該模型在百川今年8月開源的(de)Baichuan-M2醫療推理模型的(de)技術(shu)基(ji)礎上升(sheng)級而來,是百川在醫療AI領域的(de)最新探索(suo)。
M2 Plus的核心亮點在于其首創的六源循證推理(Evidence-Argumented Reasoning, EAR)范式。這(zhe)一創(chuang)新機(ji)制對(dui)通(tong)用(yong)大模型(xing)在醫(yi)療領域(yu)長期存在的幻覺問(wen)題(ti)(ti),提出(chu)了有(you)(you)效解決方(fang)案,讓AI不再“閉門造車“,而是有(you)(you)理有(you)(you)據地回答問(wen)題(ti)(ti)。
評測顯示,M2 Plus的醫療幻覺率較通用大模型顯著降低,僅為DeepSeek-R1最新(xin)版(ban)的(de)1/3左右,甚至優于美國(guo)最(zui)受歡迎(ying)的醫(yi)療AI產(chan)品OpenEvidence。
更令人矚目的是,在多項國際與國內權威醫學考試中,M2 Plus均展現了超越人類醫生的水平:它在美國執業醫師資格考試(USMLE)中取得97分(fen)的高分(fen),與(yu)GPT-5位列全(quan)球(qiu)第一梯(ti)隊(dui)。
在中國執業醫師資格考試(NMLE)中,M2 Plus以568分的(de)成績,遠超及格(ge)線360分,領(ling)先于所有公(gong)開測試(shi)的(de)主流模型。
這一系列成(cheng)績不(bu)僅展示(shi)了M2 Plus在(zai)醫療知識運用上的領先優勢,也(ye)凸顯了“循證(zheng)增強”方(fang)法在(zai)解(jie)決(jue)醫療AI幻覺問題上的潛力。
一、幻覺成大模型落地醫療最大難點,循證醫學如何成為可靠出路?
長(chang)期(qi)以來,醫療(liao)AI面臨的最大瓶頸便(bian)是“幻覺(jue)”問題。通(tong)用大模型在醫療(liao)應(ying)用中,往往表現為“知識豐富但不可靠”。即便(bian)加入(ru)(ru)了檢索增強或知識庫(ku)接入(ru)(ru)機制(zhi),也難以完全避免(mian)錯誤(wu)或虛(xu)構內容。
這種不確定性(xing)在醫(yi)(yi)療(liao)領(ling)域尤(you)為(wei)致命,因(yin)為(wei)一條錯(cuo)誤的建(jian)議可能帶來(lai)嚴重后果(guo)。正因(yin)如此,盡管中國并(bing)不缺乏醫(yi)(yi)療(liao)AI產品,但醫(yi)(yi)院(yuan)對其實際采用始終(zhong)相對謹(jin)慎。
而在大(da)洋(yang)彼岸,美(mei)國的(de)OpenEvidence卻成功(gong)實現了(le)落(luo)地。數據顯示(shi),美(mei)國已有約40%的(de)醫生在臨床場景中注冊使(shi)用該產品,每月咨詢量高(gao)達(da)1650萬次。
與通用大模型不同,OpenEvidence的(de)最大亮點是(shi)有理(li)有據的(de)醫療(liao)問答(da)。例如,它能從海量文(wen)獻中搜(sou)索相關(guan)信息(xi),為醫生決策提供清晰、有依據的回(hui)答。

OpenEvidence的成功為業界提供了重要啟示:要讓AI在醫(yi)療領(ling)域真(zhen)正(zheng)落地,關(guan)鍵不(bu)僅在于(yu)“大模型(xing)”本身(shen),而在于(yu)是(shi)否遵(zun)循了(le)現代醫(yi)學的核(he)心邏輯——循證醫(yi)學(Evidence-Based Medicine, EBM)。
循證醫學(xue)理念誕生于(yu)20世(shi)紀90年代,強(qiang)調醫學(xue)決策必須建立在系統整合的最佳研(yan)究證據、醫生臨床經(jing)驗(yan)以及患者(zhe)真(zhen)實需(xu)求的基(ji)礎上。它(ta)摒棄了“憑經(jing)驗(yan)行醫”的傳統模(mo)式,而強(qiang)調科學(xue)、客觀、可(ke)驗(yan)證的診(zhen)療路徑(jing)。
在實(shi)踐上,EBM遵(zun)循完(wan)整的“5A流程(cheng)”:提出問題(Ask)、檢索(suo)證據(ju)(Acquire)、評(ping)估質(zhi)量(Appraise)、應用結果(Apply)以及持續評(ping)估(Assess)。其(qi)中核心(xin)思想是讓所(suo)有臨床判斷(duan)都(dou)“有據(ju)可依”。
在這一框架下(xia),醫學知識被劃分為從(cong)低到高不(bu)同可(ke)信(xin)度的層級,最可(ke)靠(kao)的研(yan)究位于金字塔(ta)頂端,如系統綜述(shu)、Meta分析或(huo)隨機對照試(shi)驗(RCT)。這種分層機制通過關注最強的證據,以最大限(xian)度地(di)減(jian)少偏倚,并增加做(zuo)出最佳臨床決策的可(ke)能性。

百川智能(neng)正是(shi)從循證醫學(xue)理念(nian)中汲(ji)取靈感(gan),提出了“六(liu)源循證推理范式”。他們認為,循證不應(ying)只(zhi)是(shi)醫生的(de)(de)工作原則(ze),更應(ying)成為智能(neng)系(xi)統的(de)(de)底層原則(ze)。
基于此,百川在模型設計上引入了“證據分層(ceng)+PICO檢索(suo)+動態(tai)更(geng)新(xin)”的邏輯,使模型(xing)能(neng)夠(gou)像醫(yi)生一樣識別、篩(shai)選并權衡不同層級的醫(yi)學證(zheng)據,最(zui)終打造出Baichuan-M2 Plus這一業內首個循證(zheng)增強(qiang)的醫(yi)療大模型(xing)。
二、首創六源循證推理范式,讓AI回答“有理有據”
循證醫學強調(diao)有據可依,因此(ci),百川在(zai)知(zhi)識來源上下了大(da)功(gong)夫。他(ta)們首先屏蔽了互聯網的非專業(ye)信息來源,只(zhi)使用權(quan)威來源的醫學證據,并(bing)在(zai)此(ci)基礎上構建了從證據、到實(shi)踐、再(zai)到真(zhen)實(shi)世界反(fan)饋六(liu)層(ceng)證據類(lei)型的知(zhi)識體系(xi)。
從(cong)(cong)基礎(chu)到(dao)應(ying)用(yong),六源循證范(fan)式實現了(le)從(cong)(cong)知識廣度(du)到(dao)可信(xin)度(du)的全覆蓋(gai)。
最底(di)層是原始研究(jiu)層,索引(yin)了超過(guo)4000萬篇醫學期刊論(lun)文,數量(liang)甚至超過(guo)PubMed收錄量(liang),這些(xie)基礎與(yu)臨床研究成(cheng)果(guo)構成(cheng)了循(xun)證鏈條的起點,用來回答“事(shi)實是否存(cun)在”。
第二層(ceng)是證(zheng)據(ju)綜(zong)述(shu)層(ceng),整(zheng)合系統評價和Meta分析等(deng)高(gao)等(deng)級證據,提供經過多項研究匯總后的結論,回答“結論是否一致”。
第三層(ceng)為指(zhi)南規范(fan)層(ceng),匯聚(ju)國內外權威機(ji)構發(fa)布的臨床指南(nan)、專家共識和行業標準(zhun),確保模型(xing)的回(hui)(hui)答符合最新醫學規(gui)范,回(hui)(hui)答“行業如(ru)何規(gui)范”。
第四層是實(shi)踐知識層,收錄臨床病例報道、一線(xian)專家經驗(yan)和診療技巧等實用內容,更貼(tie)近真實的醫療場(chang)景(jing),回答“醫生應如(ru)何決策”。
第五層為公共健康教育層,整(zheng)合權威科(ke)普與(yu)公共(gong)衛生(sheng)知識,用于健康教育與(yu)患者溝通,回(hui)答“患者應如何(he)理解(jie)”。
第(di)六層是監管與真實世(shi)界(jie)層,涵(han)蓋藥監部門公告(gao)、臨床試驗登記及大規(gui)模真實世(shi)界研(yan)究(jiu)(jiu)數據,反映最新(xin)(xin)的監管趨(qu)勢與人(ren)群研(yan)究(jiu)(jiu)結果(guo),回答“是(shi)否(fou)存在新(xin)(xin)風(feng)險”。
通(tong)過這六層結構(gou),M2 Plus將原(yuan)始研究到權威指南的信(xin)息系(xi)統整合(he),使模型(xing)在(zai)生成醫學結論時從(cong)根(gen)本上做到“有據可(ke)依(yi)”。

不過(guo),光是找(zhao)到證據還不夠,百(bai)川智能(neng)在循證檢索(suo)中追求的(de)是找(zhao)到最(zui)準確、最(zui)可靠(kao)的(de)醫學信息。
M2 Plus借鑒了循證醫(yi)學常用的(de)檢索(suo)框(kuang)架(jia)PICO,即人群(Population)、干預 (Intervention)、對照(Comparison)、結(jie)局(Outcome),并打造了基于(yu)PICO的(de)搜(sou)索(suo)系統,讓大(da)模(mo)型具備臨床醫(yi)生式的(de)提問與檢索(suo)能力(li)。
這一框架把查詢轉化為結構化醫學問題,并在六源數據庫中進行分層匹配。強化學習驅動的多層PICO查詢生成機制,可將用戶問題拆解為多個專業的PICO查詢,進(jin)行(xing)“地毯式”證據(ju)搜索(suo),兼顧精度(du)與廣度(du)。
在搜(sou)索算法的基礎上,百川自(zi)研(yan)了Medical Contextual Retrieval技術,使每段(duan)檢索文獻片段(duan)在分割、召(zhao)回與排序中均能保留完(wan)整的PICO語義線索,減少因信息割裂造成的錯誤。
此(ci)外,PICO搜索系(xi)統(tong)還(huan)擁有(you)PICO-aware重排序模型,能像審稿人(ren)一樣自動評估證(zheng)據等(deng)級(ji),并將(jiang)最(zui)可信、PICO匹配最(zui)完整(zheng)的鐵證(zheng)優先呈現(xian)。
“六源(yuan)循(xun)(xun)證”和(he)“PICO智能(neng)(neng)檢索(suo)”,分別解決了醫療AI知識從哪(na)兒來(lai)和(he)如何(he)快速找到正確證據(ju)這兩大(da)關鍵難題。然而,要輸出可靠的醫學(xue)結論,仍需(xu)模型具備(bei)循(xun)(xun)證推(tui)理與專業判斷(duan)的綜合能(neng)(neng)力(li),使(shi)其(qi)不僅能(neng)(neng)“找對證據(ju)”,更(geng)能(neng)(neng)“用(yong)對證據(ju)”。
百川智能在M2 Plus中加入了“循證強化訓(xun)練”機制,幫助模型提(ti)升材(cai)料鑒別力和回(hui)答準確率,鼓勵模型優(you)先選(xuan)擇(ze)權威信源,同時(shi)懲罰無憑無據的(de)(de)臆(yi)測,對正確的(de)(de)材(cai)料引用(yong)提(ti)供額外的(de)(de)引用(yong)格式(shi)獎勵,最(zui)終打造出M2 Plus模型“規范引用(yong)+遵循事實求證”的(de)(de)回(hui)答風格。
這一(yi)機制保證了模(mo)型在手握證據時(shi),不會“自由(you)發揮”、脫離事實胡(hu)亂回(hui)答,賦予了AI回(hui)答更高的可(ke)解釋性與可(ke)信賴度。
三、當AI學會循證醫學,一線醫生評價如何?
六(liu)源循證+PICO智能(neng)檢索+循證強化(hua)訓(xun)練的(de)配合(he),讓(rang)M2 Plus的(de)幻(huan)覺大幅減少。在多(duo)場景(jing)評測(ce)中(zhong),其(qi)綜合(he)幻(huan)覺率在所有大模型當中(zhong)最低(di),僅為DeepSeek-R1的(de)1/3,也低(di)于OpenEvidence和(he)GPT-5等海外頭部產(chan)品(pin)。

M2 Plus還在多國醫療考試中,大幅領先于人類醫生。美國執業醫師資格考試(USMLE)被廣泛視為評估臨床知識與推理能力的全球權威標準。該考試難(nan)度極高,即便經驗豐富的臨床專(zhuan)家,成績突(tu)破90分也屬(shu)罕見。最(zui)新測試顯示,Baichuan-M2 Plus在(zai)USMLE中取得97分,顯著(zhu)高于人類考生平(ping)均水平(ping),其表現與GPT-5相(xiang)當,位列全(quan)球領先陣營。
在(zai)中國,執業(ye)醫(yi)師資格考(kao)(kao)試(shi)(NMLE)及格線為360分,一般而(er)言,考(kao)(kao)生能取得450分以上(shang)屬于高(gao)分,超過500分被視(shi)為“學神”級別。M2 Plus在(zai)該考(kao)(kao)試(shi)中取得568分的成績,在(zai)所有公開測試(shi)的主流大模型中位列第一,顯示其對中國臨(lin)床指南(nan)和醫(yi)療實踐的掌握已達到較高(gao)水(shui)平。

在難度更高(gao)、知識面更廣(guang)、題目設計極為(wei)復雜的(de)中國碩(shuo)士研究(jiu)生招(zhao)生考試臨(lin)床醫學(xue)(xue)綜合能力(西醫)上(shang)(shang),M2 Plus取得了282分(fen)的(de)成績。對(dui)人類考生而言,能考到280分(fen)以上(shang)(shang)的(de)往(wang)往(wang)都(dou)是(shi)都(dou)是(shi)協和、北(bei)醫等(deng)頂尖(jian)學(xue)(xue)府的(de)頭部學(xue)(xue)霸。
同(tong)時,在日(ri)本、英國、澳大利亞等國高(gao)級(ji)醫(yi)師職稱晉升考試中,M2 Plus的準確率達85%以上,遠超各國及格線。
考試之外,M2 Plus也(ye)獲得了臨(lin)床醫生(sheng)(sheng)的(de)(de)(de)高(gao)度認可。北京天壇醫院(yuan)的(de)(de)(de)熊醫生(sheng)(sheng)在(zai)研究(jiu)目(mu)前(qian)PACAP在(zai)偏頭(tou)痛中的(de)(de)(de)研究(jiu)進展(zhan)時發現,相關的(de)(de)(de)研究(jiu)越來越多,想找到真(zhen)正有價(jia)值(zhi)的(de)(de)(de)文獻并不容易,多數大(da)模型給出的(de)(de)(de)答案都因幻覺(jue)問(wen)題而不可用(yong)。
搭載M2 Plus的百(bai)小應,則能夠在數分鐘內整合來自不同(tong)來源的最新研(yan)(yan)究結(jie)果,自動進行主(zhu)題聚類與邏輯(ji)歸納,避免信(xin)息冗余和(he)誤導(dao)性解讀(du),把(ba)科研(yan)(yan)人員從繁雜的文(wen)獻(xian)搜索中解放出來,聚焦(jiao)于(yu)科研(yan)(yan)創新與臨床(chuang)思考。

回答鏈接:
//ying.baichuan-ai.com/share/SH731370758926341
在試用百小應后,熊醫生評價道,它“能梳理全球PACAP偏頭痛研究,從機制到III期臨床試驗自動串聯證據鏈,不僅回(hui)答問題,更(geng)讓醫生(sheng)站(zhan)在(zai)未來看科研進展。”
接入M2 Plus的(de)百小應(ying)的(de)也(ye)能(neng)提供高效(xiao)的(de)信(xin)息檢(jian)索能(neng)力。醫生(sheng)在臨床(chuang)工作中(zhong),難免遇到病(bing)(bing)史(shi)特(te)(te)殊,考慮(lv)可能(neng)為(wei)罕見(jian)病(bing)(bing)的(de)特(te)(te)殊病(bing)(bing)患,檢(jian)查(cha)結果均無法指向某個疾病(bing)(bing)。此時,百小應(ying)可以輔(fu)助整合信(xin)息,推(tui)測出潛(qian)在的(de)罕見(jian)病(bing)(bing),幫助醫生(sheng)快速制(zhi)定檢(jian)查(cha)方法。

回答鏈接:
//ying.baichuan-ai.com/share/SH731290135638021
智(zhi)東西對M2 Plus在(zai)臨床指(zhi)南(nan)查詢場景的表(biao)現進行了實際(ji)體(ti)驗。以往,每(mei)當(dang)新(xin)的國(guo)際(ji)或國(guo)內指(zhi)南(nan)發布,醫(yi)生通常需(xu)要花費大量時間手動檢索和(he)比(bi)對舊版(ban)與新(xin)版(ban)內容,尤其是在(zai)多學科(ke)交(jiao)叉的疾(ji)病(bing)領域,這一過程(cheng)不僅信息量巨大,還容易遺漏關鍵更新(xin)。
如今(jin),醫生只需在百小應中(zhong)輸入問(wen)題(ti):“2025年ADA指(zhi)(zhi)南有(you)哪些(xie)更新?”,系統(tong)即可準確(que)理解提問(wen)意圖,并快速(su)檢索相關醫學(xue)文獻和指(zhi)(zhi)南,梳(shu)理出核(he)心更新要(yao)點。
百小應的每一條回答均有據可依,同時提供文獻鏈接,醫生(sheng)不僅可(ke)以(yi)驗(yan)證AI輸出的(de)內(nei)容(rong),還能基于這些權威來源進(jin)行更深入的(de)研(yan)究,從而大幅提升臨床指南學習的(de)效率與準確(que)性(xing)。

回答鏈接:
//ying.ai/share/SH733407702581253
目前(qian),接入(ru)M2 Plus的百小應已在各大(da)手(shou)機應用商店更(geng)新,成為“醫生版(ban) ChatGPT”。為方便電腦端使用,網頁版(ban)(ying.ai)也同步上線。
Baichuan-M2 Plus也提供標準(zhun)化(hua)(hua)API接口,醫(yi)院信息化(hua)(hua)部門(men)、互聯(lian)網醫(yi)療、大(da)健康服(fu)務(wu)等各(ge)類泛醫(yi)學機構,以及從事醫(yi)療AI行(xing)業(ye)的(de)開發(fa)者,可以通過API將(jiang)循證推理接入服(fu)務(wu)場景,提升AI服(fu)務(wu)的(de)醫(yi)學專業(ye)性(xing)。
結語:醫療AI進入“循證增強”新階段
Baichuan-M2 Plus的發布,標志(zhi)著醫療(liao) AI 進入“循證增強”的新階(jie)段(duan)。一(yi)線(xian)醫生每天面(mian)對(dui)繁重的臨床決策壓力(li),尤其是在基層和中小(xiao)醫療(liao)機構(gou),患者數量(liang)多、資源(yuan)有限,知識更新又迅速(su),常常需要在短(duan)時(shi)間內(nei)做出高(gao)風險的判斷(duan)。
通過(guo)首創的(de)“六源循證”推理范式,M2 Plus將(jiang)循證醫學(xue)原則嵌(qian)入(ru)AI系統底層,使模型(xing)在復雜醫學(xue)知識運用上可靠性顯著提升,有(you)效降低幻覺率,為(wei)臨床醫生的(de)決策(ce)提供了(le)有(you)力(li)輔(fu)助,有(you)望緩解(jie)人手不(bu)足和信息滯后的(de)壓力(li),成為(wei)提升醫療(liao)服(fu)務(wu)質量(liang)的(de)一條可能路徑。M2 Plus還有(you)望為(wei)廣大(da)患(huan)者及家(jia)屬提供真正可靠的(de)醫療(liao)AI服(fu)務(wu),幫(bang)助他們(men)理解(jie)診斷(duan)、治療(liao)、預后及檢查背(bei)后的(de)科學(xue)邏輯。
從Baichuan-M2的開源,到M2 Plus的發布,再到百小(xiao)應(ying)的升級,百川智能正(zheng)推動 AI 在(zai)真(zhen)實臨床的落地應(ying)用,讓大(da)模型在(zai)嚴肅醫療場景真(zhen)正(zheng)可(ke)用,代表中國在(zai)全球醫療AI領域取得又一突破。