智東西(公眾號:zhidxcom)
作者 |? 程茜
編輯 |? 漠影
臨近年關,國產大模型的春節大禮包讓人應接不暇!
就在這幾天,從全場景深度推理模型Baichuan-M1-preview到醫療增強開源模型Baichuan-M1-14B,百川智能大模型頻繁上新。
而今天新鮮出爐的全模態模型Baichuan-Omni-1.5,更稱得上是“大模型通才”。
這一全模態模型不僅能同時支持文本、圖像、音視頻全模態理解,還支持文本、音頻雙模態生成。與此同時,百川還開源了兩個評測集,助力國內全模態模型研發生態蓬勃發展。
從綜合的測評結果來看,Baichuan-Omni-1.5的多模態能力整體超越了GPT-4o mini。在百川智能深耕的醫療領域,其醫療圖片評測成績更是大幅領先。
可以看出,百川智能作為國產大模型的明星玩家,在模型本身的技術探索以及深耕醫療行業落地上正一往無前。
模型權重地址:
Baichuan-Omini-1.5:
//huggingface.co/baichuan-inc/Baichuan-Omni-1d5
//modelers.cn/models/Baichuan/Baichuan-Omni-1d5
Baichuan-Omini-1.5-Base:
//huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base
GitHub地址:
技術報告:
一、文圖音視頻“通殺”,多項測評超越GPT-4o mini
Baichuan-Omni-1.5的亮眼表現可以集中概括為“全面且強大”。
首先,該模型最突出的特點就是擁有全面的理解和生成能力,既包括對文本、圖像、視頻、音頻全模態內容的理解,還支持文本、音頻的雙模態生成。
圖片的理解層面,Baichuan-Omni-1.5在MMBench-dev、MM-Vet等通用圖片評測中,其中通用測試集MM-Vet定義了識別、OCR、知識、語言生成、空間感知和數學計算六大核心VL能力,對于模型性能的表現呈現較為全面。圖片的理解層面,Baichuan-Omni-1.5在MMBench-dev、TextVQA val等通用圖片評測中領先領先GPT-4o mini。
值得一提的是,除了通用文本、圖像、音視頻能力外,百川智能的全模態模型更是在醫療賽道上一騎絕塵。醫療圖片評測數據集GMAI-MMBench、Openmm-Medical的結果顯示,該模型已經大幅超越GPT-4o mini。

音頻的理解與生成層面,Baichuan-Omni-1.5不僅支持多語言對話,還能基于其端到端音頻合成能力,擁有ASR(自動語音識別)和TTS(文本轉語音)功能,并且在此基礎上支持音視頻實時交互。具體的測評指標上,Baichuan-Omni-1.5在lamma question和AlpacaEval數據集上整體表現遠超Qwen2-VL-2B-Instruct、VITA-1.5和MiniCPM-o?2.6。

視頻理解層面,百川智能對該模型在編碼器、訓練數據和訓練方法等多個關鍵環節進行了深入優化,其整體性能同樣大幅領先GPT-4o-mini。

綜上,Baichuan-Omni-1.5不僅在通用能力上整體超越GPT4o-mini,并且實現了全模態理解、生成的統一。
百川智能同時還開源了兩個評測集:OpenMM-Medical、OpenAudioBench。
OpenMM-Medical用于評估模型的醫療多模態能力,包含了來自42個公開醫學圖像的數據集,如ACRIMA(眼底圖像)、BioMediTech(顯微鏡圖像)和CoronaHack(X 射線),共計88996張圖像。
OpenAudioBench則用于高效評估模型“智商”,包含5個音頻端到端理解子評測集的平臺,其中4個來自公開評測集(Llama Question、WEB QA、TriviaQA、AlpacaEval),還有1個是百川自建的語音邏輯推理評測集,該自建評測集共有2701條數據。
一直以來,百川智能在繁榮國內開源生態上都扮演著重要角色。這類開源模型評測數據集為研究人員和開發者提供了統一的標準數據,方便其對不同模型的性能進行客觀、公正的評估,同樣有助于催生一系列新的語言理解算法和模型架構。
二、全方位優化數據、架構、流程,破解大模型“降智”難題
從單一模態模型到多模態融合,再到全模態模型的進階,這一技術發展歷程為實現模型在千行百業落地應用提供了更多可能性。
然而,隨著AI技術的不斷發展,如何實現理解和生成的統一,已然成為當下多模態領域研究的一大熱點與難點問題。
一方面,理解和生成的統一使得模型能模仿人類交互方式,讓計算機與人類的溝通更加自然、高效,這也是通用人工智能(AGI)實現的關鍵環節;另一方面,不同模態的數據在特征表示、數據結構和語義內涵等方面差異巨大,很難做到既能有效地提取多模態特征,又能實現跨模態的信息交互和融合,這也被業界公認為訓練全模態模型的最大難題之一。此次Baichuan-Omni-1.5的發布,意味著百川智能應該已經找到了解決上述難題的有效路徑。
訓練全模態模型的過程中,為解決全模態模型“降智”難題,其研究團隊從模型結構、訓練策略以及訓練數據等多方面進行了全流程的深度優化,真正實現了理解生成統一。
首先是模型結構方面,模型輸入部分支持各種模態通過相應的Encoder/Tokenizer輸入到大型語言模型中;輸出部分則采用了文本-音頻交錯輸出的設計,其中Text Tokenizer和Audio Decoder可以同時生成文本和音頻。
其中,Audio Tokenizer由OpenAI發布的開源語音識別翻譯模型Whisper增量訓練而來,同時具備高級語義抽取和高保真重建音頻能力。
為了讓模型理解任意分辨率圖片,Baichuan-Omni-1.5還引入了能處理最高分辨率可達4K且支持多圖推理的NaViT,使得該模型能全面提取圖片信息,準確理解圖片上的內容。

其次是數據層面,百川智能構建了包含3.4億條高質量圖片/視頻-文本數據和近100萬小時音頻數據的龐大數據庫,并使用1700萬條全模態數據進行了SFT(監督微調)。
與其余模型的數據不同,全模態模型不僅數據要豐富,還需要更多元化的交錯數據。一般而言,現實生活中的信息通常以多種模態同時呈現,且不同模態的數據包含互補的信息,這類多模態數據的融合有助于模型學習到更通用的模式和規律,增強其泛化能力,這也是構建全模態模型的關鍵之一。
為了加強跨模態理解能力,百川智能還構建了高質量的視覺-音頻-文本交錯數據,使用1600萬圖文、30萬純文本、40萬音頻數據以及跨模態數據對模型進行對齊。并且為了讓模型能夠同時實現ASR、TTS、音色切換和音頻端到端問答,在對齊數據中還專門構建了相應任務的數據。
第三大技術要點就是訓練流程,這是讓高質量數據真正提升模型能力的核心。
百川智能在預訓練和SFT階段均設計了多階段訓練方案,以整體提升模型效果。
其訓練過程主要分為四個階段,第一階段以圖文訓練為主,第二階段增加音頻預訓練,第三階段加入視頻數據,最后一個階段是對齊階段,最終實現模型對于全模態內容的理解。

在此基礎上,Baichuan-Omni-1.5的能力相比于單一的大語言模型或者多模態模型,實現了質的飛躍。
Baichuan-Omni-1.5的發布標志著AI正在從模型能力向落地應用方向發展,此前,模型能力多側重于語言理解、圖像識別等基礎能力的增強,這一模型強大的多模態融合能力,將會讓技術與實際場景之間結合更為緊密。
百川智能一方面提升了模型在語言、視覺、音頻等多模態信息處理上的能力,使其能夠應對更復雜、更多樣的任務;另一方面全模態模型強大的理解、生成能力,在醫療行業可以用于輔助醫生診斷,提高診斷準確性和效率等,對于將AI落地到醫療場景也是非常有益的探索。
或許在不久的將來,百川智能可以讓我們清晰看到AGI時代醫療應用的雛形。