智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 心緣

智東西3月25日報道,昨天,阿里云通義千問開源更小尺寸的視覺理解模型Qwen2.5-VL-32B-Instruct。與昨夜的發布時間幾乎前后腳。

Qwen2.5-VL-32B-Instruct的優勢主要集中于三個方面:研究人員調整了輸出風格,使其回答詳細、格式規范且更符合人類偏好;在數學推理能力方面,可應對復雜數學問題;在圖像解析、內容識別、視覺邏輯推導等任務中更準確并具備細粒度分析能力。

該模型是在1月底開源的視覺模型Qwen2.5-VL系列的基礎上,研究人員基于強化學習持續優化的模型,新模型使用Apache 2.0協議開源。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

科技博主Simon?Willison在博客中提到,32B參數正迅速成為其最喜歡的模型大小,既能達到可媲美GPT-4級別的能力,又小到可以在其64GB內存的Mac上使用,并且仍有足夠的RAM來運行其他如火狐瀏覽器(Firefox)和軟件開發工具Visual Studio Code等內存占用較大的應用程序。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

GitHub地址://github.com/QwenLM/Qwen2.5-VL

Hugging Face地址://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct

一、一張圖就能輸出地理特征、地形地貌,幾何難題也能勝任

Simon?Willison嘗試了Qwen2.5-VL-32B-Instruct的圖片理解能力,他上傳了一張圖片讓模型識別。Qwen2.5-VL-32B-Instruct給出了圖片中包含的地理特征、分顏色區域、深度等值線、保護區等諸多要素。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

官方博客中展示了Qwen2.5-VL-32B-Instruct在細粒度圖像理解和數學推理方面的實際表現。

第一個提示詞是:“我開著大貨車在這條路上行駛,現在已經12點了,我能在13點之前到達110公里以外的地方嗎?”模型需要在理解用戶需求的基礎上,補充圖片上對車輛限速的背景信息再得出結論。

可以看到,Qwen2.5-VL-32B-Instruct先將題目和圖片中的信息進行了匯總,然后進行逐步分析解答。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

第二個問題是數學推理,提示詞為:“如圖所示,直線AB和CD在O點相交,OD平分∠AOE,∠BOC=50.0,然后∠EOB=()”這道題重點考察的是模型夠準確理解幾何圖形的基本概念,以及相關角之間的位置關系,如對頂角、角平分線等概念在圖形中的體現。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

第三個提示詞是:“侏羅紀蜘蛛網是一種非常有規律的蜘蛛網,如圖,它是由無數個正方形環繞而成的,且最外邊第一個正方形A_{1}B_{1}C_{1}D_{1}的面積為a_{1}=1,分別取正方形A_{1}B_{1}C_{1}D_{1}各邊的三等分點A_{2},B_{2},C_{2},D_{2},作第二個正方形A_{2}B_{2}C_{2}D_{2},且正方形A_{2}B_{2}C_{2}D_{2}的面積為a_{2},\ldots \ldots ,依次類推,第n個正方形A_{n}B_{n}C_{n}D_{n}的面積為a_{n}.?$求{a_{n}}的通項公式”

這道題綜合考查了幾何圖形分析、歸納推理、數學運算以及數列知識運用等多方面的能力。在Qwen2.5-VL-32B-Instruct的解題過程中,其首先羅列了解題文章的基本思路,然后進行分步驟解答。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

最后一個是對精細圖片的理解,Qwen2.5-VL-32B-Instruct通過圖片中的鍋底、分格設計、配菜、氛圍等識別出這是四川麻辣火鍋,并附上了簡介。在用戶詢問這為什么是四川火鍋時,其對上述關鍵要素進行了詳細引用給出答案。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

二、多項測試超過72B前代模型,純文本能力整體優于GPT-4o mini

多項基準測試中,Qwen2.5-VL-32B-Instruct的表現超過了Mistral-Small-3.1-24B和Gemma-3-27B-IT,以及參數規模更大的Qwen2-VL-72B-Instruct模型。

在強調復雜任務多步驟推理的MMMU、MMMU-Pro和MathVista中,Qwen2.5-VL-32B-Instruct表現優于Mistral-Small-3.1-24B、Gemma-3-27B-IT、Qwen2-VL-72B-Instruct。

同時,注重主觀用戶體驗評估的MM-MT-Bench基準測試中,該模型相較于其前代Qwen2-VL-72B-Instruct表現更好。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

純文本能力方面,Qwen2.5-VL-32B-Instruct是同規模模型中整體表現最好的。

通義開源32B視覺模型,阿里與DeepSeek前后腳上新!能看圖說話

結語:下一步將聚焦長且有效的視覺推理

相比于Qwen2.5-VL系列模型,基于快思考模式,Qwen2.5-VL-32B在強化學習框架下優化了主觀體驗和數學推理能力。

阿里云通義千問的研究團隊下一步研究將聚焦于長且有效的推理過程,以突破視覺模型在處理高度復雜、多步驟視覺推理任務中的邊界。