今年9月起,智東西公開課品牌全新升級為智猩猩。智猩猩定位硬科技講解與服務平臺,提供公開課、在線研討會、講座、峰會等線上線下產品。
「AI新青年講座」由智猩猩出品,致力于邀請青年學者,主講他們在生成式AI、LLM、計算機視覺、機器學習等人工智能領域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應領域的專業知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學習和應用AI的過程中遇到的問題,也能夠盡快解決。
「AI新青年講座」現已完結231講;有興趣分享學術成果的朋友,可以與智猩猩教研產品團隊進行郵件(class@jmfly.net)聯系。
LLaVA 是第一個在圖像理解和推理方面具有類似 GPT-4V 級別的能力的開源大模型。在去年7月份,LLaVA 一作、美國威斯康星大學麥迪遜分校在讀博士柳昊天,曾圍繞主題《基于視覺指令調整的多模態聊天機器人 LLaVA》對 LLaVA 進行深度講解。在今年的NeurIPS 2023 上,LLaVA 也獲得了 Oral。

結合最近的 AI Agent,柳昊天博士聯合清華大學的劉世隆博士等人最新又提出了 LLaVA-Plus,使用插件(視覺工具)提升多模態大語言模型的視覺能力,擴展了多模態大語言模型 LLaVA,使其支持了包括檢測、分割、檢索、生成、編輯在內的多種視覺能力。
LLaVA-Plus 維護著一個技能庫,其中包含各種視覺和視覺語言預訓練模型(工具),并且能夠根據用戶的多模式輸入激活相關工具,以即時組合執行結果來完成許多現實任務。通過實驗也驗證了 LLaVA-Plus 的有效性,在多個基準測試中取得了持續改進的結果,特別是在 VisIT-Bench 上達到了的新 SoTA。

12月26日晚7點,LLaVA-Plus 一作、清華大學在讀博士劉世隆將參與到「AI新青年講座」第232講,主講《LLaVA-Plus:學習使用視覺工具插件的多模態智能體》。
講者
劉世隆,清華大學在讀博士;導師朱軍教授;長期在粵港澳大灣區數字經濟研究院(IDEA Research)實習,接受張磊教授指導;曾在 Microsof t實習;主要研究方向包括目標檢測和多模態學習,曾獲得 CCF-CV 學術新銳,代表工作包括 DAB-DETR、DINO 和 Grounding DINO 等。
第232講
主 題
《LLaVA-Plus:學習使用視覺工具插件的多模態智能體》
提 綱
1、AI Agent 的研究概述
2、基于大語言模型的多模態智能體構建方法
3、LLaVA-Plus 多模態能力的插件實現
4、LLaVA-Plus 的 SoTA 性能驗證
直 播 信 息
直播時間:12月26日19:00
直播地點:智東西公開課知識店鋪
成果
論文標題:《LLaVA-Plus: Large Language and Vision Assistants that Plug and Learn to Use Skills》
論文地址://arxiv.org/pdf/2311.05437.pdf
開源代碼://github.com/LLaVA-VL/LLaVA-Plus-Codebase