清华大学在读博士刘世隆：LLaVA-Plus——学习使用视觉工具插件的多模态智能体｜AI新青年讲座

今年9月起，智東西公開課品牌全新升級為智猩猩。智猩猩定位硬科技講解與服務平臺，提供公開課、在線研討會、講座、峰會等線上線下產品。

「AI新青年講座」由智猩猩出品，致力于邀請青年學者，主講他們在生成式AI、LLM、計算機視覺、機器學習等人工智能領域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑，將可以幫助大家增進對人工智能前沿研究的理解，相應領域的專業知識也能夠得以積累加深。同時，通過與AI新青年的直接交流，大家在AI學習和應用AI的過程中遇到的問題，也能夠盡快解決。

「AI新青年講座」現已完結231講；有興趣分享學術成果的朋友，可以與智猩猩教研產品團隊進行郵件（class@jmfly.net）聯系。

LLaVA 是第一個在圖像理解和推理方面具有類似 GPT-4V 級別的能力的開源大模型。在去年7月份，LLaVA 一作、美國威斯康星大學麥迪遜分校在讀博士柳昊天，曾圍繞主題《基于視覺指令調整的多模態聊天機器人 LLaVA》對 LLaVA 進行深度講解。在今年的NeurIPS 2023 上，LLaVA 也獲得了 Oral。

清華大學在讀博士劉世隆：LLaVA-Plus——學習使用視覺工具插件的多模態智能體｜AI新青年講座

結合最近的 AI Agent，柳昊天博士聯合清華大學的劉世隆博士等人最新又提出了 LLaVA-Plus，使用插件（視覺工具）提升多模態大語言模型的視覺能力，擴展了多模態大語言模型 LLaVA，使其支持了包括檢測、分割、檢索、生成、編輯在內的多種視覺能力。

LLaVA-Plus 維護著一個技能庫，其中包含各種視覺和視覺語言預訓練模型（工具），并且能夠根據用戶的多模式輸入激活相關工具，以即時組合執行結果來完成許多現實任務。通過實驗也驗證了 LLaVA-Plus 的有效性，在多個基準測試中取得了持續改進的結果，特別是在 VisIT-Bench 上達到了的新 SoTA。

清華大學在讀博士劉世隆：LLaVA-Plus——學習使用視覺工具插件的多模態智能體｜AI新青年講座

12月26日晚7點，LLaVA-Plus 一作、清華大學在讀博士劉世隆將參與到「AI新青年講座」第232講，主講《LLaVA-Plus：學習使用視覺工具插件的多模態智能體》。

講者
劉世隆，清華大學在讀博士；導師朱軍教授；長期在粵港澳大灣區數字經濟研究院（IDEA Research）實習，接受張磊教授指導；曾在 Microsof t實習；主要研究方向包括目標檢測和多模態學習，曾獲得 CCF-CV 學術新銳，代表工作包括 DAB-DETR、DINO 和 Grounding DINO 等。

第232講
主題
《LLaVA-Plus：學習使用視覺工具插件的多模態智能體》

提綱
1、AI Agent 的研究概述
2、基于大語言模型的多模態智能體構建方法
3、LLaVA-Plus 多模態能力的插件實現
4、LLaVA-Plus 的 SoTA 性能驗證

直播信息
直播時間：12月26日19:00
直播地點：智東西公開課知識店鋪

成果
論文標題：《LLaVA-Plus: Large Language and Vision Assistants that Plug and Learn to Use Skills》
論文地址：//arxiv.org/pdf/2311.05437.pdf
開源代碼：//github.com/LLaVA-VL/LLaVA-Plus-Codebase

国产又黄又猛又粗又爽的A片,小祖宗┅┅快┅┅用力啊视频,国产精品麻豆欧美日韩ww,少妇精品无码一区二区免费视频,波多野结衣在线播放

相關推薦