「大型語言模型技術公開課」由智東西公開課教研組全新出品,將持續邀請 LLM 領域的技術大牛和科研人員,對開源的大模型語言模型及其背后的技術細節以視頻直播形式進行深入講解。
在這一季,潞晨科技技術 VP 柳泓鑫、新加坡國立大學在讀博士張傲、香港科技大學在讀博士刁詩哲和騰訊 AI LAB 高級研究員宋林四位主講人,將先后針對 ColossalChat、VPGTrans、LMFlow,以及 GPT4Tools 這四個開源項目帶來講解和答疑。
5月29日晚7點,新加坡國立大學在讀博士張傲將帶來「大型語言模型技術公開課」第二講的直播,講解的主題為《10%成本定制類 GPT-4 多模態對話模型》。
GPT-4、BLIP-2、Flamingo 等多模態(對話)大模型的出現,將大語言模型的強大能力擴展到多模態輸入,實現了強大的多模態語義理解。然而,訓練一個多模態對話模型往往需要成百上千塊 GPU、以及很長時間和上億的數據。
針對多模態(對話)大模型,來自新加坡國立大學、清華大學的研究者們開源了一個 VPGTrans 框架,可以將已有的 BLIP-2 OPT-6.7B 模型的訓練開銷由 17901 元縮減到 1673 元,且模型效果相仿或更好。
同時,在近期新放出的語言模型 LLaMA 和 Vicuna 上,研究者們也對 VPGTrans 進行了驗證 ,構建并開源了 VL-LLaMA 和 VL-Vicuna 模型。其中,VL-Vicuna 模型可以進行高質量的多模態對話。
在這一講,張傲首先會對新一代的多模態大模型進行梳理,之后深度講解類 GPT4 多模態模型構建框架 VPGTrans 及其原理。最后,他也會對 VPGTrans 的兩個應用實例:開源 VL-LLaMA 和 VL-Vicuna 進行解讀。
第二講
主 題
《10%成本定制類 GPT-4 多模態對話模型》
提 綱
1、新一代多模態大模型概述
2、類 GPT4 多模態模型構建框架 VPGTrans
3、VPGTrans重點實驗解析
4、VPGTrans應用實例:開源 VL-LLaMA 和 VL-Vicuna
主 講 人
張傲,新加坡國立大學在讀博士;研究方向為多模態學習,導師為Chua Tat-Seng;曾在 ICCV、ECCV、EMNLP 等頂會發表多篇論文;代表工作有超大規模場景圖生成方法 IETrans (ECCV 2022 Oral),多模態提示學習方法 colorful prompt tuning (CPT)。
直 播 時 間
5月29日19:00