智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影
智東西7月25日消息,今天,前Meta員工沈俊瀟(Shawn Shen)在海外社交媒體X上宣布,其和Enmin Zhou聯合創立的Memories.ai,正式推出其首款大型視覺記憶模型(Large Visual Memory Model)。
沈俊瀟還宣布Memories.ai已完成由Susa Ventures領投,Crane Venture Partners、三星Next、Fusion Fund等機構跟投的800萬美元(約合人民幣5730萬元)種子輪融資。
感興(xing)趣(qu)的用戶立即享受(shou)首月免費體驗,無需(xu)任何附加(jia)條件(jian)。
體(ti)驗地址:

▲沈俊瀟官(guan)宣推文(來源:X)
這一技術旨在為多模態大語言模型(multi-modal LLMs)賦予視覺記憶回溯能力。該模型實現了視覺記憶檢索功能,能(neng)夠解(jie)析(xi)用戶意圖(tu),檢索相關(guan)視覺記(ji)憶(yi)(yi)片段(duan),整合關(guan)聯的視覺記(ji)憶(yi)(yi)信息(xi),并(bing)基于這些記(ji)憶(yi)(yi)和用戶查詢進行推理。
其(qi)創新點在于(yu)智能決策機制,能自主判斷(duan)何(he)時、如何(he)及調取(qu)哪些視(shi)覺記憶(yi)(yi)(yi)。完成(cheng)記憶(yi)(yi)(yi)信(xin)息(xi)整合后,模(mo)型(xing)能生成(cheng)記憶(yi)(yi)(yi)引用,并以正(zheng)確輸出(chu)格式(shi)回答用戶問(wen)題(ti),這使得多模(mo)態(tai)大模(mo)型(xing)具備無限長(chang)視(shi)覺記憶(yi)(yi)(yi)上(shang)下(xia)文(wen)處(chu)理能力。
Memories.ai的兩位聯合創始人均是華人,沈(shen)俊瀟在博客(ke)中(zhong)透露自己14歲就遠赴(fu)英(ying)國讀(du)高中(zhong)。
一、兩位華人聯合創立,曾14歲就遠赴英國求學
1999年出(chu)生的沈俊瀟,初(chu)中在蘇州(zhou)上學(xue)(xue)(xue)(xue)(xue)(xue),14歲就獲得(de)(de)獎學(xue)(xue)(xue)(xue)(xue)(xue)金到遠赴(fu)英國(guo)讀(du)高(gao)中。領英主頁顯示,其(qi)本碩(shuo)博均在劍(jian)橋(qiao)大學(xue)(xue)(xue)(xue)(xue)(xue)就讀(du),2019年取得(de)(de)了(le)工(gong)(gong)程(cheng)專業(ye)的文學(xue)(xue)(xue)(xue)(xue)(xue)學(xue)(xue)(xue)(xue)(xue)(xue)士(shi)學(xue)(xue)(xue)(xue)(xue)(xue)位( 劍(jian)橋(qiao)大學(xue)(xue)(xue)(xue)(xue)(xue)等部分高(gao)校保留(liu)傳統BA授予制度,其(qi)工(gong)(gong)程(cheng)專業(ye)畢業(ye)生仍獲BA學(xue)(xue)(xue)(xue)(xue)(xue)位),2020年取得(de)(de)都(dou)柏林圣三(san)一學(xue)(xue)(xue)(xue)(xue)(xue)院的工(gong)(gong)程(cheng)學(xue)(xue)(xue)(xue)(xue)(xue)碩(shuo)士(shi)學(xue)(xue)(xue)(xue)(xue)(xue)位,2023年獲得(de)(de)工(gong)(gong)程(cheng)學(xue)(xue)(xue)(xue)(xue)(xue)哲學(xue)(xue)(xue)(xue)(xue)(xue)博士(shi)學(xue)(xue)(xue)(xue)(xue)(xue)位。
在本科就讀期間,沈俊瀟還曾(ceng)回到(dao)上海摩根士丹利(li)短期實習,在博士就讀期間,2022年(nian),他到(dao)了Meta現(xian)實實驗室(shi)工(gong)作,擔任研究科學(xue)家職位(wei)。2024年(nian)沈俊瀟離職創業,聯合創立(li)了Memories.ai。

▲左:沈俊瀟,右(you):Enmin Zhou(圖源(yuan):Memories.ai)
Memories.ai聯(lian)合創(chuang)始人兼CTO?Enmin Zhou,2020年(nian)從美國加州大學(xue)洛杉(shan)磯(ji)分校畢(bi)業,獲得數學(xue)與計算科(ke)(ke)學(xue)學(xue)士學(xue)位,后(hou)在美國布朗(lang)大學(xue)就讀數據科(ke)(ke)學(xue)專業,于2022年(nian)畢(bi)業。
本科(ke)就(jiu)讀(du)期(qi)間(jian)他也曾回到上海,在上海深察(cha)信息(xi)科(ke)技短暫實習(xi),碩士畢業(ye)后(hou)在Meta就(jiu)職(zhi)(zhi),擔任機器(qi)學習(xi)工程(cheng)師(shi)一職(zhi)(zhi)。2024年Enmin Zhou離職(zhi)(zhi)創業(ye),聯合創立了Memories.ai。
在博客中(zhong),沈俊瀟寫道(dao),他們正是因為意識到解決視覺記憶問題刻(ke)不容緩,才離開(kai)Meta共同創立Memories.ai。
二、視頻問答能力超越Gemini 2.5 Pro、OpenAI GPT 4o和GPT4.1
從性能上看,在視頻零樣本分類基準測試中,Memories.ai的分數都較歷史第一的模型PE-G都一定上漲,其中在HMD8數據庫中,分數上漲了7.6分,在K400數據庫中,分數上漲了6.6分。

視頻檢索基準測試中,Memories.ai在所有數據集中的分數都超越了歷史第一Perception Encoder,各項測試均奪得桂冠,其中在AVN數據集的文字轉視頻測試中,其分數較Perception Encoder提升了11分。

視頻問答基準測試中,Memories.ai在MVBench、NextQA以及Temp Compass數據集中,全面超越OpenAI GPT 4o;在ActivityNetQA和Perception Text數據集中,超越谷歌Gemini 2.5 Pro和OpenAI?GPT4.1,取得新的(de)性(xing)能(neng)記錄(lu)。


▲包括OpenAI和谷(gu)歌(ge)模型系統在內的比(bi)較數據,均源(yuan)自OpenAI和谷(gu)歌(ge)各自的官方(fang)發(fa)布博客。
三、受人類記憶機制啟發,建立初始記憶架構
在另一篇技術博客中,沈俊瀟介紹到,Memories.ai的創造是受了人類記憶機制啟發(fa),而創(chuang)立的整(zheng)個大視(shi)覺記(ji)憶模(mo)型的初(chu)始(shi)記(ji)憶架(jia)構(gou),包括:
將(jiang)記(ji)憶(yi)(yi)線索轉化為(wei)可搜索請求(qiu)的(de)查詢模(mo)(mo)(mo)型(xing)(xing)、用于粗粒(li)度檢(jian)索的(de)檢(jian)索模(mo)(mo)(mo)型(xing)(xing)、全模(mo)(mo)(mo)態索引模(mo)(mo)(mo)型(xing)(xing)、用于細(xi)粒(li)度細(xi)節(jie)提取的(de)選擇模(mo)(mo)(mo)型(xing)(xing)、用于記(ji)憶(yi)(yi)監控的(de)反思模(mo)(mo)(mo)型(xing)(xing),以及(ji)用于記(ji)憶(yi)(yi)重(zhong)構的(de)重(zhong)建模(mo)(mo)(mo)型(xing)(xing)。
記憶檢索過程(cheng)可分解為以下關鍵步驟:
1、記憶線索:激發回憶過程
回(hui)憶通常始于(yu)線索(suo)。線索(suo)可以是外部的,如問題、舊照片、旋律(lv)、氣味(wei)、地名;也(ye)可以是內部的,如念頭(tou)、情緒。當大腦接(jie)收線索(suo)時(shi),會激活(huo)與(yu)目標記憶相關(guan)的特定神經網絡。
在系統中,采用查詢模型(xing)將(jiang)線(xian)(xian)索(主要(yao)為(wei)基(ji)于文本的線(xian)(xian)索)轉(zhuan)化為(wei)具體的、可搜索的內容,涉及文本解析和(he)轉(zhuan)錄(lu)等步驟(zou),將(jiang)線(xian)(xian)索轉(zhuan)化為(wei)適(shi)合(he)后續處(chu)理(li)的格式。
2、粗粒度檢索:初步 “篩選”
激活過程(cheng)并(bing)非總是精確(que)的(de),初始檢(jian)索往(wang)往(wang)粗略且泛化。大腦快(kuai)速搜(sou)索海量信息(xi),尋找與(yu)當(dang)前線索最(zui)匹配(pei)的(de)模式(shi),一些相關的(de)視覺片(pian)段可能會被初步(bu)激活,此為 “線索依賴性回憶(yi)”。
在系統(tong)中,使用檢索(suo)(suo)模(mo)型進行(xing)粗(cu)粒度(du)檢索(suo)(suo)。對于(yu)上一(yi)步解(jie)析的(de)(de)查(cha)詢對象,檢索(suo)(suo)模(mo)型選(xuan)擇合(he)適(shi)的(de)(de)數據庫(ku)和查(cha)詢方法,識別所有相關片段,減輕 “線索(suo)(suo)依賴性回憶” 的(de)(de)影響,并激活(huo)所有相關視覺片段。
3、細粒度細節提取:深度 “閱讀” 與 “編輯”
當初始線索激活相關(guan)區域后,大腦進入更精(jing)細的(de)處理(li)階段,記(ji)憶的(de)重構特性(xing)開始顯現:
細節補全:大腦填補記憶的細節(jie),這些細節(jie)可(ke)能基于對(dui)世界(jie)的理解(jie)、邏輯推(tui)理和過往經(jing)驗推(tui)斷補充。
關聯整合:大腦將不同(tong)信息片(pian)段(如視覺圖(tu)像(xiang)、聽覺片(pian)段和情緒波動)關聯整(zheng)(zheng)合,形成(cheng)更完整(zheng)(zheng)的記憶圖(tu)景。
過濾選擇:大腦(nao)根(gen)據(ju)當前(qian)目標和(he)問(wen)題,從所有(you)激活信息中過濾出最相關和(he)最重要的片段,具(ju)有(you)高度目的性。
在系(xi)統(tong)中,使用全(quan)模(mo)態字(zi)幕(mu)(mu)模(mo)型和選(xuan)擇模(mo)型進行細粒度(du)細節提取。對于所有視覺(jue)(jue)片段,全(quan)模(mo)態字(zi)幕(mu)(mu)代理(li)(li)結合記(ji)憶線索(suo)為關(guan)鍵(jian)核(he)心(xin)內(nei)容(rong)添加字(zi)幕(mu)(mu)。選(xuan)擇代理(li)(li)基(ji)于所有已字(zi)幕(mu)(mu)內(nei)容(rong)進行推理(li)(li),篩選(xuan)出若干最(zui)相關(guan)的視覺(jue)(jue)片段,縮小記(ji)憶搜(sou)索(suo)范(fan)圍,基(ji)本完成視覺(jue)(jue)記(ji)憶檢索(suo)過程(cheng)。
4、記憶監控:記憶的 “自我校正”
回(hui)憶(yi)過(guo)程中,大(da)腦會(hui)監控和驗證檢索到的信息,評估其準確性和真實性,包括將其與現有(you)的知識(shi)、信念和其他相關記憶(yi)進行(xing)比(bi)較。若(ruo)回(hui)憶(yi)信息與已知事實相矛盾,可能(neng)會(hui)嘗試進一(yi)步(bu)回(hui)憶(yi)或修正。
在系(xi)統(tong)中,使(shi)用反思(si)模(mo)型進行記憶檢測和(he)驗(yan)證(zheng)。當檢索到(dao)的記憶內容(rong)與事實沖突或不一致時,會(hui)重(zhong)新進入細粒(li)度細節提取階段。
5、記憶重構:從碎片到 “精修版”
回憶(yi)復雜事件時,大腦傾向于提取事件的核心(xin)要點、主要參(can)與者(zhe)和關(guan)鍵結果,過濾(lv)掉(diao)較不重要或冗(rong)余的信息,將(jiang)其概(gai)括為更易(yi)存儲和檢(jian)索的形式。重構過程還涉(she)及將(jiang)分散的記(ji)憶(yi)碎片整合成(cheng)有意義的模(mo)式,組織(zhi)成(cheng)連貫的敘述或概(gai)念。
在系統中(zhong),使用(yong)重建模型進行記憶重構(gou)(gou)。基(ji)于記憶線索和(he)所有(you)當前檢索到的信(xin)(xin)息,識別信(xin)(xin)息模式,利用(yong)世界知識和(he)邏輯推理補(bu)全缺失細節,過濾和(he)精煉無關或冗(rong)余信(xin)(xin)息,將分散的感(gan)知、概念和(he)情感(gan)片段整(zheng)合成連貫、有(you)意義的敘述或概念結構(gou)(gou)。
結語:或將成為AGI發展的重要節點
沈俊瀟在博客中稱(cheng)“這是在通用人工智能(AGI)發展中的(de)一步(bu)。”
Memories.ai此次推(tui)出(chu)的大型視(shi)覺(jue)(jue)記憶(yi)模(mo)型,在技術路徑上以(yi)人類(lei)大腦(nao)的記憶(yi)機制為參照構(gou)建了初始(shi)架(jia)構(gou),其具備的視(shi)覺(jue)(jue)記憶(yi)檢索、整合及推(tui)理能力,在視(shi)頻分類(lei)、檢索、問(wen)答等基準測試中(zhong)展現出(chu)一定性能優勢。
而800萬美元種子輪(約合(he)人民(min)幣5730萬元)融資的完(wan)成,也體現了投(tou)資機構對(dui)該技術方向的關注(zhu)。