智東西(公眾號:zhidxcom)
編輯 |?李水青

智東西6月4日消息,近日GTIC 2021嵌入式AI創新峰會在北京圓滿收官!在這場全天座無虛席、全網直播觀看人數逾150萬次的高規格AI芯片產業峰會上,來自產業鏈上下游的16位大佬共聚一堂,圍繞嵌入式AI的軟硬件生態創新、家居AIoT、移動機器人和工業制造產業4大版塊地圖,帶來了深入淺出的分享。

會上,閱面科技聯合創始人&CEO丁小羽帶來題為《面向智能家居的嵌入式視覺之旅》的演講。閱面科技是我國嵌入式視覺識別技術領域的新銳玩家,其創始人丁小羽曾任卡內基梅隆大學機器人所助理研究員,回國創業幾年,一直在做嵌入式視覺在民用領域的落地,丁小羽把它看作是團隊的一個旅程。

閱面科技丁小羽:自然人機交互成智能家居主題,多模態技術融合日益重要

▲閱面科技聯合創始人&CEO丁小羽

丁小羽談到,閱面科技的嵌入式視覺技術發展經歷了四個階段:

一是AI和算力的適配階段,二是AI和傳感的融合階段,三是行為/健康AI智能終端階段,四是全屋智能的感知基礎階段。

其中在行為/健康AI智能終端階段,閱面科技主要開發創新型硬件,整體地設計人機交互,以智能終端的形式部署,讓設備能主動感知人體行為動作和生理體征等狀態。

而在全屋智能的感知基礎階段,閱面科技的目標是實現智慧的人居環境。丁小羽認為,家庭AI擁有隱私數據規范、應用形態靈活、交互親切自然等特點,超越人眼視覺的AI傳感融合有很大機會。

“盡管目前智能家居還處于初期發展階段,但智能家居服務最終會從數字化空間走到機器人服務的物理空間階段。”他談到,在這一階段,人和系統的自然交互已成為智能家居發展的主題,超聲波雷達、熱成像等傳感技術的融合越來越重要。

閱面科技丁小羽:自然人機交互成智能家居主題,多模態技術融合日益重要

以下為丁小羽演講實錄整理:

大家下午好!

回國創業這幾年,我跟團隊一直在做嵌入式視覺在民用領域的應用落地,我們把它看作是團隊的一段旅程。今天跟大家來做一次分享,談到我們做的工作及一些比較個性化的體會,很難說是“正確的”,但希望對大家有幫助。

一、自然人機交互成智能家居主題,閱面科技選擇嵌入式視覺

丁小羽首先談到:

跟很多在座的朋友一樣,我們從這點出發, 從實驗室的圖像識別做起,去往全屋智能、智能家居的方向。

我們把智能家居看作是一個方向,而不是一個行業,看作是一個大家都想去追求的更懂你的家——這個家可以感知人的需要,去理解人的需求,恰如其分地提供服務。(比如)我回到家的時候想做一件事,打開窗簾、聽一首歌,并不想在手機18個APP里面找到應該用哪個,也不想跟手機說話,并不自然。

我們朝著這個方向,沿途經過了跟芯片的結合,做到把實驗室的GPU服務器上的算法做到嵌入式芯片上,把(視覺識別)模塊用到像人臉抓拍攝像機、門禁閘機的行業應用上,一步步小型化。去年,我們開始大規模進入家庭場景,比如將3D人臉識別做到門鎖上。

現在我們看家庭AI服務這里怎么走還是一團迷霧。智慧的人居環境是大家都想去的方向,有人從“開關上網”去做,有人從智能音箱去做,我們則從嵌入式視覺這條路去走。怎么過去是未知的,但這也是有意思的地方。

一個團隊的出發點非常重要——人都有路徑依賴,有時候是自己知道的,有時候是不知道的。現在回想起來當時出發時的環境,其實深遠地影響我們對事情的認知,包括(處理問題)一些思維習慣。

比如,當時我們出發的時候,大部分是靜態圖片的識別,目前大部分的網絡設計在交互過程中也還是靜態的,只是在時間域上加權策略性的方式。當時,端到端剛剛興起的時候,我們應用到實際環境中發現,真正要在成百上千萬的設備上都得到不錯的效果,其實理解整個決策過程的網絡可解釋性是非常重要的。這是當時的環境決定,導致現在需要克服的一些問題。

二、撥開家庭AI服務迷霧,閱面科技走出的四程路

隨后,丁小羽分享了閱面科技在嵌入式視覺這個方向上走過的四程路。

其演講實錄如下:

1、第一程:AI和算力適配,講求精準打擊

帶著這些問題,我們第一程做的是把實驗室GPU集群上的視覺計算搬入到嵌入式設備上,抽象層面做的是AI和嵌入式算力的適配。 上午聽了很多嘉賓分享算力這塊,大家已經開始在反思,非常同意算力不是評價芯片的唯一標準,甚至不是一個最重要的標準。

分享一組數字,最早做VPU視覺模組的時候,芯片算力0.1T,今天看來是很小的數字,當時我們已經可以做本地的連續無感人臉檢測和追蹤,在抓拍機這些應用上可以運行的很好。現在,算力已經翻了幾十倍,甚至芯片價格還變得更低。

今天跟大家分享一點,對AIoT智能家居的應用來說,還是要講精準打擊的,最適合這個場景包括I/O、存儲各方面,綜合性能要最適合,算力是其中可以說是比較小甚至有些資源過剩的一塊。用超過十余家的芯片公司做過量產產品,甚至我們覺得做這個事情不是為了賺錢,只是為了跟芯片圈交個朋友而已,今天很高興認識更多芯片圈的朋友,大家一起朝智能家居方向更進一步邁進。

目前有超過兩百萬臺設備使用閱面的嵌入式AI方案,像智能門鈴和智能門鎖等,去感知人、理解人。這里我們做的只是是智能家居方向很小的一塊,把原來在實驗室集群上做的事情搬入到嵌入式芯片上去。整個過程還是有很強的路徑依賴,過程還是靜態的、單向的。具體來看,模組我們當時做近景和遠景兩個版本,多核異構當時還是很新的詞,現在很多芯片都已經這么設計了。

(當時視覺模組)典型應用主要是社區級的安防,工作主要是模型檢測、底層硬件的加速框架、低比特量化、模型剪枝。現在好像并不需要自己寫底層硬件的加速框架了,但算力適配這個事情主要框架還是當時那套,本質提升并不是很多。右邊圖上是用在門禁上的模組——兩個攝像頭混合雙目攝像頭,通過多模態的方式把人和照片區分開來,這是我們做模組過程中發現比較有意思的事情,引出下邊AI與傳感融合的話題。

閱面科技丁小羽:自然人機交互成智能家居主題,多模態技術融合日益重要

2、第二程:AI與傳感融合,可量產性面臨挑戰

(談到實際應用中),從實驗室出來我們的環境不再是靜態圖片,而是真實場景——真實場景中蘊含豐富信息,“AI跟傳感融合”這個事情變得非常重要。

2017年,我們開始把越來越多的重心放到傳感融合上面,3D是其中一塊。要抓取場景中更豐富的信息,要超越人眼視覺能力,可用到的傳感技術很多,像3D成像的各種技術實現,還會用到毫米波、超聲波雷達等。

創新傳感技術可以定義更豐富靈活的識別功能,(比如)可以做金融支付級的活檢安全標準;在隱私敏感場景使用,在拍攝用戶時身份脫敏“去ID化”;適合用到老人看護等場景當中去。

我們今年投入了比較多的時間來做健康傳感方向,通過非接觸無感方式去持續監測人的呼吸和心率。設計過程中比較有意思的地方是神經網絡和ISP功能打通,芯片公司也在用神經網絡做ISP,做完以后成像結果給我們,我們這邊再用神經網絡做視覺結果,很自然大家想有沒有可能把兩個網絡合成一個網絡去做,這里我們積累了很多聯合優化經驗。

前面談到意識到和擺脫路徑依賴很難,算法團隊傾向于用模型調參去解決問題,即使傳感成像方面的優化有時更容易提升整體效果。同時考慮整個方案的可量產性,因為涉及到AI跟傳感的結合、特殊攝像頭標定等等因素,面臨非常大的挑戰。

抽象層面是在做傳感融合,具體工作這里舉例3D人臉識別的門鎖模組。那用在智能門鎖上,最主要的功能還是幫助智能門鎖刷臉開門。同時希望有超長的帶機時間、單次換電希望用6個月以上,并且流暢、安全。

這里是我們新版模組的實測數據顯示,從上電啟動到電機解鎖,即門可以推開大概要2秒鐘時間。大家可以看到,跟算力最相關的活檢和識別部分的整個時間只有300毫秒,其實并不是系統的瓶頸。而內存加載等部分其實是越來越限制時間進一步優化的瓶頸。我們希望智能門鎖達到的體驗目標,就像大家過高速收費站一樣,需要減速,但是不需要停頓就可以進到自己的家門。一般門鎖在人距離1米的時候感應觸發,人走過去的時間1秒,那目前水平在門前需要停留1秒,這1秒就是接下來要優化的空間。我們希望跟產業鏈一起努力,在芯片的I/O設計、量化方式和模型怎么做得更小等方面有所突破。

閱面科技丁小羽:自然人機交互成智能家居主題,多模態技術融合日益重要

3、第三程:AI智能終端階段,整體設計人機交互

第三程,講到傳感融合我們進入智能終端階段,強調整體性而不僅是一個模組。

回顧2016年我們剛開始在行業推出嵌入式AI方案的時候,業內容易接受的方式是做功能疊加,把一套算法或者模組附到傳統的設備上,設備本質上還是一個門禁機等傳統功能,只是具備了人臉識別功能。

到第三程階段,算力和傳感的基礎具備一定條件,我們可以做創新型的智能終端,從整體去設計AI嵌入式能力和人機交互交互過程。

大家分享兩個具體的例子:

(1)AI嬰兒監護器,我們通過毫米波雷達等創新的AI傳感融合技術,可以持續無感做睡眠周期的統計,體溫、呼吸、心率的監測、異常事件的預警,這個產品邏輯是通過改善嬰兒睡眠來改善整個家庭的睡眠,也很好的體現了我們想實現“有溫度的技術”理念。

(2)3D行為識別相機,目前還用在行業場景,我們做技術積累,希望很快能用到家庭上面。如圖這里做了遠距離的3D行為分析,可以在10米范圍用世界坐標做精準的測量和分析,人和物的相距狀態等。這個設備在不遠的將來有望在功耗和成本上小型化,做到家庭場景3D感知終端。

閱面科技丁小羽:自然人機交互成智能家居主題,多模態技術融合日益重要

4、第四程:全屋智能感知階段,構建家庭AI中心

第四程,方向是全屋智能,但是路徑上還不清楚,如圖上的迷霧。

我們想要實現家居智能的一個“空靈”境界——用戶回家后是“空”的,不需要打開手機找APP,開窗用哪個APP,開燈用哪個APP,不停地跟它說話指令它,而是環境感知人理解人提供服務,智能硬件都是很有“靈”氣,可以恰如其分提供服務,打造家居智能硬件朋友圈。

如圖我們看智能家居發展這幾個階段,感知階段就像我們做的人臉識別門鎖可以主動識別門前情況,主動開門和關門。數字化服務階段,像小孩回家等事件可以通過微信小程序的方式推送到用戶手機上。之后產業界會把這個服務從數字化空間延伸到物理空間,提供機器人服務,而這里我們做的是其中整個全屋智能的感知基礎技術。

我們設計的整套系統包括家庭的AI中心、連接存儲和計算的功能和一系列智能終端矩陣。我們從嵌入式視覺這個角度來做,一些各種形態的智能攝像頭,以各種各樣的形式,比如門鈴門鎖,會議攝像頭和臺燈等嵌入家居環境。

家里會出現越來越多的智能攝像頭,初聽來可能會覺得這個事情有點可怕,其實大家每天都隨身帶著幾個智能攝像頭。家庭AI的影像數據逐步應用規范化,數據加密和去ID分析等隱私安全技術應用趨向成熟. 同時以家庭專屬AI系統的方式提供高頻、剛需、訂閱服務,數據隱私規范性基礎上提供便捷。

閱面科技丁小羽:自然人機交互成智能家居主題,多模態技術融合日益重要

三、前半程關注軟硬一體,后半程關注傳感融合

我們前半程關注軟硬一體,算法怎么搬入到嵌入式芯片上去,后半段傳感融合,結合創新型的熱成像技術、毫米波雷達等傳感技術,在場景端抓取豐富信息,再往后的主題應是用戶交互和系統服務. 從應用場景出發不斷調整關注重點。

家庭AI場景的隱私數據需要規范,應用形態也比較靈活。這里靈活性對芯片公司提出很大的挑戰。我們看到門禁道閘等行業應用對嵌入式AI芯片的要求一段時間是穩定的,也確實出現了切入點準確長期成功的芯片。而家庭場景的AI應用變化很快,芯片需要應用到設計時沒有考慮甚至還不存在的具體場景,這就特別需要跟算法結合以適應靈活性的挑戰。

現在我們已經看到可以做咖啡的機械臂,AI服務正在從數字空間開始逐步延伸到物理空間,在這個過程中AI融合3D傳感技術是越來越重要的一個方向。

此外,仿生是一種設計參考而不是限制,超越肉眼可見才有更大的機會。我們可以從數據的角度,大數據推斷當前的狀態和正常的區別,也可以從傳感的角度,從超聲波雷達檢測到人的呼吸角度去超越一般的肉眼可見的水平,提供家庭場景定制化的產品和服務。

從算力和傳感的介紹也可以很明顯看出,我們今天做的這個事情依賴產業鏈的共同進步。我們也一直在行業里面尋求優秀的同行者,特別像嵌入式AI芯片的公司、創新傳感的公司,大家想去的方向一致,路徑有別,希望在各個階段可以深入交流,相互促進。

以上是丁小羽演講內容的完整整理。