車東西(公眾號:chedongxi)
文 | 摩拉
隨著汽車智能化水準的提升,人車交互也成了一個關鍵命題。但目前正在快速普及的語音交互、手勢交互等技術,并沒有讓車內交互體驗帶來質變,其更像是現有交互方式的補充。
那么人車交互的未來發展方向究竟在哪里呢?對此,一些領先的AI和汽車公司給出的答案是多模態交互。
即車輛通過對語音、圖像、位置、溫度等多種信息的融合處理,更主動、更深入地了解乘客的信息,從而主動對其進行關懷、推送相關的內容/服務,并改變車輛設置。
今年上海車展期間,國內知名的AI芯片及解決方案公司地平線就在其自動駕駛產品之外,首次展出了多模態車內交互解決方案,包括語音交互、車內視覺感知、多模唇語命令詞、多模情緒識別、多模身份識別等多項細分技術,算是開辟了汽車業務的第二戰場。
在隨后的CES Asia上,地平線還宣布與理想汽車達成合作,向其首款量產車理想ONE提供多音區解決方案,意味著地平線的多模態車內交互解決方案將步入量產階段,與地平線的自動駕駛系列解決方案一道,成為地平線邁入汽車產業大門的兩大核心武器。
今年CES Asia期間,地平線多模交互產品總經理張宏志在車東西主辦的智能座艙專場論壇發言后,與算法研發部副部長牛建偉一道,接受了車東西的獨家專訪,就地平線在汽車領域的整體布局、多模態車內交互解決方案的技術細節,以及其解決多模交互核心難題的方式等關鍵問題進行了闡述。

▲張宏志在車東西主辦的智能座艙論壇上發言
透過這次專訪,既讓我們看到了地平線在汽車領域的具體打法與發展策略,也向外界透露了其在車內多模交互這一前沿領域具備的核心技術水準,意義重大。
一、發布AI on Horizon戰略 兩大業務邁入智能駕駛
4日16日至25日,第18屆上海車展在上海國家國際會展中心拉開帷幕,在一眾汽車廠商的展臺之中,地平線的展臺格外顯眼。
雖然不是整車企業,但在地平線看來,其未來命運已經與汽車產業深深地綁在了一起。
在當日的新聞發布會中,地平線創始人、CEO余凱正式對外界發布了AI on Horizon戰略,核心是做智能汽車時代的底層AI技術賦能者,向車企、Tier1等伙伴提供芯片、AI算法、工具鏈、場景SDK等全套技術支持,幫助其打造基于AI技術的應用與服務。

▲余凱在上海車展期間發布AI on Horizon戰略
地平線的核心業務聚焦基于邊緣AI芯片和核心算法的解決方案的研發,可以在汽車、AIoT等多個領域應用,汽車領域其此前主要圍繞自動駕駛計算平臺以及相關的核心算法。
今年上海車展期間,地平線除了展出一系列自動駕駛相關產品外,還首次展出了其自主研發的多模態車內交互解決方案,基于其自主打造的征程2.0 AI芯片架構、多模態融合算法等技術,可以綜合處理視覺、語音、車身傳感器等多種信息,形成對天、地、人、車的物理世界到數字世界的建模。
這些數字化的建模能夠推動面向汽車用戶的服務和推薦更加精準化、主動化和人性化,并且跟車身功能進行深度整合,車身功能被全面賦予智能能力,從機械的物理功能轉化成智能化服務功能。
這也就是說,地平線在自動駕駛業務之外,同時也更加注重代表人車交互未來的多模態車內交互業務,算是開辟了汽車業務的第二戰場。車東西本次對話的主角張宏志和牛建偉,則正是車內交互的業務和技術負責人。
一個有趣的細節是,自上海車展后,地平線在對外宣傳其車內交互技術時,重點都放在了多模態車內交互層面,并且張宏志的Title,也從此前“地平線車聯網事業部總經理”變為了“多模交互產品總經理”。
地平線對車內多模交互技術的重視程度可見一斑。
那么一個關鍵問題是,地平線的多模態交互方案具體有哪些功能來幫助提升車內交互體驗呢?張宏志和牛建偉各講了一個例子。
第一個是唇語+語音的多模交互技術。
此前的語音交互技術,受到行車中胎噪、風噪、其他人交談等噪音影響,容易產生漏聽、錯聽的問題,而有了這種多模交互技術,車輛可以通過對收集的聲音和乘客唇語的綜合處理,確定是哪個乘客在說話,以及其說話內容。
第二個是駕駛員疲勞監測與分級。
為了讓車輛更加主動的了解駕駛員和乘客的狀態,駕駛員或乘客監測系統逐漸開始量產裝車,其中一個重要應用場景就是駕駛員疲勞監測和分級。

▲地平線的車內多模交互技術展示
為了實現這一目標,將對駕駛員的視線、眼神、表情、頭部方向、是否打哈欠、是否喝水等多種信息融合進行處理,就既可以了解駕駛員是否疲勞,同時還可以了解到其疲勞程度。
此外,牛建偉也表示,未來的多模交互解決技術將實現車內信息的協同融合,例如車內傳感器感知駕駛員的狀態,車外傳感器了解目前的天氣、溫度、地形等信息,綜合給用戶推薦相應的音樂和車內溫度等。
二、簽約理想 車內多模交互技術已步入量產階段
上海車展亮相之后,地平線在CES Asia期間還宣布向新造車公司理想汽車的首款量產車理想ONE提供車內多音區語音交互解決方案。
即通過四個車載麥克風,以及地平線研發的聲源定位、盲源分離和降噪算法,對不同乘客的語音指令進行精確區分和識別,進而助力理想汽車實現更加智能的語音交互體驗。

▲地平線為理想ONE提供了車內多音區解決方案
雖然這個多音區解決方案只是單模態交互技術,但其實它也是地平線車內多模交互解決技術的一個細分技術。
這次合作,既說明地平線的車內交互技術獲得了理想汽車這種知名新造車公司的認可,同時也說明其車內多模交互技術,正式步入量產階段。
據張宏志介紹,理想ONE在年底即將交付,時間較早,是地平線車內交互技術走向量產的重要合作伙伴。
地平線在過去幾年的業務拓展過程中,在自動駕駛、AIoT等領域的合作基礎上,車內多模交互技術已經與多家國內外Tier1和車企達成合作,加上后裝車載智能設備,總計已經有幾十個合作伙伴,后續也將有更多車輛搭載地平線的車載多模交互技術方案陸續上市。

▲地平線與首汽約車達成戰略合作
正如前文所言,多音區方案只是地平線車載多模交互技術的一個細分技術,那么地平線的車載多模交互技術整體上能提供哪幾類產品和技術呢?
張宏志告訴車東西,總體來說分為四塊業務:
1、AI芯片能力
這是地平線最基礎的業務,客戶可以基于地平線第二代AI芯片征程2.0,單獨打造語音、圖像類的AI應用,或是語音、圖像等多模態融合處理的AI應用(多模態交互)。
2、算法能力

▲地平線車內視覺AI算法
基于AI芯片,地平線團隊在圖像、語音領域也研發出了最底層的AI算法,例如前面提及的四音區方案、離線喚醒、駕駛員監測、表情識別等技術,都可以單獨或打包輸出給合作伙伴——例如理想ONE搭載的都是四音區方案。
3、打包的多模態交互解決方案
正如文章開頭所言,車內交互技術的未來就在多模態交互層面,對于集中在應用和服務創新為主的車企和高度集成化為核心競爭力的Tier1來說,選擇包括芯片、語音與圖像算法在內的打包方案,是一個非常便捷的做法,能夠加快車型的量產時間和創新迭代速度。

▲地平線可提供軟硬一體的車內多模交互解決方案
4、開放工具鏈
為了更好、更快迎接AI時代的到來,地平線將軟硬結合、面向場景的AI解決方案經驗通過工具鏈共享給行業和客戶。
對于那些擁有較強AI研發能力的大型車企和Tier1企業來說,有能力從頭打造自己的多模態交互產品,為此,地平線提供豐富的工具鏈,方便其基于地平線的底層算法,研發自己的技術和產品。這是地平線的AI on Horizon戰略核心體現,充分開放賦能,向行業客戶共享經驗和能力。
與電子產品不同,汽車上搭載的相關軟硬件技術都有嚴格的車規級要求,那么地平線的這套多模交互技術解決方案,在軟硬件上是否達到了車規的要求呢?
張宏志表示,其多模交互技術使用的地平線征程2.0 AI芯片是面向車規級要求進行設計的。按照地平線的規劃,未來L3級自動駕駛時代,其多模交互系統,則將達到ASIL B級功能安全標準。

▲地平線展出的駕駛員監測技術
滿足車規之外,想要實現技術上車的另一個難題則是成本足夠親民。
對此,張宏志透露其打包的多模態交互解決方案目前的成本在上百美金,即數百人民幣的程度,現在比較貴。但隨著規模化量產之后,會迅速下降到幾十美金的水準,可以實現普及。
“地平線從一開始就要做成本可接受的產品,比如我們的芯片就追求高性能、低功耗,強調性價比,同時也注重提供軟硬件一體化的能力,并向合作伙伴提供工具鏈,實現開放式賦能,這些都是實現技術平民化的關鍵能力。”張宏志總結道。
三、長期積累、自主研發 三招攻克多模態交互融合難題
此前,語音交互或者手勢交互,都是讓AI算法對語音或者圖像某一具體模態進行處理,進而給出反饋結果。而多模態,則是說讓AI系統將語音、圖像甚至是嗅覺、觸覺等更多模態進行融合處理給出反饋。
現階段實現多模態交互有兩種技術方式,粗略來說即結果融合式和底層數據融合式。
結果融合式就是說系統先對語音、圖像等模態分別進行處理,得到每一個模態的處理結果后,再匯總所有結果綜合判斷。
底層數據融合式則是說用一個“超級算法”,直接對獲取的語音、圖像等不同模態信息進行處理,進而給出判斷結果。
前者的實現方式較為簡單,但多了一步處理速度較慢,且模態之間的信息不是綜合處理,難以獲得更加深入的處理結果。
后者雖然克服了前者的缺陷,但因為現在絕大部分深度學習模型都只能用來處理語音或圖像等一種模態信息,技術研發難度大大提升。
那么作為一家專注在芯片和底層AI算法領域的知名公司,地平線走的是哪一種技術路徑呢?
“當然是底層數據融合模式。”牛建偉說道,“在數據處理層面實現多模交互,不僅是算法問題,更是涉及到傳感器、芯片、軟件的系統性問題。”
據其介紹,地平線多模交互技術團隊基于地平線在芯片、視覺AI技術、語音AI技術方面的積累,歷時1年多的時候,通過三大招數,研發出了在底層對數據進行融合處理的多模交互技術,他以目前最普遍的音頻(語音)、視頻(圖像)融合處理技術進行了詳細介紹。
1、重新設計傳感器
現有的攝像頭、麥克風輸入的視頻幀率為30幀,音頻為100幀,無法完成時間同步,即無法進行后續的融合處理。
而要解決這個問題,就是提升攝像頭的視頻幀率,實現多路音頻和視頻輸入,并且還要具備更大的帶寬與高效的壓縮模型。
2、升級優化計算芯片
由于多模處理需要處理更高幀率的多路音頻、視頻信號,并且還要用特殊的神經網絡層來抽取特征做對應,因此計算量較單純的音頻處理來說,相當于是提升了一個數量級——從幾十GOPS提升到了幾百GOPS。
因此地平線多模交互團隊也對地平線的征程芯片進行了一些優化升級,以更加適應車內多模交互應用。
據牛建偉介紹,地平線的征程2.0 AI芯片具備非常高的AI等效算力,能夠充分滿足多模交互算法的算力需求。
3、特殊編碼算法實現綜合處理
現有的神經網絡只能用來處理同一類型的信息,因此無法對音頻和視頻進行融合處理。
在有了合適的硬件后,地平線基于此研發出了一套多模交互算法,即先用一個編碼器分別對音頻、視頻信息進行編碼,變成同一類信號,然后再將其映射到一個高維空間,這樣就能將其放在同一個神經網絡里進行處理。
“實現多模態車內交互技術的研發,離不開地平線此前在AI芯片、以及語音處理、圖像處理等方面的積累。”張宏志最后強調道,“只有將AI芯片、語音處理、圖像處理等每一項細分技術打磨好,才能實現不同模態數據的融合處理。”

▲地平線美國研發中心
據其介紹,地平線目前總計有1000多正式員工,其中有四五百人都在從事AI芯片、底層AI算法等工作,而在智能駕駛這個應用方向,又有數百人的團隊在做相關工作,這些算下來,相當于有大幾百人在為汽車領域的技術工作,規模相當之大。
結語:一家有真實力的多模交互技術供應商
在與張宏志和牛建偉交流完后,車東西有一個非常明顯的印象,就是地平線是一家有真實力的多模交互技術供應商,體現在三個方面:
第一,基于地平線在AI芯片、語音處理、圖像處理等方面多年的積累,過百人的團隊在1年多的時間攻克了多模交互的核心難題,實現了語音、圖像等不同模態信息在底層的融合處理。
第二,針對車內出現的不同行車場景,其將多模態車內交互解決方案分成分區降噪與拾音、手勢識別與跟蹤、表情識別、多模唇語命令詞、多模情緒識別等多個典型細分場景的技術,方便車企按需選擇。
第三,在4月份剛剛展出多模態車內交互解決方案沒多久,地平線就迅速與理想汽車等企業達成合作實現量產上車,說明其技術實力已經達到一定水準,獲得合作伙伴的認可。
而隨著理想ONE項目的逐漸落地,未來也將有更多車型搭載地平線多模態車內交互解決方案上市,讓地平線為更多新車的智能升級轉型提供AI動力。
不遠的未來,隨著L3及以上級別自動駕駛技術的逐漸落地,地平線的多模態車內交互解決方案也將與自動駕駛系統逐漸融合,讓汽車真正變成一個機器人,不僅能幫人類駕駛,還能像朋友一樣,對乘客進行多方位的關懷,實現有溫度的出行體驗。