智東西(公眾號:zhidxcom)
編輯 | 云鵬
智東西5月12日報道,近日,由智一科技旗下智能產業第一媒體智東西與AWE共同主辦的GTIC 2023全球AIoT智能家居峰會正式在上海舉辦,13位重磅嘉賓帶來了10場精彩演講,全景式解構了新一輪家庭智能化變革。
峰會以“互聯新世界 智能新未來”為主題,圍繞智能家居產業近期熱點大模型ChatGPT和智能家居行業新標準Matter1.0的落地、全屋智能、家電智能化三大熱門話題進行深入探討。
當下,以ChatGPT為代表的AI大模型技術正從交互、內容分發、文本理解等多方面影響智能家居產業發展,用戶可以獲得更加定制化的個人體驗。個性化的全屋智能改造風潮走進消費者群體,全屋智能賽道玩家們逐漸從以空間為主轉向以人為主的場景化智能家居生態建設。智能家居單品,也正在圍繞不同的應用困境,做出新的升級。
在本次峰會上,聆思科技副總裁徐燕松圍繞《生成式大模型潮流下,智能家居端側智能化的未來》進行了主題演講。隨著AIGC等新一代云端技術的突破,如何給市場提供更好體驗、更高效率、更高性價比的端+云智能化解決方案,讓用戶使用智能家居更便捷,成為產業鏈上下游共同探討的話題。
以下為徐燕松演講實錄整理:
我今天分享一下聆思對于“在深度式大模型的潮流下,端側智能家居應該有哪些改變和變化”這一問題的一些深入思考。
一、從芯片、解決方案到一站式平臺,用一攬子方案,完成設備智能化升級
聆思科技是一家是基于智能涌現時代的賦能者,整個聆思有四大塊業務,一塊是AI芯片,另一塊是IoT芯片。只有芯片大家用不起來,所以我們有對應的解決方案,圍繞解決方案我們會有研、測、產、制的工具平臺。

AI芯片需要與算法強耦合。我們經常可以看到傳統的芯片公司和AI芯片公司,最重要的是芯片和算法的耦合度,能不能做到極致的成本和算力“剛剛好”,算力的剛剛好和成本的剛剛好平衡。
第二,AI芯片因為是連接芯片,一定要做端云一體,設備在線智能的連接器,如果沒有連接芯片,大模型在云端上是沒有機會落地的。
第三是解決方案,我們可以看到云端有服務,我們端側需要有配套的一攬子解決方案,需要有符合不同場景的算法和芯片的耦合,如果不是耦合狀態的垂類方案,這個行業很難復制。
我們經常跟客戶聊,他說“你把音箱那個東西給我就行了,把空調那個東西裝我這上面就行了。”實際上幾乎是走不通的,每一個不同垂直品類功能和場景化注定需要單獨的解決方案。
第四,能研出來,不一定能產得出來。比如我們見過的某些客戶里,生產5萬臺語音設備,需要人在產線上“喊”5萬臺,來驗證整機語音到底能不能用。
我們認為能研還要能產,這是工業化最標準需要解決的問題。我們有一套工具平臺,包含研、制、產、測,這套一攬子方案全部打包在一起,從AI芯片到loT到解決方案再到研測產制平臺,交到客戶的手里,才能把一個設備從不智能升級為智能。
二、場景是AI能力與芯片耦合方案的試金石
我們經常在內部說語音是“玄學”,我們舉一個掃地機器人的例子,機器的制噪很高,掃地毯、掃地板、掃地磚,看似都是掃地,但是從聲音的角度來看、從設備的角度來是看完全不同的,進入到床底下、桌子底下的混響也是不同的,這些不同意味著你有沒有可用的跟場景可耦合的解決方案賦能到設備中去。

圍繞著場景需要的是AI能力,從基礎的研發平臺到系統級的SDK,到功能性的SDK,到算法的SDK,必須做耦合,耦合后呈現出來的是語音交互的解決方案、音頻的解決方案、降噪的解決方案、視覺的解決方案、教育電子解決方案,包括音視頻融合多模態的解決方案。
這些解決方案再繼續生長,生長到每一個垂直產品和垂直領域里的垂類方案。聆思一直在做的是解決方案工廠,這個工廠是賦能給行業和我們合作伙伴的。
我們有幾個核心的觀點:第一,有不等于可用;第二,可用不等于好用;第三,好用不等于易用。
只有易用客戶才會買單,否則沒有人買單。我們一直認為我們要從有到可用,一直到易用,都做到前沿技術的持續引領,所以我們也落地了很多場景。

三、ChatGPT智能涌現,實現七大智能維度突破,帶來六大重要變革
我們一直在討論,“沒有成功的企業,只有時代的企業”。剛才主持人和徐東生副理事長說了,現在家電已經有了很大的變革,大家都在討論大模型。我上一周到深圳參加深圳灣的創業會,突然發現從大工廠、大企業研發到小工廠都在討論一個問題:“GPT能幫我干嘛?”我真的覺得是全面GPT的感覺,連續開了三個論壇、兩個會,大家都在談這個事兒,茶余飯后不談這個事兒我可能就“OUT”了。
大模型時代帶來了很多驚艷的東西,確實帶來了智能涌現。首先我們認為對話式AI帶來了很大的躍升;第二,圖像輸入的時候多模態的統一語義理解能力持續上升,甚至已經到了可用和易用的狀態了。

給端側、設備和合作伙伴帶來什么?我們看到有7個方面重大突破:
第一,海量信息參數化全量記憶;第二,任意任務的對話式理解;第三,復雜邏輯思維鏈推理;第四,多角色、多風格長文本的生成。
前面跟很多嘉賓聊的時候說到,內部的小朋友說GPT大模型是一個話癆,它每次都回答我那么多,當然我們會對它進行優化,讓它有一個更合理、更精準的反饋。
第五,即時交互的修正能力會支持進化。我們經常會跟他說:“你說的不對,你重新想一下,上網上重新搜一下。”它會給你一個新的答案,具備即時交互的修正能力。
第六,程序代碼自動生成。我們做過很多測試,在安卓的平臺上,我們希望遷移到Linux,把規則告訴它,它可以自己做很多代碼生成。第七,輸入圖像的語義層理解。
大模型能給產業帶來什么?第一,是全面升級的人機交互。聆思的愿景是讓所有設備能聽會說,這是我們成立之初的愿景。讓所有設備能聽會說,首先需要有精準的、更好的人機交互方式,大模型給這個產業帶來重大的變革。

第二,革新內容生成和內容生產方式。大家在各個演示中看到了,也體驗到了。還有改變信息分發的各種獲取方式、虛擬世界和現實民生的一些結合、用AI做醫療,做很多分子陣列的測算。最后,我們會促進開發者生態的發展,因為這是一個共創的過程。
四、基于大模型的新一代多模態人機交互
當大模型給這個產業帶來重大發展變革和機遇的時候,聆思也在想如何給合作伙伴提供大模型新一代人機交互的解決方案。這是我們給很多合作伙伴提供的大模型新一代的多模態人機交互框架,把多模的識別,或者語音、圖像、視覺包含其他,會有輸入,我們同時有大模型交互里非常核心的提示功能。

我們自己內部討論一件事情,大模型用得好不好,先是你問題問得好不好,如果你問得好、越精準,模型的反饋越精準,所以我們叫做“提示工程”。
另外,我們把很多傳統的AI能力,比如翻譯、多語種、變聲,傳統的AI能力和內容的信源打包,打包完后有類似虛擬的中樞大腦,基于大模型業務的服務調動和內容分發融合,最后在端側有輸出層,端側輸出層可以看到有語音合成、虛擬形象、圖像合成、視頻合成,這是聆思基于大模型的端側給所有端賦能的內容和賦能的方向。
基于大模型多模態人機交互,我們認為有五點可以明確讓大家拿來用的。

第一,多輪對話的貫穿能力。很多傳統設備,我們經常說容易“把天聊死”,現在大模型的多輪對話的貫穿能力可以進行意圖識別,滿足客戶的需求。
第二,知冷暖的共情閑聊對話能力。我們曾經討論一個場景,未來老人的陪伴和陪護,誰陪空巢老人聊天,誰提醒他吃飯、吃藥,誰去情感化、擬人化的思路或者交互方式去陪伴他,誰去呵護和關懷,這里面是有溫度的,而且我們認為意圖判斷的時候會把情感識別放到里面。
第三,基于文檔的新知識快速學習能力。比如一個烤箱的說明書,一個新的設備怎么用,把說明書給它,你可以問它怎么用,比如這個烤箱怎么用,怎么按鍵。
第四,無所不知的應用能力。從提問人的角色和關系角度理解分析問題。比如,今天提醒我要吃二甲雙胍,我今天還不太舒服要吃另外一個藥,但是這兩個藥互斥,機器可以告訴你。
第五,基于海量用戶的修正意見的進化能力。可以不斷地進化,比如我想打開空調,每次我最舒服的溫度是23度,我以后再打開空調就給我調23度,這是我的要求,告訴它每次自動設定,適合我的溫度,這種不斷修正客戶意見的進化能力。
基于大模型可以看到,傳統的智能家居里控制的時候是人設定模式,今天已經有了訪客模式、回家模式、就餐模式,我們有一個APP,大家在里面設置,有多少設備,有燈、空調、冰箱、照明、應急設備,設立一個模式以后說你幫我啟動一個模式,這是傳統的,未來不是這樣的。
這是我們做的測試,給我一個熱帶雨林的感覺,這是很模糊的模式,它知道我有什么設備,自己去安排,熱帶雨林是什么樣子,它理解的是什么樣子,比如說冰雪世界,我應該穿什么樣的衣服,今天股票怎樣,明天會下雨嗎,我今天心情不好,你跟我聊天,這些東西都是可以呈現的。
有兩個核心的點,第一是個性化的提升工程設計,該如何交付提示功能設置。第二是針對提示工程生成最佳的結果,比較寬泛。后面有一個視頻,也是我們在AWE現場搭建的一個視頻,大家可以在現場看到、體驗到、可以玩的。

所以我們認為新一代大模型會改變5件事情:第一,家庭信息充分掌握和利用越來越重要;第二,無所不至的小助理一定會出現;第三,專業家庭智慧管家未來會在我們生活中必然出現;第四,優秀結果的最佳呈現,無論是語音、圖像等呈現方式一定會有最佳的表現;第五,不同功能區凸顯專項智能,大模型是通用能力,在專項智能上大家才最希望看到的。

下面有一個視頻,大家可以看一下(播放視頻)。剛才視頻里我們應用了幾個部分:第一是端側變化,我們可以看到應用了女生的虛擬形象,每一句話的時候口型和字是對在一起的,包括會有一些動作和肢體的虛擬形象。第二是Smart TTS,這里面是一個常規的女生形象,我們可以基于不同的形象和不同情緒有不同的聲音變化。第三是大模型做了很多的理解、認知和推理。
我們在展館W3館有針對客戶定向邀約體驗的一套系統,大家可以去我們展館,親自體驗這一套設備,我們接了空調、燈、風扇、音箱這幾個產品,大家可以去現場模擬體驗,問了很多開放性問題,也很有意思。
以上是徐燕松演講內容的完整整理。