智東西(公眾號:zhidxcom)
編輯?| 云鵬
智東西7月18日消息,近日,由智東西和智東西公開課主辦的GTIC 2022全球AIoT智能家居峰會(以下簡稱AIoT智能家居峰會)正式舉辦,10位行業重磅大咖就AIoT智能家居的技術突破、創新應用和行業展望展開了精彩的深度探討。
峰會以“新變量 新未來”為主題,采用線上形式進行,在全網16個渠道同步直播,線上觀看人數達到了90多萬人。
當前,家居場景是AIoT的重要落地方向之一,隨著智能化技術的快速發展,技術邊界不斷被突破,語音在新型人機交互入口中的作用越來越明顯。
在本次峰會上,阿里巴巴達摩院語音AIoT產研負責人田彪博士以《智能家居環境復雜聲學挑戰下的語音交互技術》為主題進行了演講,全面介紹了阿里巴巴達摩院在相關重要技術方向的思考和進展。
田彪博士以電視、音箱和室內機器人等家居場景下典型產品的研發實踐為例,介紹了聲學設計、麥克風陣列處理、遠場語音交互、語音模組和芯片等技術的設計思想與方案架構,如何通過技術的進步給用戶帶來更好更便捷的自然語音交互體驗。同時,他結合產業落地情況與研究進展介紹了下一代的產品和技術演進趨勢。
以下為田彪演講實錄整理:
我今天演講的主題是《智能家居環境復雜聲學挑戰下的語音交互技術》,主要會講三個部分,第一部分,在智能家居情況下,語音交互核心技術,包括技術產品化的情況,前面會講一下復雜聲學場景的定義還有模式化的概念。
第二部分主要會講解一下我們在語音AI這個方面,在算法層面核心的技術理念和進展。第三個我會把我們整個產品化的應用案例跟大家做介紹,同時會對我們后面的技術做展望。
不僅是家,包括公共空間,在整個語音交互的過程中都會受到很多聲學的挑戰性因素的影響,比如洗衣機、掃地機器人。家居過程中噪聲,對智能音箱或者電視上的語音交互,會造成噪聲影響。

除了噪聲之外,有混響的影響,包括干擾,因為家里可能有很多人,所以整個場景下,產品都會受到聲學因素的影響。
在車里面、家里面,更多的就是遠角方向性干擾會占比會更多一點。車里面整個空間會小一點,它擴散場的噪聲會強,但是混響會比較小。
我們在公共空間,混響也很高,整個擴散場的噪聲也很強,在不同場景下,聲學挑戰的每個因素的重要性是不一樣的,所以我們的技術方案,在算法層面對于不同因素會有不同的算法處理,整個算法會出現碎片化,應用方案會出現不同的設計。
具體來講,會涉及到具體應用過程中因素的影響,比如麥克風陣列的選擇,數字麥還是模擬麥,算法上復雜度更高還是復雜度更低,跟算法資源、芯片資源都密切相關,這就會涉及到芯片的選型、對于功耗的控制、對于用戶數據安全的保障,還涉及到云上的AI能力的對接,怎么去選擇不同的云的能力,方案碎片化會比較嚴重。
算法、芯片、云,不同的環節結合就沒那么緊密,會比較零散零散,這樣雖然很容易拼起來,但整個方案的語音交互體驗就沒有那么好。整個產品開發的過程就會有更多的困難,進度也會受一定的影響。
現在整個行業都在做類似的事情,就是怎么把聲學的技術硬件做模組化的設計,使得整個語音交互端側的核心鏈路能夠實現統一的封裝,這樣會使得整個方案進入平臺化的狀態。

這樣與硬件相關的技術和經驗能夠以統一的形式來被沉淀下來,客戶去集成語音交互能力的時候,能夠使用標準的接口跟API去對接,能夠大幅降低語音AI能力開發的難度,同時在這個上面也可以進行二次的開發,更好的去滿足特定產品的需求。
我們核心的產品形態會是語音交互模組,后面我會再更細節的去講一下,我們阿里云AI這塊整個的技術棧,整個語音交互鏈路都會去設計,包括端上的信號的處理、回聲消除、降噪波束形成、聲源定位,包含端側的喚醒命令值、快捷指令,包括硬件層面聲學硬件的設計跟服務。

云端上有很多我們傳統的語義理解、對話管理、語音合成、聲紋識別,在這個過程中我們會聚焦在核心的技術方向上,持續的去投入跟建設,盡量去推動技術邊界的擴展、技術深度的提升。
今天我會更多的去講我們在端上信號處理相關的算法的理念跟方案,設計就會使得我們整體上對于復雜聲學因素的影響,能夠盡量去降低整個算法的影響效果,整個用戶體驗也會變好。我們在聲學前端有三個核心理念,也有對應的技術方案。
首先我們要去解決前端處理,包括回聲消除、噪聲降噪、自動增益控制,傳統的三A技術都是基于自適應濾波信號處理的方法去做的,在現在這個時代,我們更多的會去結合信號處理的濾波,以及我們基于深度學習模型去做統一的方案,這個是我們大的理念,把回聲消除的線性部分,后處理部分跟降噪的部分,還包括自動增益控制的部分,使用 hybrid的架構,去把它融合,發揮模型的非線性建模的能力,以及自適應濾波對環境對資源開銷小的優勢。
整體而言,這個方案在我們的很多的模組對外輸出方案上都得到了實現,也能看到對于傳統的信號處理算法技術有非常顯著的提升。相關的技術方案,我們之前也參加國際比賽,拿到不錯的成績。看方案屬于國際上現在比較前沿的技術架構。
第二部分,我們會基于盲源分離的方案去把混響回聲消除、聲源分離,都通過盲源分離理論去統一起來。
同時我們在這一塊不僅會把前端的不同任務通過統一的框架去處理,也會跟語音喚醒去做進一步的聯合,使得喚醒的信息能夠反饋到前端來,能夠指導前端,讓盲源分離能夠處理得更好。
這樣的技術方案對于信道相關沒有做太多的假設,不需要有更多的經驗的要求,這樣就使得我們整個方案非常適用于小的陣列,也更容易被各種各樣的設備去集成,同時在各種場景下有非常好的適配性。
整體上從技術核心層面,使得我們整個算法方案有很強的適配性,能夠幫助我們去解決前面說的常見的技術方案碎片化問題。
第三就是說進一步的統一融合,會把視覺跟聽覺的能力進一步的融合。我們知道視覺對噪聲是非常魯棒的,它不會受噪聲的影響。但是語音算法無論你怎么去做,它對于強噪聲特別復雜的場景,還是有力所能不及的地方,這個時候如果能夠使用到視覺信息,非常有助于我們把整個語音效果做得更好。
如果我們有人臉的信息,我們可以把語音段里的人聲跟非人聲段做很好的區分,傳統的技術很難去做,性價比非常低,它很難去把語音跟非語音說明的很精準,但是視覺的話,能夠監控你的面部特征、唇動的特征,能夠區分語音和非語音。
做麥克風陣列的同學可能都知道,如果你能夠很好的區分噪聲跟語音的話,整個信號的噪聲統計量跟信號的統計量就能估計的更準確。
所以這一塊我們融合了視覺的信息,這三塊的技術,我們在最近兩年都已經發表了最新的成果,感興趣的同學和同仁可以去搜索一下我們阿里語音的論文,就可以看到更多的細節。
在識別還有合成層面,我們最近也在逐步推進,以前大模型大部分還是在云端去做服務的。端上一般我們以喚醒快捷指令離線的方案去做,但是對于大詞匯量的語音識別系統在端上來跑,尤其在嵌入系統上去跑,還是有非常大的挑戰的。
我們W語言實驗室基于我們自己研發的神經網架構得到端的語音識別框架,它可以做到非常小的尺寸,而且精度能夠做得非常高,能夠純文本地的實現的語音識別系統,在我們的淘寶直播的應用場景,在大概10兆以內的內存開銷下,就能夠去做到非常大詞匯量的語音識別系統,而且跟我們云端的效果非常接近。
我們在TTS方面,無論是模型的構造還是計算量層面,也做了非常多的技術突破,使得整個TTS能夠跟云端相媲美,整個技術核心的語音交互的技術也都往端上遷移。
總體而言就是說我們會把前端跟喚醒聯合建模,還有識別合成,我們面向復雜聲學挑戰下的語音交互技術,逐步在端上去實現全站的語音交互能力。
這是我們整體的模組方案的架構圖。我們會從OS層到 AI能力層,最后再到產品的形態以及服務。

我們的核心的邊界還是以模組的形式去服務更多的客戶,包括我們內部的天貓的客戶,也包括我們外部很多的客戶。
我們現在核心的有幾個型號的產品,高性價比的模組、算力更強的高性能語音模組、多模態的模組,會把我們之前前面講的統一的技術方案,整個語音交互技術,都會在模組形態上進行集成,這樣它能以一種模組的形態被集成到客戶的各個產品里面去。
然后是RTOS的系統,主要是面向音箱家電的產品,像廠商就會集成我們模組去構造它語音交互的能力,高性能的語音模組就會去處理非常有挑戰的場景,整個算法復雜度還會提升。
比如說移動機器人、掃地機,算法復雜度比較高,使用的麥克風也比較多,這樣我們有挑戰的家居場景下的設備,能夠去集成我們這樣高性能的語音模組。
多模態模組會面向公眾空間,剛才講的像地鐵車站它噪聲非常強,有些受人流的噪聲影響也很大。我們就會把本地的視覺的能力跟前面模態融合的前端算法融合起來。它核心特點就是性能比較高。
我們通過統一的建模方法,把混響完全分離,回聲消除都通過分離方案進行構造的話,它就能夠用比較低復雜度的設計,使得算法能夠在小的資源的芯片上能夠得到高性能。
另外它基于多核異構的芯片,使用的是RTOS的系統,所以成本來講也是比較有競爭力的。
另外我們也使極極功耗的喚醒,能夠使得整個系統處于非常低功耗的狀態,整個電流功耗水平能夠做的比較低,使得整個設備尤其電池類的設備,就能夠具有更好的待機時長。
在整個智能設備的打造過程中,會涉及到非常多的硬件聲學方面的工作。對于最終呈現出來的語音交互效果都有著非常重要的影響。
比如說麥克風如果質量不夠好的話,算法收到的信號質量就很低,整個算法效果處理之后也不會很好,最后語音效果也不好。比如說喇叭,最后對打斷喚醒都是有非常很大的影響的,所以在這個里面我們允許團隊提供聲學硬件研發設計跟量產的服務,包括原理圖的設計、電聲性能的測量測試,包括端到端的產線,還有性能調優。
我們也有消聲室、測聽室環境,使得我們在硬件層面也能夠為算法提供非常好的基礎。
我們的高性價比語音模組芯片,比如像小雅的音箱、早教機,包括兩輪車車載精靈設備,都集成了我們兩麥的模組跟算法,我們高性能的有更高復雜度的算法會應用在掃地機、機械狗,在移動高噪的場景下,我們會使用這樣模組,解決高噪大回聲移動遠場的挑戰。

我們的多模模組用的比較多的是地鐵線,我們17年就開始來做公眾空間的語音交互,以前像云端AI,一開始使用更多的使用是“close talking”的場景,在真正的公共空間能把語音交互很好的使用起來,我們做了比較早的技術突破跟產品化,也在全國各地的很多的地鐵線上都進行了落地。協同辦公的場景、電商的場景都能用到我們模組方案。
后面我主要會講一下我們最新的布局,達摩院的使命是要持續的去探索技術邊界,通過算法技術的進步,去解鎖語音在各種挑戰性新場景下的應用。
達摩院的技術創新全景圖,叫做懂你的語音AI,我們在公眾號上做了非常長的文章介紹,匯報我們整個中央端語音交互技術,向所有的同仁做匯報,大家感興趣的可以去搜索相關關鍵詞找到全文。

總體而言,我們會在前端通過聯合優化的聲學前端使得整個語音交互首先能夠聽清,涉及到非常多的信號處理聯合建模,語音增強喚醒的一體化建模相關技術的布局。
第二個就是說解決語音到文字的模態轉換,這樣我們會在統一語音識別的基礎框架以及嘈雜環境下來進行說話人的識別,在這方面工作也有很多進展。在GPS層面,我們會把它的高自然度、高表現力技術持續去突破。
在能聽到人的語音之后,我們拿到文本,會通過語音聲學NLP的聯合建模、標準學習的技術,使得我們整體對口語的語言理解達到更高的層次,真正實現語音交互能夠更懂你。
以上是田彪演講內容的完整整理。