智東西(公眾號:zhidxcom)
作者 | 韋世瑋
編輯 | 漠影

夏至將至,和氣溫一樣持續攀升的還有TWS(真無線藍牙立體聲)耳機市場的熱度。

據業內機構統計,截至5月12日,今年已有25款品牌TWS耳機推出。僅在剛剛過去的5月,OPPO、vivo、華為、努比亞、小度等玩家也相繼推出TWS耳機新品,進一步加劇市場混戰。其中,前三位玩家的TWS耳機均支持通話降噪。

與蘋果AirPods帶火的主動降噪不同,通話降噪主要針對耳機中的麥克風,通過算法使麥克風收音更加純粹,而主動降噪主要針對揚聲器,算法圍繞用戶“聽”的過程進行處理。

隨著通話降噪逐漸成為當下各路玩家PK的主要功能之一,也出現了許多公司競相押注通話降噪賽道,各類解決方案百花齊放。

成立于20172月的大象聲科,則是專注AI智能聽覺技術賽道上一家頗具特色的企業,主要基于機器聽覺AI算法開發智能語音增強和語音交互解決方案。

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

近期,智東西也有機會與大象聲科的核心團隊人員交流,在了解他們創業故事、核心技術和發展路徑的過程中,我們也看到了當下通話降噪技術領域的發展現狀。

實際上,大象聲科的AI通話降噪算法最初被錘子科技創始人羅永浩看中,應用在了堅果手機上,隨即一戰成名,業務逐漸向智能手機、PC、車載聲場控制、智能家居、助聽器等多個領域拓展。同時,他們背后還有小米、高通等企業的投資。

今年4月,大象聲科還官宣了一筆超億元人民幣的B輪融資,由蘭璞資本領投,佳康科技基金、紫金港資本跟投。這是它成立四年多以來公開的第4筆融資。

下面是我和大象聲科戰略總監的交流干貨:

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

▲大象聲科公司團隊合影

一、硬核創始團隊加持,用AI拓展人類聽覺感知

“與機器視覺相比,現在機器在聽這件事情上并不夠智能。”大象聲科戰略總監談到,大象聲科成立的初衷就是希望通過機器聽覺技術,賦予機器像人一樣的聽力,比如說能解決經典的雞尾酒會問題。

何為雞尾酒會問題?簡單來說,當許多人同在一個場合內說話時,人類能通過注意力集中在某一個人的談話中,而忽略背景的其他談話或噪音,這也是人類聽覺系統的神奇之處。

但對機器來說,雞尾酒會問題是一個極其大的挑戰。因為聲波的重疊與互相干擾,讓機器很難在信號采集完畢后對它們進行有效的分離處理,機器難以像人一樣有選擇性地去聽某一部分聲音。

這就是大象聲科想利用AI技術解決的問題,從另一個角度看,就是將AI(人工智能)用于人類聽覺感知范圍的拓展,“這也是我們創始人們一直希望實現的目標。”戰略總監說。

青萍始于微末。實際上,大象聲科如今成績與其創始團隊的硬核實力息息相關。

大象聲科董事長兼CEO苗健彰是位80后的連續創業者,擁有西安交大通信與信息工程學士及加拿大UBC軟件工程碩士學位,曾在溫哥華RBCIBM等全球知名企業就職。盡管一路順風順水地走來,但苗健彰心底里仍保留著創業成事的夢想。

終于在2014年,苗健彰選擇了辭職下海,開始在溫哥華當地創辦科技公司。此時適逢AI技術在北美蓬勃發展,他敏銳地發現,在語音前端信號處理的技術鏈上游環節,存在亟待深入研發的技術難題。換言之,就是存在商業機會。

經過對市場和行業的廣泛調研與摸底,苗健彰更堅定了從事語音處理AI技術研發與落地的方向和決心。而他這股創業熱忱下對技術創新及應用落地的執著,也打動了時任俄亥俄州立大學終身教授,在語音人工智能領域處于全球領先地位的頂級科學家——汪德亮教授。

于是在2016年,汪教授成功加盟創業團隊任首席科學家,并引薦了其實驗室的訪問學者——時任內蒙古大學教授的張學良。一直以來,張學良教授在CASADNN等技術研究與落地實施等領域有深厚造詣,隨后他也以CTO的身份成功加盟。

隨著兩位行業大咖的加盟,并基于創始團隊對國內AI市場藍海的判斷與未來蓬勃發展的看好,20172月,大象聲科在深圳正式注冊成立。

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

▲從左至右分別為大象聲科董事長兼CEO苗健彰,首席科學家汪德亮,CTO張學良

目前除了深圳總部外,大象聲科在南京、上海、臺灣等地均有分部,整體團隊規模約70人,核心研發團隊占比超60%

基于學術界知名學者的深厚技術經驗和研究理論加持,大象聲科也開啟了機器學習語音賽道的新航線。

二、以AI通話降噪為核心的技術城池

技術是立足之本。在公司成立之初,大象聲科就瞄準前端信號處理賽道,率先將深度學習技術應用到語音增強中。

在此之前,前端信號處理領域較為傳統的主流方案是基于穩態噪聲假設下,利用濾波器將噪音信號過濾掉,留下一部分相對清晰的語音信號。”戰略總監解釋,但這降噪效果非常有限,因為真實場景中存在的非穩態噪音如馬路上的噪音、咖啡廳內噪音和地鐵中的噪音等是不符合穩態假設的。

而以汪德亮教授的CASA研究為導向的AI流派,則利用AI將人聲與非人聲進行區分,從各類復雜的非穩態環境噪音中分離與提取出清晰的人聲,從而突破了傳統語音信號處理的瓶頸。

在這一過程中,降噪的技術難題從最初的單純過濾問題變成了一個分類問題。也正是基于這一差異化技術路徑,大象聲科逐漸構筑起了自己的技術壁壘。

算法方面,目前大象聲科核心聲學算法覆蓋智能降噪、回聲消除、混響抑制、語音喚醒、聲源定位、波束形成、聲紋識別、DHS深度嘯叫抑制等方面,為客戶提供一系列面向智能手機、藍牙耳機、PC、車載、助聽器等領域的智能語音增強和語音交互解決方案。

“我們的底層技術是通過AI去做語音信號處理,而通話降噪是我們技術落地的基礎之一。”戰略總監告訴智東西,面向不同的細分賽道和聲學結構,大象聲科還相應發布了一些列語音增強解決方案。

例如,大象聲科針對藍牙耳機推出的Vocplus Headphone解決方案,基于深度學習和計算聽覺場景分析理論而研發,能夠實時分離人聲和背景噪聲并提取清晰人聲,大大提升用戶在地鐵、商場、馬路等各類噪聲環境下的通話體驗。目前,該方案還擁有Al單麥、AI雙麥、AI三麥和AI單麥骨傳融合版本。

“整體來看,得益于汪教授二三十年來的研究經驗,我們的技術儲備非常多。”戰略總監提到,包括幾年后的技術路徑,大象聲科都有非常清晰的規劃,并較為清楚地看到技術的發展方向,以此不斷拓展公司的技術節點與業務布局。

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

▲大象聲科公司辦公區

三、創業之初的關鍵一役,業務拓展要啃最硬的骨頭

盡管擁有一支硬核的創始團隊以及不少前沿技術經驗,大象聲科在成立之初還是遇到了不少難題,融資就是公司起步的其中一道難關。

20181月,當大象聲科拿到由紫金港資本、摯金資本及狗尾草智能投資的天使輪融資后,如何推動技術方案落地是擺在他們面前的一大難題。

當時公司只是幾個人組成的小團隊,在沒有大客戶背書的情況下,我們是很難直接被小米、華為等手機大廠商認可的。”戰略總監回憶道,因此最初大象聲科在尋求技術落地方面屢屢碰壁。

對永遠有準備的新玩家來說,機會也許會遲到,但從不會缺席。恰逢當時的錘子科技正緊鑼密鼓地進行新產品研發,相對而言,老羅是一個喜歡嘗試新事物的人。”戰略總監說,因此錘子科技也率先嘗試將大象聲科的Vocplus Telecom智能通話降噪方案用在堅果手機上。

20184月,隨著大象聲科智能通話降噪方案在堅果手機3上量產,也讓小米、高通等廠商陸續看到了大象聲科的潛力與價值,客戶和融資機會隨之而來,而小米和高通也于20185月完成了對大象聲科的A輪投資,2018年也成為公司揚帆起航的重要一年。

同時在這一年,大象聲科的Vocplus Gaming上行方案還成功在努比亞紅魔Mars量產,并與高通聯合展示了基于高通驍龍855芯片的AI通話降噪方案。

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

但手機并不是大象聲科AI通話降噪技術唯一的落地方向,從2019年起,大象聲科開始朝著更廣闊的業務邊界拓展。同年12月,其Vocplus Headphone方案首次在OPPO Enco Q1無線降噪耳機成功量產,正式打開耳機業務。

緊接著在2020年3月,大象聲科正式發布Vocplus PC方案,并成為首個在Intel GNA上運行的第三方語音方案商。這意味著,大象聲科的AI語音降噪算法技術再一次得到廣泛落地的機會,包括聯想、惠普、戴爾等計算機公司,都是其重要的已有或潛在客戶。

實際上,2020年對大象聲科而言也是一個重要的發展節點。

6月其單麥克風骨傳導AI降噪算法落地漫步者TWS耳機,到9月首次打入華為供應鏈,到年底聯想首款搭載其算法的PC在海外正式量產發布,再到2021年初同多家造車新勢力深度合作,大象聲科一路狂飆突進,AI降噪算法技術實現多點落地開花。

如今,大象聲科的朋友圈”已覆蓋高通、英特爾、Arm、恒玄等國內外知名芯片廠商,以及華為、小米、OPPOvivo、聯想、摩托羅拉等品牌企業。

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

不過,從手機到耳機再拓展至PC,大象聲科一步步切入市場的思考邏輯是怎樣的呢?

“我們的思路是要先啃最硬的骨頭,但這并不代表我們要死磕。”戰略總監談到,一方面,最難的方向也存在較大的市場空間,對公司發展來說是好事情;另一方面,從較高的難點開始起步,也能為公司帶來更廣闊的技術空間。

例如在TWS耳機興起之初,大象聲科認為AI降噪算法落地耳機的其中一個難點在于,AI算法本身的尺寸較大,不僅需要經過大量數據訓練以形成神經網絡,還對算力有較高需求。但耳機的存儲空間比手機小得多,意味著它能承載的算法尺寸也更小。

因此,如何將大尺寸算法“裁剪”成能放進耳機中的小尺寸算法,也是一個AI降噪算法落地耳機領域的一塊硬骨頭。

正是基于這一思路,大象聲科的業務不斷成熟拓展。自成立至今,大象聲科Vocplus AI智能語音增強與語音交互算法已賦能近億臺智能終端產品。

四、海外市場是重要業務方向,加速實現人聲之間分離

現階段,智能手機、藍牙耳機、PC領域和智能車載仍是大象聲科的主要落地方向,但每一個賽道對我們來說都十分重要。”戰略總監談到,從業務層面看,未來大象聲科也會逐漸朝AR/VRIoT、穿戴設備以及助聽器等對人機交互需求高的場景進一步延伸,持續拓展新平臺。

不僅如此,大象聲科還將進一步朝海外市場拓展。因為我們公司團隊本就擁有較為國際化的傳統基因。他解釋,同時包括摩托羅拉、聯想等在內的國際化品牌客戶,也為大象聲科的海外業務拓展提供了經驗,這也將是公司接下來的業務發展方向之一。

而在技術層面,大象聲科仍將專注于AI智能聽覺技術的研發與應用,加速在移動通信、遠程會議、藍牙耳機、助聽器、智能家居及車載聲場控制等領域的算法及專用芯片的研發。

被羅永浩看中后一戰成名,小米高通投資!這家AI創企牛在哪?

▲深度學習聲音分離技術的流程(圖源:IEEE Spectrum)

“我們要把基于AI做語音信號處理這件事情做到極致。”戰略總監說。

在他看來,現階段機器在聽覺方面仍然很“愚蠢”,這意味著也有非常大的空間和應用場景,可以用AI去做相關的語音信號處理工作。

“現在機器視覺領域的技術已經很聰明了,不過都主要應用在門禁、刷臉支付等場景,相對都是B端領域,但只要C端市場不爆發,機器視覺技術就很難實現井噴爆發。”戰略總監解釋,相比之下,當下的耳機等消費電子產品的火熱,也給人與機器聽覺的交互提供了更多的機會。

“如果AI技術能夠改變人與機器在語音交互方面的功能,這不僅能推動機器聽覺技術的成熟落地,也能更快地市場發展帶來更大的經濟效益。”他說。

結語:機器聽覺領域發展仍道阻路長

在智東西與大象聲科戰略總監的深入交流中,我們也看到一幅描繪著AI語音技術創新落地的商業藍圖,正在我們面前徐徐鋪開。

盡管與機器視覺技術相比,機器聽覺技術仍顯得較為年輕,但在其大量的細分賽道之下,許多玩家爭相入局,各類AI語音解決方案百花齊放,也為機器聽覺技術的發展注入了源源不斷的生命力。

相信在未來,這條技術長河中的每位玩家都能找到屬于自己的位置,共同推動機器聽覺領域的應用爆發、技術繁榮與發展。