2019年,對于所有人工智能公司而言,AI的規模化商業落地都是一道“魔考”。?
近日,搜狗公司做了一件事,向錄音筆硬件廠商開放搜狗聽寫服務,接入這一能力的錄音筆,就可以像搜狗AI錄音筆一樣智能,實現語音轉寫、實時互譯、智能編輯等功能。 ?
這件事乍一看平淡無奇,AI賦能產業也是老生常談的話題。但如果用時間線把搜狗布局AI的打法串起來,你會發現這一背后別有洞天。?
從最早的技術開放平臺搜狗“知音引擎”到硬件產品AI翻譯機、錄音筆,再到如今開放產品背后的AI服務能力,搜狗AI落地又進入一個新的階段,服務成了輸出的重點。?
搜狗AI交互技術中心總經理王硯峰的一句話更是直指AI商業落地的“痛點”,“只做技術是不夠的,沒有面向場景的深度優化,技術就是一種雞肋”。?
一、轉變背后:硬件打磨技術體驗,軟件搶占市場
早在2016年,搜狗開始做語音開放平臺“知音引擎”,并嘗試將技術推向行業,但探索一段時間后,搜狗決定暫時不將這條路作為主攻方向。
原因是時機不到。在AI平臺發展早期,軟件免費的思路還停留在很多人心中,“你給我技術,我幫你做品牌背書”成為一種早期玩法,再加上通用技術平臺的體驗并不理想,技術提供商沒有獲得行業太多認可。 ?
另一方面,面對百度、科大訊飛等玩家的語音平臺,盡管搜狗也有不錯的技術積累,但在生態資源的比拼上也并不占優勢。
因此,從2017年下半年開始,搜狗不再大力去推技術開放平臺,而是沉下心來將技術下沉,打磨場景與硬件,并在2018年上半年推出AI翻譯機和AI錄音筆產品。
?
以錄音筆為例,傳統的錄音筆功能單一,主要就是錄音。而搜狗AI錄音筆則不同,錄音后,它可以提供準確率高達95%以上的語音轉寫,還具備實時互譯、云端分享、中英同傳等多種AI 功能。憑借著語音轉寫和離線翻譯等方面優秀的表現,搜狗錄音筆上市后,短時間內就在多個電商平臺取得了單品銷量第一的成績,在這一領域構建了核心的競爭優勢。
與此同時,行業的觀念也開始轉變。行業一些玩家意識到,通用技術平臺雖然免費,但并不會針對具體場景做優化,往往導致產品體驗不足。在尋找更優的技術方案同時,行業為技術付費的意識開始增強。
這時不少公司主動找到搜狗,甚至包括一些硬件上的競爭對手,詢問能否購買搜狗的AI翻譯能力。王硯峰回憶道,“盡管提供技術平臺和提供服務能力都是ToB,但兩者的感受完全不同,最初行業都涌入技術開放平臺,但在方案上沒有誰真正不可替代,客戶可以在多家之間來回切換;但當你在一個場景形成獨特優勢、構建核心壁壘后,行業會更尊重你,愿意購買你的服務能力。”
這成為搜狗再一次轉身,改變AI的落地方向的導火索。?
隨著硬件之路的深入,搜狗意識到一個問題,在C端硬件市場,即使是最大的玩家,往往也很難占據50%以上的市場份額。這跟軟件完全不同,軟件可以發揮網絡效應,一家獨大,占據一個市場80%以上的份額。典型的代表就是手機市場的多品牌和安卓操作系統的一家獨大。?
此外,錄音筆是一個相對狹小的市場,我國每年的銷量均在400萬臺徘徊,并且這一市場有搜狗、科大訊飛等科技公司,還有索尼、愛國者等硬件企業,競爭同樣激烈。?
再加上搜狗是一家“技術范”十足的公司,線下渠道能力以及銷售能力相比傳統的硬件廠商并不占優勢。
這意味著搜狗很難在硬件上一家獨大。如何搶占更大的市場份額?如果硬件不能,軟件上是否有機會?經過搜狗內部一番思考,王硯峰認為,軟件這條路是有希望的,經過場景的深度優化后,即使面對BAT等互聯網巨頭,搜狗在AI翻譯、語音轉寫上也具有明顯優勢。?
因此,搜狗決定再往前邁一步,開放AI錄音筆背后的聽寫服務,為錄音筆行業提供OS系統,成為軟件服務的核心提供者。?
這是否又意味著硬件對搜狗的重要性會下降?王硯峰表示,硬件依然是主戰場,和AI一樣,都是搜狗的幾大戰略之一,因此硬件和開放服務對于搜狗同樣重要。?
在他看來,智能硬件和AI技術研究是密不可分的,硬件是AI技術的載體,AI是硬件產品的靈魂。只有面向用戶體驗,深入場景打磨技術,將技術、硬件、場景融合才能構建AI的競爭力。另一方面,開放聽寫服務,可以將搜狗打磨好的技術方案,以服務能力對外輸出,推動搜狗AI的規模化落地。
用硬件打磨技術體驗,用軟件服務搶占市場、規模化落地,這一策略正在成為搜狗AI新的打法,也體現了其對AI落地更深層的思考。?
二、“只做技術是不夠的,關鍵是服務能力”
回到錄音筆行業,我們今天見到的錄音筆,無論是外觀還是功能,跟2000年前后的產品并無太多變化。
也正是傳統錄音筆單一的功能、低頻次的使用場景,智能手機正在成為它的替代品,目前手機錄音APP已可以完成大部分場景的錄音,有力地沖擊這一市場的發展。?
這也導致錄音筆一直是個小眾市場,近幾年每年的銷量都在430萬臺左右,銷量一直停滯不前甚至一度下滑。而各家比拼的無非音質、電量、存儲空間的提升,至于用戶使用錄音筆到底做什么,背后的服務體驗如何,行業鮮有思考。
搜狗本次開放的聽寫服務,則依托自身扎實的AI技術和錄音筆場景的深度實踐。去年3月搜狗發布了一款AI錄音筆,經過用戶較長一段時間的使用,搜狗對海量的用戶行為數據進行深入分析后,第一次為行業呈現了用戶的真實畫像。?
?
搜狗發現,使用錄音筆的第一大場景并非大家預想的媒體采訪,而是企業內部的商務場景,比如會議記錄,占比高達44%;第二大場景是企業內部培訓,占比為24%;第三大場景才是采訪,占比21%,這三大場景加在一起占了錄音筆使用場景的90%。?
而且在使用錄音筆的用戶中,每周使用頻次超過三次以上的用戶占比達60%,每周超過10次的占比達15%;在錄音時長上,41%的用戶錄音超過10分鐘。 可見,大比重的用戶保持較高的使用頻次和使用時長。?
這三大核心場景也促使搜狗進一步思考,AI可以為用戶帶來什么價值。比如一場會議錄音可能長達數小時,語音轉成文字長達數萬字,用戶如何準確、輕松的整理內容,快速出稿,以及編輯完后,如何快速的分享給同事等等。
基于這些思考,搜狗更有針對性的將AI技術融入聽寫服務中,為行業輸出優質的產品體驗。
?
具體而言,首先搜狗開放了高準確度的語音轉寫能力,并支持10余種語音識別及方言識別。它采用業界領先的深層Transformer-based 端到端聲學模型、神經網絡語言模型、智能標點預測技術等,語音轉寫準確率可達95% 以上。?
第二,麥克風陣列和語音增強技術。搜狗基于“云端+本地”結合,打造了雙麥語音方案,并針對遠場噪音環境,做了專門的降噪算法。
第三,個性化語音識別技術。語音轉寫時,關鍵詞識別錯誤給用戶體驗帶來的體驗是糟糕的。搜狗通過打通輸入法賬號體系,基于產品中用戶數據的使用習慣,自動挖掘用戶的個性化詞組,使用戶常用語的轉寫錯誤率下降40%以上。?
第四,智能編輯與多端同步編輯。語音轉寫不是目的,用戶的最終目的是編輯成文。通過云端智能糾錯編輯技術,搜狗聽寫可以針對置信度低的轉寫結果提供多個候選詞,針對口頭語、重復詞進行自動文本順滑。此外它還支持三到四人的人聲識別,語音轉寫時在內容上自動區分說話人。?
第五,云存儲服務。用戶的錄音和文字都可以長期安全地保存在云端。?
搜狗王硯峰解釋道,市面上做AI技術輸出的公司,更多是把技術以API接口的形式輸出,但“只做技術是不夠的,沒有面向場景的深度優化,技術就是一種雞肋”。?
區別與此,搜狗重點做了兩件事,一是把中臺服務做得更完善,包含賬戶管理、轉寫技術、云同步功能、智能編輯等;二是提供了服務接入層,合作伙伴可以通過藍牙開放協議零成本接入,讓用戶通過PC 和移動端享用搜狗聽寫的增值服務。?
回到錄音筆行業,單純比拼硬件的商業模式已經持續了近20年。而在搜狗聽寫服務背后,市場的天花板似乎正在打開,以AI+軟件服務+硬件的方式,正在重新定義錄音筆和新的商業模式。 ?
三、聽寫服務的基石:搜狗輸入法
搜狗聽寫服務的背后,有一個容易被忽視的存在——搜狗輸入法,它對于聽寫服務,乃至搜狗AI都意義重大。?
目前搜狗輸入法APP 已擁有超4.5 億的日活用戶,PC 端更是占據99% 的市場份額,語音請求峰值已超7 億次,穩居全球最大的中文語音應用。?
搜狗輸入法背后的龐大用戶和海量數據,首先為聽寫服務提供了絕佳的“練兵場”,聽寫服務中核心的語音轉寫技術早就在輸入法中上線,不同的是,輸入法中語音轉寫的場景以單句話為主,而錄音筆中語音轉寫是更長的篇幅。經過海量數據和真實場景的優化,搜狗的語音轉寫才能達到95%以上的效果。?

其次,搜狗輸入法提供“入口”優勢,移動端和PC端的輸入法都支持搜狗聽寫服務。在PC輸入法上,聽寫服務作為一項應用直接內置到PC輸入法的工具箱中,當錄音筆插到電腦上后,輸入法就能自動探測到它,幫助用戶進行音頻管理,并提供聽寫服務。針對存量錄音筆,這一方式可謂直接增加了其附加值。
憑借著99%的市場覆蓋率,PC輸入法有一個獨特的優勢,凡是工具性、效率性的工具都可以內置其中,不需要二次安裝,用戶隨時調用,這大大提升了用戶使用的便捷性。
在移動端,搜狗在輸入法APP中也開放了聽寫服務的接口,一方面4.5億日活用戶帶來一個龐大的市場,能夠讓用戶更便捷的使用聽寫服務,龐大使用量也可以更快速的迭代聽寫服務背后的AI技術和產品體驗。?
另一方面,將聽寫服務直接內置到輸入法上,避免了賬號打通的問題,可以更便捷的使用賬號的歷史數據提供個性化的聽寫服務。
不只是聽寫服務,在搜狗AI的版圖中,輸入法就是AI技術的練兵場,它為技術研究設置問題,為技術的演進提供源源不斷的數據洪流,又提供最佳的落地載體,扮演著“源頭活水”的角色。?
王硯峰也表示,開放聽寫服務只是搜狗的第一步,未來搜狗將會進一步發揮輸入法的入口優勢,將自身的語音翻譯能力都以服務的形式開放出來,為用戶帶來更大價值的同時,搶占更廣闊的軟件服務市場。
從輸出技術到打造硬件,再到提供服務,是搜狗AI發展的一個轉折點,也是搜狗AI落地的深化。