實時語音識別是一種能夠將實時音頻流轉換為文字的技術,通過語音識別模型將人類語音轉化為可識別的文本形式。要實現高質量的實時語音識別并不容易,通常包含音頻獲取、音頻預處理、特征提取、特征分析與識別、解碼轉錄以及后處理輸出等一系列復雜的步驟。
而在我們日常生活和工作中的線上會議、多人交互等場景下,需要同時處理多個人的音頻流,并實現超低延遲、多人并發、實時準確的語音識別,更是面臨諸多挑戰。
首先在計算層面,由于需要同時處理多個語音數據流,并及時響應,因此需要大量高性能且靈活可擴展的計算資源支持。同時,多人并發的情況下,需要傳輸大量的語音數據。如果數據傳輸延遲較高,則會影響語音識別的實時性。此外,如果數據傳輸過程中出現丟包、誤碼等問題,也會對語音識別的結果產生一定的影響。
因此,要實現超低延遲大并發實時智能語音識別,不僅需要進行優化算法,以提高計算效率、降低計算資源消耗,同時還要優化數據通信協議,提高數據傳輸效率。
Achronix與Myrtle.ai共同推出了超低延遲大并發實時智能語音識別方案。該方案的硬件平臺采用基于Achronix Speedster7t FPGA的VectorPath加速卡和x86架構服務器來實現,可以同時支持多達4000個RTS,在保證低延遲的同時識別正確率高于90%,且相比ASR云服務成本大大降低。
VectorPath加速卡搭載Achronix 7nm Speedster7t FPGA,同時集成了400G以太網接口、多個PCIe接口和高帶寬GDDR6存儲器接口等一系列先進的I/O接口,傳輸速率可達32GT/S。Speedster7t FPGA集成了高密度機器學習處理器(MLP)陣列和二維片上網絡(2D NoC)。其中,MLP除了浮點乘加運算,還支持對多種定浮點數格式進行拆分和組合運算,能夠為AI和數據密集型計算提供ASIC級的計算速度。而2D NoC可以沿著行/列在FPGA結構中或向著邊緣接口高速移動數據,進而釋放更多的邏輯單元用于計算任務。
10月24日19點,Achronix聯合智猩猩策劃的「Achronix加速實時語音識別技術公開課」將開講,由Achronix資深現場應用工程師黃侖主講,主題為《超低延遲大并發實時智能語音識別加速方案》。
此次公開課,黃侖首先會從概念、應用場景、面臨的問題等維度對實時智能語音識別技術進行介紹,之后他將講解超低延遲大并發實時智能語音識別方案,并對其硬件平臺中基于Achronix Speedster7t FPGA的VectorPath加速卡進行重點解讀。最后,黃侖還會分享超低延遲大并發實時智能語音識別方案的優勢和落地案例。

公開課內容
主題:FPGA加速超低延遲大并發實時智能語音識別
提綱:
1、實時智能語音識別技術概述
2、超低延遲大并發實時智能語音識別方案
3、基于Speedster7t FPGA的VectorPath加速卡解析
4、方案優勢與落地案例
主講人:
黃侖, Achronix資深現場應用工程師,擁有上海交通大學通信工程碩士學位,目前主要負責華東地區的客戶技術支持。于2017年加入Achronix,擁有15年以上的FPGA相關研發和市場經驗。
課程信息
直播時間:10月24日19:00
直播地點:智猩猩直播間