轉載自與非網
語音AI芯片,顧名思義是處理語音的AI芯片。很多人第一次接觸語音AI芯片可能是天貓精靈、小愛同學和小度等智能音箱產品,因為在這些產品中,我們可以體驗到智能語音的交互,而語音AI芯片是智能語音交互的基礎和核心。
都說這幾年AI芯片賽道很火,事實上語音識別、自然語義理解(NLP)和機器學習在AI技術中占據重要的位置,是人機交互的基礎,而前兩項均與語音識別相關,這是因為語音識別不僅方便,而且是人機交互中最符合人類日常交流形態的一種技術,目前已經在智能家居和車載場景得到普遍應用。
為何語音識別要從云端搬至終端?
說到語音識別技術,還要追溯到2010年左右,當時以神經網絡為代表的AI技術使得智能語音識別成為可能,并在后來的IoT和AIoT產業浪潮中不斷走向成熟。
早期的智能語音識別受限于算力要求,終端沒有專用的芯片可以解決算力和功耗成本的均衡問題,無法在終端處理智能語音識別,而云端處理又憑借天然自帶內容和服務,模型可以快速迭代,數據收集和訓練非常方便等優勢,決定了當時的語音識別大都是布置在云端的。
然而,云端的語音識別也有弊端,比如無法做到穩定的實時響應,網絡崩潰時更是響應無門;重要的信息都要通過網絡傳輸,有被攻擊泄露的風險,無法保障用戶隱私安全;此外在成本方面也不具優勢,除了持續的帶寬消耗外,云端語音需要后臺不間斷的運行大量服務器來做語音處理,服務器的購置、后續的硬件更換和軟件運維、人力費用和電費場地費等都非常昂貴。
圖 | 為什么選擇離線語音
面對云端語音的優劣勢,以啟英泰倫為代表的企業開始投入對端側語音識別的研究。不過,我們知道光有需求點還支撐不起一個新產業的崛起,要養活一個產業需要足夠的市場容量,實現資金的活流,才能有利于產品的不斷迭代,形成正向循環。
根據艾瑞咨詢發布數據顯示,2020年中國物聯網設備連接量達74億個,預計2025年將突破150億個。而麥肯錫則用更動態的數據表示出了物聯網的增長率,預估目前每秒大約有127臺設備連接到互聯網。
然而,面對當前物聯網的聯網量,華為給出了另一個數據:當前大部分具備物聯能力的消費類設備只有 5% ~ 20% 的聯接激活率。這是為什么呢?究其原因,還是操作交互太過于復雜。而解決這個復雜問題的方法就是加入更多“老少皆宜”的語音配合IoT連接。
有行業內人士預測,語音AI芯片將會快速發展到5-10億顆/年左右的市場規模,隨著應用面的不斷拓寬和滲透率的不斷提升,該規模還將持續不斷地提升。
綜上,不管是場景需求還是市場容量,都在推動端側語音識別的落地。但如何落地?不是一蹴而就的。
端側語音識別芯片的三個發展階段
語音識別面臨的挑戰和圖像識別不同,它對算力要求沒那么高,但對算法的要求很高。啟英泰倫創始人兼CEO何云鵬告訴與非網:“這是因為語音識別的應用場景非常多,所以各種噪聲就非常多樣,有穩態噪聲,也有非穩態噪聲,要在這些環境中進行高準確率的語音識別是非常困難的。所以,必須掌握智能語音算法全鏈條技術才能實現更好的語音識別,包括智能語音信號前端降噪處理、語音智能識別、語音合成、語音解碼、語音大數據處理及訓練、NLP等技術?!?/p>
當然,語音識別技術在國內的發展也是在不斷迭代中變得更加準確和靈活。我們以啟英泰倫的三代自研技術平臺BNPU(腦神經網絡處理器),來簡單概括端側語音AI芯片的這三個發展階段。
圖 | 啟英泰倫在語音AI芯片上的創新
階段一:語音識別功能
第一代BNPU芯片實現的是端側語音識別,是行業首款集成神經網絡處理器的語音AI芯片,也是離線語音產業應用興起的標志。
從集成度的角度來看,BNPU 1.0的方案相對分立,方案價格大約在50到90元左右(CI1006)。
階段二:離線聲紋識別+命令詞自學習
第二代BNPU芯片(CI1102/CI1103和CI1122),不僅實現了離線語音識別功能,還能實現離線聲紋識別和命令詞自學習等個性化的功能。在應用上,可以根據不同人的聲紋實現基于用戶個性喜好的功能配置,并能通過離線命令詞的自學習實現在輕度噪聲下的地方口音和方言的識別。
從集成度的角度來看,BNPU 2.0集成了Audio CODEC、Flash 等單元,以及雙麥陣增強處理能力,方案價格大約在15到25元左右。
階段三:深度降噪+深度分離+命令詞自學習2.0+離線NLP
第三代BNPU芯片,除了繼承第二代的語音識別、聲紋識別外,還支持了基于深度學習的降噪技術(深度降噪)、人聲分離技術(深度分離)、命令詞自學習2.0版本技術,以及行業首次突破性的離線NLP技術。在應用上,CI1301可以實現中等噪聲中的語音識別,而CI1302、CI1303、CI1306和CI1312則可實現強噪聲環境下的語音識別,比如當油煙機噪聲高達80dB時,對于70多dB的人聲依然可以良好識別。
從集成度的角度來看,BNPU 3.0不僅集成了Audio Codec的模擬 MIC接口、數字PDM麥克的DMIC接口、通用的ADC和MCU常見的串口、PWM、GPIO等接口,還進一步集成了 4線Nor Flash、3路LDO的PMU和高精度的RC振蕩器等,方案價格約10元左右。
對于三代產品的方案價格一代更比一代低的疑問,何云鵬表示:“很多人認為離線語音在端側、數據處理、語音識別和存儲會產生很多的成本,實則云上的成本是持續的,傳輸的成本是長時間的,這個成本可以避免;此外,云端早期建設的成本很高,很多廠家會建不起,還有每年運營的成本,每臺設備每年10多元,這個費用在賣設備的時候廠商會包兩年,但后面就要客戶自己付費,所以不太公平。而隨著摩爾定律的發展,端側語音識別方案的整體成本已呈現30%的速率下降,已經達到了一個通用MCU的成本?!?/p>
除了價格以外,更值得一提的是,原本被認為只有云端才能實現的NLP,現在輕量級的NLP在端側智能語音芯片中也實現了,并且既保障了用戶的體驗感,又能降低云端搭建和運營成本,降低網絡帶寬消耗,也能提升用戶使用的安全性。
端云融合才是語音AI芯片的最終歸宿
當然,說云端搬到端側,實際上在很多場景下端側和云端不是非此即彼的關系,從長期來看,端側和云端是相互融合、相輔相成的關系。
隨著端側語音芯片功能、性能、可靠性變得越來越強大,價格越來越低,端側語音識別將實現可靠性、隱私保護、成本和靈活性等多方面的優勢,再加上集成聯網功能可實現AIOT,從而實現大數據爆發時代下的有效數據分析和場景利用。
以空調為例,傳統的空調大都只有調溫的功能,但在差異化競爭的今天,大廠空調正在往機器人的方向發展,可以提供更多智慧化的服務,比如調整空氣的溫濕度、清新程度、含氧量、PM 2.5值,以及在早晨起床時放音樂營造氛圍、營養咨詢等。而這些服務的基礎是語音交互,并且一定是延遲更低、工作更穩定的端側語音識別,而背后的服務交易、用戶的習慣大數據等則更適合放在云端,達到協同的效果。
寫在最后
國內語音AI芯片正呈現出爆發式增長的趨勢,誰將成為領頭者?何云鵬表示:“該市場領域未來發展壯大后,會呈現典型的頭部領先市場通吃的局面。而啟英泰倫在語料數據、算法模型、芯片架構、AI開發平臺及應用方案落地等多維度的迭代已經產生了馬太效應。經過長達近7年的發展后,啟英泰倫已經積累了B端客戶超過5000名,平臺開發者超過1萬名,使用啟英泰倫智能語音平臺的在校AI學員則超過10萬名。如今,整個離線語音行業快速發展,年內裝機量將突破2000萬臺,未來兩年,年出貨將朝著1億臺邁進?!?/p>
-
AI
+關注
關注
87文章
26909瀏覽量
264697
發布評論請先 登錄
相關推薦
評論