<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

語音識別技術的發展歷程,語音識別是如何工作的？語音識別資料概述

你一定不會懷疑自己電腦的麥克風正背著你偷偷摸摸做些什么，因為你已經很久沒有用過它了。

但事實真的是這樣嗎？

難道谷歌真的在“監聽”用戶嗎？

挨君想告訴你，這基本沒可能。

谷歌瀏覽器的用戶已經超過20億了，要是監聽每個用戶每天說的話，這個數據量太過驚人。投入高昂的成本就為了實現廣告精準投放，還冒著巨大的法律風險，這種事正常人是不會去做的。

對于視頻中展現的“事實”，可能的操作是谷歌使用了一個語音關鍵詞識別系統。

有商業價值的關鍵詞總共就幾百萬個，為了簡單，可以只做頭部那些最賺錢的幾十萬個。這幾十萬個關鍵詞也不需要先跑語音識別再跑文本匹配，拿原始的語音文件來搞一個中等深度的神經網絡甚至線性特征模型就可以，速度也非?？?。

所以大家不用擔心語音識別正在侵犯你的隱私。相反，作為人類與機器最自然的交互形式（絕對不是打字），在未來，當你不想用手或者像殘障人士難以用手的時候，語音識別將會是操作一切最方便的鑰匙。

語音識別發展史

說到語音識別，大家熟悉的可能是最近十年里才出現的微信語音轉文字，或者語音實時記錄和翻譯。但其實語音識別的歷史比互聯網還早，現代計算機誕生的那一刻，就已經埋下了語音識別的種子。

1946年，現代計算機誕生。它的誕生讓人們意識到，原來計算機能完成這么多工作，而且做得比人還好；

（馮諾依曼和第一臺現代計算機）

1950年，圖靈在《思想》雜志發表了一篇題為《計算機器和智能》的論文，來探討計算機是否可以具備智能；

在圖靈思想的啟發下，人們想著既然計算機這么能干，干嘛不把它設計得和人類一樣能看能說能聽呢，這不就能幫人類做更多事了嘛?。ü?，懶才是科學發展的源動力?。?/p>

于是，第一代語音識別系統誕生，被稱為機器的聽覺系統。

1952年，貝爾研究所研制了世界上第一個能識別10個英文數字發音的實驗系統。也就是你說“yi”，計算機就知道這是“1”，能力跟嬰兒差不多。

1960年，英國的Denes等人研制了第一個計算機語音識別系統。

但是因為識別量小，這些系統根本達不到實際應用的要求，包括后續的20年間，都是在走彎路，沒有什么研究成果。

直到1970年，統計語言學的出現才使得語音識別重獲新生。

統計語言學帶來的重生

推動這個技術路線轉變的關鍵人物是德里克·賈里尼克(Frederick Jelinek)和他領導的IBM華生實驗室(T.J.Watson)。

統計語言學帶來的結果是，讓IBM當時的語音識別率從70%提升到90%，同時語音識別的規模從幾百單詞上升到幾萬單詞，這樣語音識別就有了從實驗室走向實際應用的可能。

人類的語言是非常復雜的。不同于音頻識別，語音識別的難點在于把一段音頻不僅轉換成對應的字，還要是一段邏輯清晰、語音明確的語句。

舉個例子，我們對計算機念一句話，“周五一起吃飯吧”。計算機根據音頻做出的識別可能結果是這樣的：州午衣起癡范爸。

如果僅看讀音和文字的一一對應，這個準確度可以說是很高了，因為如果念的口齒稍有不清更糟糕的結果可能是“鄒五意起次換吧”。

但是無論哪種結果，在實際應用上都是不可行的，完全沒法交流嘛。

那么統計語言學帶來的變革是什么呢？

我們知道，雖然人類的語言很復雜，但仍有一定規律可循，無論是“州午衣起癡范爸”，還是“鄒五意起次換吧”都不是一個正常人會說的話。統計語言學的作用就是找出人類說話的規律，這樣就可以大大減少了語言識別產生的誤差。這其中一個非常關鍵的概念就是語素。

語素是語言中最小的音義結合體，一個語言單位必須同時滿足三個條件——“最小、有音、有義”才能被稱作語素。語素又可以分成三類：

單音節語素：構詞由一個字才有意思的詞組成

雙音節語素：構詞由兩個字才有意思的詞組成

多音節語素：構詞由兩個字以上才有意思的詞組成

啥意思呢？舉個例子。

你、我、他，這三個字都是單音節語素，因為每個字都能自成一個含義。

你可能要說了，那不是廢話嗎，還有什么字是沒有含義的嗎？

當然有!比如挨君最喜歡吃的“餛飩”。

餛飩就是一個雙音節語素。單獨的餛或者飩都不具備任何含義，只有組合在一起的時候才有真正的意義。類似的還有“琵琶”、“霹靂”等等。另外比如“沙發”這類詞，一旦拆分開其含義就完全脫離原來語素的，也被稱為雙音節語素。

最后一種情況就是多音節語素，主要是專有名詞還有擬聲詞，比如喜馬拉雅，動次打次。

我們再看回剛才的例子，當機器知道語素之后，即便同音它也不會把“周五”識別成“州午”，因為后者沒有任何意義，也不會把“吃飯”識別成“癡范”。

又有人要說了，現在很多網絡用語把吃飯說成次飯，我也能看懂啊。

如果說“次飯”你能理解那當然普大喜奔啦，要是“鄒五意起次換吧”你都能理解的話，那對于語音識別團隊來說可真是天大的喜訊了。然而真實情況是，視人視場景不同，識別準確率永遠是語音識別第一位的追求。

以上，根據語素等人類語言規律挑選同音字的工作，在語音識別中我們稱為語言模型。

語言模型的好基友

語音識別中還有一個模型，就是聲學模型。

聲學模型和語言模型是語音識別里的一對好基友。聲學模型負責挑選出與音頻匹配的所有字，語言模型負責從所有同音字里挑出符合原句意思的字。

聲學模型的原理說起來跟做牛肉火鍋有點像。

我們拿到一段語音，首先要把它切成若干小段，這個過程叫做分幀。

跟片好的牛肉會被分成匙仁、吊龍、匙柄一樣，片好的幀會根據聲學特征被計算機算法識別為一個個【狀態】，多個狀態又可以組合成音素。

音素是語音中的最小的單位，比如哦（o），只有一個音素；我（wo）則有兩個音素,w、o；吼（hou），則有三個音素,h、o、u。

有了音素就可以對應找到匹配的字。

所以你可以這么理解，【狀態】就像生牛肉，還不是人類可以“食用”的模樣，需要用計算機算法來“涮一涮”成為音素才能成為一個【字】。

PS：如果你對【狀態】這個概念還不太理解，那也沒關系，因為近幾年出現了一個叫CTC的新技術，建模單元放大到了音節或音素的單位，直接跳過了【狀態】這個概念，所以這個知識點以后都不會考了。

剛才提到語言模型為語音識別帶來的重生，并不是說在此之前聲學模型就已經非常成熟了，相反，語音識別重生不久（到20世紀90年代）再次轉涼就是因為聲學模型太弱，缺少足夠的數據和算法。這一狀況直到互聯網的出現并且帶來了極其豐富的大數據后，才稍微得以改善。

可以這么說，語音識別的童年，是灰暗坎坷的。

語音識別是如何工作的

說完語音識別的兩個模型，現在我們可以大致梳理下語音識別的基本步驟，如下圖：

你通過微信發送了一段語音，對方因為在開會無法聽，于是使用了語音轉文字的功能。語音識別系統先把這段語音分幀，然后提取每一幀的特征形成【狀態】，幾個狀態（通常為3個）又會組合成一個音素，音素又構成了諸多同音字，接著語言模型從諸多同音字中挑選出可以使語義完整的字，最后一個個呈現在你面前。

雖然過程看著挺簡單的，但事實上，受各種語音語調、方言、說話環境、說話方式等等的影響，語音識別要提高準確率非常非常非?！?常難。得虧現在有了大數據和深度學習，這兩個模型才得到了好好的訓練，包括現在很多語音識別廠商都表示已經可以實現97%的識別準確率。

這里插播一段廣告，

網易人工智能對語音識別技術的研究開始于2014年，目前通過網易AI平臺已服務于網易游戲、有道詞典等產品。網易AI平臺語音識別技術的優勢有：領先的中英文語音識別轉寫技術，中文轉寫準確率可達97%以上；提供基于垂直行業語音模型進行深度優化訓練，在游戲行業的語音識別準確性保持業界頂尖水平；提供標準規范的SDK和API 接口，接入迅速，使用便捷。

說了這么多，語音識別算是人工智能領域比較成熟的技術，但對于人類的遠大愿景而言，這才只是起步，就像小嬰兒現在只能聽，接下來還要會說、會做、會想。不過有了深度學習之后，這一切現在看來似乎有了觸達的可能。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4591

瀏覽量
99300
語音識別

語音識別

+關注

關注
38

文章
1651

瀏覽量
111939
人工智能

人工智能

+關注

關注
1780

文章
44671

瀏覽量
231538

原文標題：科普 | 一文讀懂AI大勢技術-語音識別

文章出處：【微信號：gh_70d0cce81c74，微信公眾號：網易人工智能】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

語音識別技術的應用及發展

語音識別是以語音為研究對象，通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言。

發表于 12-16 11:11 ?2297次閱讀

#硬聲創作季 #語音識別語音識別實戰-02-2-工作原理概述

語音識別

水管工

發布于 :2022年12月07日 18:55:17

語音識別設計要素與電路圖集錦

?！　〗鼛啄陙?，特別是2009年以來，借助機器學習領域深度學習研究的發展，以及大數據語料的積累，語音識別技術得到突飛猛進的

發表于 12-20 15:52

基于labview的語音識別

`1系統概述語音識別技術是二十世紀信息技術領域十大重要的科技發展技術之一。

發表于 03-10 22:00

【語音識別】你知道什么是離線語音識別和在線語音識別嗎?

很多都會問：我測X大訊飛的識別效果很好呀,為什么你們的不能達到這個效果呢？原因很簡單,因為你所測試的是X大訊飛在線的語音識別模塊,而我們的是離線的語音

發表于 04-01 17:11

語音識別技術的基本原理及應用是什么？

語音識別技術的基本原理是什么？語音識別技術的應用是什么？

發表于 05-31 06:50

單片機語音識別的原理是什么

語音識別是一門交叉學科。近二十年來，語音識別技術取得顯著進步，開始從實驗室走向市場。人們預計，未來10年內，

發表于 11-17 08:02

離線語音識別和控制的工作原理及應用

引言　　離線語音識別是指在沒有網絡連接的情況下，通過在本地設備上進行語音信號處理和識別，實現語音命令的轉化和執行。隨著智能設備的普及，離

發表于 11-07 18:01

離線語音識別及控制是怎樣的技術？

引言：　隨著人工智能的飛速發展，離線語音識別技術成為了一項備受矚目的創新。離線語音識別

發表于 11-24 17:41

語音識別技術,語音識別技術是什么意思

語音識別技術,語音識別技術是什么意思　語音

發表于 03-06 11:16 ?2796次閱讀

語音識別,什么是語音識別

語音識別,什么是語音識別語音識別　與機器進行語音

發表于 03-06 11:19 ?2564次閱讀

國內語音識別技術上市公司匯總_語音識別技術現狀_語音識別原理及應用

語音識別技術的發展已經普遍的存在了我們生活當中，本文主要詳細介紹了語音識別

發表于 12-13 18:04 ?9458次閱讀

語音識別是什么

語音識別是一門交叉學科。近二十年來，語音識別技術取得顯著進步，開始從實驗室走向市場。人們預計，未來10年內，

發表于 11-18 09:28 ?9615次閱讀

語音識別的技術歷程

深度學習技術自 2009 年興起之后，已經取得了長足進步。語音識別的精度和速度取決于實際應用環境，但在安靜環境、標準口音、常見詞匯場景下的語音識別

發表于 08-22 14:21 ?4234次閱讀

離線語音識別與在線語音識別有什么不一樣？

離線語音識別與在線語音識別有什么不一樣？離線語音識別和在線

發表于 12-12 14:36 ?825次閱讀

精選推薦
更多

文章

資料

帖子

采用144核，能效提升66%！英特爾至強6處理器震撼上市，加速數據中心升級

章鷹觀察
21小時前

926 閱讀

如何移植FFmpeg

ElfBoard
2天前

603 閱讀

基于Arm Cortex-CM85內核的RA8D1作為控制器通過MIPI DSI實現LVGL顯示

瑞薩MCU小百科
2天前

832 閱讀

便攜式直流接地故障查找儀如何使用——每日了解電力知識

武漢摩恩
3天前

838 閱讀

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
3天前

832 閱讀

基于USB2.0的紅外數據傳輸系統

王蘭
667

免費

44下載

VxWorks網絡編程課件

titanfigure
872 KB

免費

0下載

電力電子變壓器的電路分析

yezi888
285 KB

免費

236下載

TextSearcher文本批量搜索工具

萬物死
0.14 MB

免費

1下載

laravel-bjyblog基于Laravel的個人博客系統

Arvinhw
21.64 MB

免費

1下載

I.MX6ULL-飛凌 ElfBoard ELF1板卡 - 如何在Ubuntu中編譯OpenCV庫(X86架構）

jf_25331175
3天前

760 閱讀

鴻蒙原生應用元服務開發-設備管理USB服務開發場景與接口

李洋水蛟龍
3天前

314 閱讀

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 如何在Ubuntu中編譯OpenCV庫

jf_25331175
3天前

953 閱讀

【留言有禮】佳節至，分享“粽”要記憶，傳遞溫馨祝福，贏取精美禮品！

ElecFans小喇叭
4天前

1062 閱讀

無刷電機用的單電阻采樣的FOC，拿天線貼著電機線或者貼近采樣芯片，電機就會停轉

剛剛回國弄
4天前

1568 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看