<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

語音識別的降噪思路和原因總結

噪聲問題一直是語音識別的一個老大難的問題，在理想的實驗室的環境下，識別效果已經非常好了，之前聽很多音頻算法工程師抱怨，在給識別做降噪時，經常發現WER不降反升，降低了識別率，有點莫名其妙，又無處下手。

剛好，前段時間調到了AIlab部門，有機會接觸這塊，改善語音識別的噪聲問題，雖然在此之前，詢問過同行業的朋友，單通道近場下，基本沒有太大作用，有時反而起到反作用，但是自己還是想親身實踐一下，至少找到這些方法失效的原因，看看是否在這些失敗的原因里面，改進下思路，可能有新的發現；同時去Ailab，順帶把深度學習降噪實踐一把，就算在ASR沒有效果，以后還能用在語音通信這個領域。

任務的要求是保證聲學模型不變動的情況下，即不重新訓練聲學模型，即單純利用降噪來改善那些環境惡劣的樣本，同時保證不干擾純凈語音或者弱噪聲的語音場景，所以非常具有挑戰性。

為了趕項目，用自己非常熟悉的各種傳統的降噪方法：包括最小值跟蹤噪聲估計，MCRA， IMCRA，等各種噪聲估計方法，以及開源項目 webrtc NS， AFE（ETSI ES 202 050 Advanced DSR Front-end Codec， two stages of Wiener filtering），剩下的任務就是調參，經過很多次努力，基本沒有什么效果，相反WER還會有1%點左右的增加。

分析對比了降噪和沒有降噪的識別文本對比和頻譜分析，總結了以下這些原因，希望對后面的人有些參考意義：

1. DNN本身就有很強的抗噪性，在弱噪聲和純凈語音下，基本都不是問題。

通常場景下，這點噪聲，用線上數據或者刻意加噪訓練，是完全可以吸收掉的，只有在20db以下，含噪樣本的頻譜特征和純凈樣本的頻譜特征差異太大，用模型學習收斂就不太好，這時需要降噪前端。

2. 降噪對于純凈語音或者弱噪聲環境下，不可避免的對語音有所損傷，只有在惡劣的環境下，會起到非常明顯的作用。

傳統降噪是基于統計意義上面的一個處理，難以做到瞬時噪聲的精準估計，這個本身就是一個近似的，粗略模糊化的一個處理，即不可避免的對噪聲欠估計或者過估計，本身難把握，保真語音，只去噪，如果噪聲水平很弱，這個降噪也沒有什么用或者說沒有明顯作用，去噪力度大了，又會破壞語音?？梢灶A見，根據測試集進行調參，就像是在繩子上面玩雜技。

我們的測試樣本集，90%的樣本都在在20db以上，只有200來條的樣子，環境比較惡劣。所以通常起來反作用。

3. 降噪里面的很多平滑處理，是有利于改善聽感的，但是頻譜也變得模糊，這些特征是否能落到正確的類別空間里面，也是存在疑問的。所以在前端降噪的基礎上，再過一遍聲學模型重新訓練，應該是有所作用的，但是訓練一個聲學模型都要10來天，損失太大，也不滿足任務要求。

4. 傳統降噪，通常噪聲初始化會利用初始的前幾幀，而如果開頭是語音，那就會失真很明顯。

5. 估計出噪聲水平，在SNR低的情況下降噪，SNR高時，不處理或者進行弱處理，在中間水平，進行軟處理，這個思路似乎可以行的通。

6. 用基于聲學特征的傳統降噪方法，嘗試過，在測試集里面，有不到1%的WER降低。

7. 到底用什么量來指導降噪過程？

既然降噪沒法做好很好的跟蹤，處理的很理想。即不可能處理的很干凈，同時不能保證語音分量不會被損傷，即降噪和保證語音分量是個相互矛盾，同時也是一個權衡問題。那其實換個角度，降噪主要是改善了聲學特征，讓原來受噪聲影響錯分類的音素落到正確的音素類別，即降低CE。那么應該直接將降噪和CE做個關聯，用CE指導降噪過程參數的自適應變化，在一個有代表性的數據集里面，有統計意義上的效果，可能不一定能改善聽感，處理的很干凈，但是在整體意義上，有能改善識別的。所以說語音去噪模塊必須要和聲學前端聯合起來優化，目標是將去噪后的數據投影到聲學模塊接受的數據空間，而不是改善聽感，即優化的目標是降低聲學模型的CE，或者說是降低整條鏈路的wer，所以用降噪網絡的LOSS除了本身的損失量，還應綁定CE的LOSS自適應去訓練學習是比較合理的方案。也可以將降噪網絡看成和聲學模型是一個大網絡，為CE服務，當然，這不一定是降噪網絡，也可以是傳統的自適應降噪方法，但是如果是基于kaldi開發，里面涉及到的工程量是很大的。

8. 在整個語音識別體系中，由于聲學模型的強抗噪性，所以單通道下的前端降噪似乎沒有什么意義，1%左右的wer的改變，基本不影響整個大局，所以想要搞識別這塊的朋友，應該先把重要的聲學模型，語言模型，解碼器，搞完之后，再來擼擼這塊，因為即便沒有單獨的前端，整個識別大多數場景都是OK的，惡劣的場景比較少，一般場景大不了擴增各種帶噪數據訓練，也是可以的。

責任編輯：lq6

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

語音識別

語音識別

+關注

關注
38

文章
1650

瀏覽量
111891
dnn

dnn

+關注

關注
0

文章
56

瀏覽量
8962

評論

相關推薦

安信可推出了一款AI離線語音識別的產品—VC系列模組

VC系列模組是安信可開發的一款AI離線語音識別的產品，主芯片是云知聲推出的離線語音識別芯片鋒鳥M(US516P6)，具有高可靠性，通用性強的特點。

的頭像

發表于 04-15 10:29 ?196次閱讀

語音識別的技術歷程及工作原理

語音識別的本質是一種基于語音特征參數的模式識別，即通過學習，系統能夠把輸入的語音按一定模式進行分類，進而依據判定準則找出最佳匹配結果。

的頭像

發表于 03-22 16:58 ?1225次閱讀

<b class='flag-5'>語音</b><b class='flag-5'>識別的</b>技術歷程及工作原理

情感語音識別的挑戰與未來趨勢

。二、情感語音識別的挑戰情感表達的復雜性：人類的情感表達非常復雜，不僅涉及到語音的音調、音色和音量等，還與語言表達、肢體動作、面部表情等多個方面有關。準確識別和理解這些復雜情感表達

的頭像

發表于 11-30 11:24 ?277次閱讀

情感語音識別的應用與挑戰

一、引言情感語音識別是一種通過分析人類語音中的情感信息實現智能化和個性化人機交互的技術。本文將探討情感語音識別的應用領域、優勢以及所面臨的

的頭像

發表于 11-30 10:40 ?358次閱讀

情感語音識別的現狀與未來趨勢

情感語音識別是一種涉及多個學科領域的前沿技術，包括心理學、語言學、計算機科學等。它通過分析人類語音中的情感信息，實現更加智能化和個性化的人機交互。本文將探討情感語音

的頭像

發表于 11-28 17:22 ?456次閱讀

離線語音識別及控制是怎樣的技術？

引言：　隨著人工智能的飛速發展，離線語音識別技術成為了一項備受矚目的創新。離線語音識別技術能夠將人的語音轉化為可理解的文本，無需依賴網絡連

發表于 11-24 17:41

情感語音識別的研究方法與實踐

一、引言情感語音識別是指通過計算機技術和人工智能算法自動識別和理解人類語音中的情感信息。為了提高情感語音

的頭像

發表于 11-16 16:26 ?311次閱讀

情感語音識別的前世今生

的支持。本文將探討情感語音識別的前世今生，包括其發展歷程、應用場景、面臨的挑戰以及未來發展趨勢。二、情感語音識別的發展歷程起步階段：早期的情感語

發表于 11-12 17:33 ?377次閱讀

情感語音識別的技術挑戰與解決方案

將探討這些挑戰以及可能的解決方案。二、情感語音識別的技術挑戰情感表達的復雜性：人的情感表達是復雜且多變的，受到文化、個人經歷、語言習慣等多種因素的影響。這使得準確識別和理解人的情感狀態變得非常困難。噪聲干擾

發表于 11-12 17:31 ?275次閱讀

離線語音識別和控制的工作原理及應用

。本文將深入探討離線語音識別的工作原理，以及其所使用的技術。一、離線語音識別的工作原理離線語音識別的

發表于 11-07 18:04 ?393次閱讀

離線語音識別和控制的工作原理及應用

的應用越來越廣泛。本文將深入探討離線語音識別的工作原理，以及其所使用的技術。　　一、離線語音識別的工作原理　　離線語音

發表于 11-07 18:01

深度學習在語音識別中的應用及挑戰

一、引言隨著深度學習技術的快速發展，其在語音識別領域的應用也日益廣泛。深度學習技術可以有效地提高語音識別的精度和效率，并且被廣泛應用于各種應用場景。本文將探討深度學習在

發表于 10-10 18:14 ?566次閱讀

啟英泰倫通話降噪方案，采用深度學習降噪算法，讓通話更清晰

語音芯片支持離線神經網絡計算，支持單麥克風降噪增強，360度全方位拾音，可抑制環境噪音，保證嘈雜環境中語音識別的準確性。使用本模塊進行離線語音

發表于 08-22 17:36

語音識別發展 Python進行語音識別案例

　　摘要：隨著信息化時代的快速到來以及計算機技術的不斷完善發展，語音識別在眾多領域都得到了應用，同時語音識別有著廣闊的發展前景。當下，在對語音

發表于 07-19 14:32 ?4次下載

駕駛新時代：車載語音識別的革命性進展與應用

隨著科技的不斷發展，車載智能系統正成為汽車行業的新潮流。其中，車載語音識別技術的迅猛發展為駕駛體驗帶來了革命性的變革。本文將探討車載語音識別的重要性以及其在駕駛安全、人機交互和便捷駕駛

發表于 06-24 02:59 ?503次閱讀

精選推薦
更多

文章

資料

帖子

FPGA核心板上市！紫光同創Logos-2和Xilinx Artix-7系列

米爾電子
12小時前

92 閱讀

一種新的微帶線和矩形波導集成形結構研究

機電信息雜志
5小時前

192 閱讀

小體積大能量|Giada杰和科技桌面云終端Y-BOX S2拆機測評

焦點訊
6小時前

289 閱讀

一文詳解LDO電源的基礎知識設計及應用

云深之無跡
9小時前

288 閱讀

全國產RK3568J + FPGA的PCIe、FSPI通信實測數據分享！

Tronlong創龍科技
9小時前

93 閱讀

PADS(powerpcb)中如何制作庫

wxg758
444

免費

0下載

VxWorks網絡編程課件

titanfigure
872 KB

免費

0下載

MSP430醫用制氧機控制系統的設計與實現詳析

0.22 MB

免費

45下載

觸控式Flash單片機BS83B系列的7款產品的詳細介紹

6.50 MB

免費

58下載

ChaChat角色扮演聊天室

李鴻洋
2.12 MB

免費

0下載

源碼系列：基于 FPGA 的 USB2.0 設計

FPGA技術江湖
20小時前

61 閱讀

嵌入式學習-飛凌嵌入式ElfBoard ELF 1板卡-VMware設置成橋接模式后沒有VMnet0

jf_13411809
20小時前

376 閱讀

淺談Pango_Design_Suite工具的安裝

yinwuqing
20小時前

204 閱讀

一文通曉FPC軟板，從基礎到工藝的深度解讀

鄒夢雨
1天前

224 閱讀

嵌入式學習-飛凌嵌入式ElfBoard ELF 1板卡-如何移植NCNN？

jf_13411809
1天前

346 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看