<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

語音識別的降噪思路和原因總結

電子工程師 ? 來源:博客園 ? 2021-03-29 09:20 ? 次閱讀

噪聲問題一直是語音識別的一個老大難的問題,在理想的實驗室的環境下,識別效果已經非常好了,之前聽很多音頻算法工程師抱怨,在給識別做降噪時,經常發現WER不降反升,降低了識別率,有點莫名其妙,又無處下手。

剛好,前段時間調到了AIlab部門,有機會接觸這塊,改善語音識別的噪聲問題,雖然在此之前,詢問過同行業的朋友,單通道近場下,基本沒有太大作用,有時反而起到反作用,但是自己還是想親身實踐一下,至少找到這些方法失效的原因,看看是否在這些失敗的原因里面,改進下思路,可能有新的發現;同時去Ailab,順帶把深度學習降噪實踐一把,就算在ASR沒有效果,以后還能用在語音通信這個領域。

任務的要求是保證聲學模型不變動的情況下,即不重新訓練聲學模型,即單純利用降噪來改善那些環境惡劣的樣本,同時保證不干擾純凈語音或者弱噪聲的語音場景,所以非常具有挑戰性。

為了趕項目,用自己非常熟悉的各種傳統的降噪方法:包括最小值跟蹤噪聲估計,MCRA, IMCRA,等各種噪聲估計方法,以及開源項目 webrtc NS, AFE(ETSI ES 202 050 Advanced DSR Front-end Codec, two stages of Wiener filtering),剩下的任務就是調參,經過很多次努力,基本沒有什么效果,相反WER還會有1%點左右的增加。

分析對比了降噪和沒有降噪的識別文本對比和頻譜分析,總結了以下這些原因,希望對后面的人有些參考意義:

1. DNN本身就有很強的抗噪性,在弱噪聲和純凈語音下,基本都不是問題。

通常場景下,這點噪聲,用線上數據或者刻意加噪訓練,是完全可以吸收掉的,只有在20db以下,含噪樣本的頻譜特征和純凈樣本的頻譜特征差異太大,用模型學習收斂就不太好,這時需要降噪前端。

2. 降噪對于純凈語音或者弱噪聲環境下,不可避免的對語音有所損傷,只有在惡劣的環境下,會起到非常明顯的作用。

傳統降噪是基于統計意義上面的一個處理,難以做到瞬時噪聲的精準估計,這個本身就是一個近似的,粗略模糊化的一個處理,即不可避免的對噪聲欠估計或者過估計,本身難把握,保真語音,只去噪,如果噪聲水平很弱,這個降噪也沒有什么用或者說沒有明顯作用,去噪力度大了,又會破壞語音??梢灶A見,根據測試集進行調參,就像是在繩子上面玩雜技。

我們的測試樣本集,90%的樣本都在在20db以上,只有200來條的樣子,環境比較惡劣。所以通常起來反作用。

3. 降噪里面的很多平滑處理,是有利于改善聽感的,但是頻譜也變得模糊,這些特征是否能落到正確的類別空間里面,也是存在疑問的。所以在前端降噪的基礎上,再過一遍聲學模型重新訓練,應該是有所作用的,但是訓練一個聲學模型都要10來天,損失太大,也不滿足任務要求。

4. 傳統降噪,通常噪聲初始化會利用初始的前幾幀,而如果開頭是語音,那就會失真很明顯。

5. 估計出噪聲水平,在SNR低的情況下降噪,SNR高時,不處理或者進行弱處理,在中間水平,進行軟處理,這個思路似乎可以行的通。

6. 用基于聲學特征的傳統降噪方法,嘗試過,在測試集里面,有不到1%的WER降低。

7. 到底用什么量來指導降噪過程?

既然降噪沒法做好很好的跟蹤,處理的很理想。即不可能處理的很干凈,同時不能保證語音分量不會被損傷,即降噪和保證語音分量是個相互矛盾,同時也是一個權衡問題。那其實換個角度,降噪主要是改善了聲學特征,讓原來受噪聲影響錯分類的音素落到正確的音素類別,即降低CE。那么應該直接將降噪和CE做個關聯,用CE指導降噪過程參數的自適應變化,在一個有代表性的數據集里面,有統計意義上的效果,可能不一定能改善聽感,處理的很干凈,但是在整體意義上,有能改善識別的。所以說語音去噪模塊必須要和聲學前端聯合起來優化,目標是將去噪后的數據投影到聲學模塊接受的數據空間,而不是改善聽感,即優化的目標是降低聲學模型的CE,或者說是降低整條鏈路的wer,所以用降噪網絡的LOSS除了本身的損失量,還應綁定CE的LOSS自適應去訓練學習是比較合理的方案。也可以將降噪網絡看成和聲學模型是一個大網絡,為CE服務,當然,這不一定是降噪網絡,也可以是傳統的自適應降噪方法,但是如果是基于kaldi開發,里面涉及到的工程量是很大的。

8. 在整個語音識別體系中,由于聲學模型的強抗噪性,所以單通道下的前端降噪似乎沒有什么意義,1%左右的wer的改變,基本不影響整個大局,所以想要搞識別這塊的朋友,應該先把重要的聲學模型,語言模型,解碼器,搞完之后,再來擼擼這塊,因為即便沒有單獨的前端,整個識別大多數場景都是OK的,惡劣的場景比較少,一般場景大不了擴增各種帶噪數據訓練,也是可以的。

責任編輯:lq6

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語音識別
    +關注

    關注

    38

    文章

    1650

    瀏覽量

    111891
  • dnn
    dnn
    +關注

    關注

    0

    文章

    56

    瀏覽量

    8962
收藏 人收藏

    評論

    相關推薦

    安信可推出了一款AI離線語音識別的產品—VC系列模組

    VC系列模組是安信可開發的一款AI離線語音識別的產品,主芯片是云知聲推出的離線語音識別芯片鋒鳥M(US516P6),具有高可靠性,通用性強的特點。
    的頭像 發表于 04-15 10:29 ?196次閱讀

    語音識別的技術歷程及工作原理

    語音識別的本質是一種基于語音特征參數的模式識別,即通過學習,系統能夠把輸入的語音按一定模式進行分類,進而依據判定準則找出最佳匹配結果。
    的頭像 發表于 03-22 16:58 ?1225次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別的</b>技術歷程及工作原理

    情感語音識別的挑戰與未來趨勢

    。 二、情感語音識別的挑戰 情感表達的復雜性:人類的情感表達非常復雜,不僅涉及到語音的音調、音色和音量等,還與語言表達、肢體動作、面部表情等多個方面有關。準確識別和理解這些復雜情感表達
    的頭像 發表于 11-30 11:24 ?277次閱讀

    情感語音識別的應用與挑戰

    一、引言 情感語音識別是一種通過分析人類語音中的情感信息實現智能化和個性化人機交互的技術。本文將探討情感語音識別的應用領域、優勢以及所面臨的
    的頭像 發表于 11-30 10:40 ?358次閱讀

    情感語音識別的現狀與未來趨勢

    情感語音識別是一種涉及多個學科領域的前沿技術,包括心理學、語言學、計算機科學等。它通過分析人類語音中的情感信息,實現更加智能化和個性化的人機交互。本文將探討情感語音
    的頭像 發表于 11-28 17:22 ?456次閱讀

    離線語音識別及控制是怎樣的技術?

    引言:  隨著人工智能的飛速發展,離線語音識別技術成為了一項備受矚目的創新。離線語音識別技術能夠將人的語音轉化為可理解的文本,無需依賴網絡連
    發表于 11-24 17:41

    情感語音識別的研究方法與實踐

    一、引言 情感語音識別是指通過計算機技術和人工智能算法自動識別和理解人類語音中的情感信息。為了提高情感語音
    的頭像 發表于 11-16 16:26 ?311次閱讀

    情感語音識別的前世今生

    的支持。本文將探討情感語音識別的前世今生,包括其發展歷程、應用場景、面臨的挑戰以及未來發展趨勢。 二、情感語音識別的發展歷程 起步階段:早期的情感
    的頭像 發表于 11-12 17:33 ?377次閱讀

    情感語音識別的技術挑戰與解決方案

    將探討這些挑戰以及可能的解決方案。 二、情感語音識別的技術挑戰 情感表達的復雜性:人的情感表達是復雜且多變的,受到文化、個人經歷、語言習慣等多種因素的影響。這使得準確識別和理解人的情感狀態變得非常困難。 噪聲干擾
    的頭像 發表于 11-12 17:31 ?275次閱讀

    離線語音識別和控制的工作原理及應用

    。本文將深入探討離線語音識別的工作原理,以及其所使用的技術。一、離線語音識別的工作原理離線語音識別的
    的頭像 發表于 11-07 18:04 ?393次閱讀
    離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>和控制的工作原理及應用

    離線語音識別和控制的工作原理及應用

    的應用越來越廣泛。本文將深入探討離線語音識別的工作原理,以及其所使用的技術。   一、離線語音識別的工作原理   離線語音
    發表于 11-07 18:01

    深度學習在語音識別中的應用及挑戰

    一、引言 隨著深度學習技術的快速發展,其在語音識別領域的應用也日益廣泛。深度學習技術可以有效地提高語音識別的精度和效率,并且被廣泛應用于各種應用場景。本文將探討深度學習在
    的頭像 發表于 10-10 18:14 ?566次閱讀

    啟英泰倫通話降噪方案,采用深度學習降噪算法,讓通話更清晰

    語音芯片支持離線神經網絡計算,支持單麥克風降噪增強,360度全方位拾音,可抑制環境噪音,保證嘈雜環境中語音識別的準確性。使用本模塊進行離線語音
    發表于 08-22 17:36

    語音識別發展 Python進行語音識別案例

      摘要:隨著信息化時代的快速到來以及計算機技術的不斷完善發展,語音識別在眾多領域都得到了應用,同時語音識別有著廣闊的發展前景。當下,在對語音
    發表于 07-19 14:32 ?4次下載

    駕駛新時代:車載語音識別的革命性進展與應用

    隨著科技的不斷發展,車載智能系統正成為汽車行業的新潮流。其中,車載語音識別技術的迅猛發展為駕駛體驗帶來了革命性的變革。本文將探討車載語音識別的重要性以及其在駕駛安全、人機交互和便捷駕駛
    的頭像 發表于 06-24 02:59 ?503次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>