<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用3D卷積神經網絡的交叉視聽識別技術進行唇語識別

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-11-05 17:38 ? 次閱讀

唇語識別系統使用機器視覺技術,從圖像中連續識別出人臉,判斷其中正在說話的人,提取此人連續的口型變化特征,隨即將連續變化的特征輸入到唇語識別模型中,識別出講話人口型對應的發音,隨后根據識別出的發音,計算出可能性最大的自然語言語句。

唇語識別并非最近才出現的技術,早在 2003 年,Intel 就開發了唇語識別軟件 Audio Visual Speech Recognition(AVSR),開發者得以能夠研發可以進行唇語識別的計算機;2016 年 Google DeepMind 的唇語識別技術就已經可以支持 17500 個詞,新聞測試集識別準確率達到了 50% 以上。

大家一定很好奇唇語識別系統要怎么實現。Amirsina Torfi 等人實現了使用 3D 卷積神經網絡的交叉視聽識別技術進行唇語識別,并將代碼托管到 GitHub 上開源:

傳送門:

https://github.com/astorfi/lip-reading-deeplearning

接下來就為大家介紹如何使用 3D 卷積神經網絡的交叉視聽識別技術進行唇語識別,完整的論文可參閱:

https://ieeexplore.ieee.org/document/8063416

下面是進行唇語識別的簡單實現方法。

用戶需要按照格式準備輸入數據。該項目使用耦合 3D 卷積神經網絡實現了視聽匹配(audio-visual matching)。唇語識別就是這個項目的具體應用之一。

概況

音頻損壞時,視聽語音識別(Audio-visual recognition,AVR)被認為是完成語音識別任務的另一種解決方案,同時,它也是一種在多人場景中用于驗證講話人的視覺識別方法。AVR 系統的方法是利用從某種模態中提取的信息,通過填補缺失的信息來提高另一種模態的識別能力。

▌問題與方法

這項工作的關鍵問題是找出音頻和視頻流之間的對應關系。我們提出了一種耦合 3D 卷積神經網絡架構,該架構可以將兩種模式映射到一個表示空間中,并使用學到的多模態特征來判斷視聽流間的對應關系。

▌如何利用 3D 卷積神經網絡

我們提出的該架構將結合時態信息和空間信息,來有效地發現不同模態的時態信息之間的相關性。我們的方法使用相對較小的網絡架構和更小的數據集,并在性能上優于現有的視聽匹配方法,而現有方法主要使用 CNN來表示特征。我們還證明了有效的對選擇(pair selection)方法可以顯著提高性能。

代碼實現

輸入管道須由用戶提供。其余部分的實現包含基于話語的特征提取的數據集。

▌唇語識別

就唇語識別來講,必須將視頻作為輸入。首先,使用 cd 命令進入相應的目錄:

運行專用的python file如下:

運行上述腳本,通過保存每個幀的嘴部區域來提取唇部動作,并在畫框圈出嘴部區域來創建新的視頻,以便進行更好的可視化。

所需的arguments由以下 Python 腳本定義,VisualizeLip.py文件中已定義該腳本:

一些已定義的參數有其默認值,它們并不需要進一步的操作。

▌處理

視覺部分,視頻通過后期處理,使其幀率相等,均為 30f/s。然后,使用 dlib 庫跟蹤視頻中的人臉和提取嘴部區域。最后,所有嘴部區域都調整為相同的大小,并拼接起來形成輸入特征數據集。數據集并不包含任何音頻文件。使用 FFmpeg 框架從視頻中提取音頻文件。數據處理管道如下圖所示:

▌輸入管道

我們所提出的架構使用兩個不相同的卷積網絡(ConvNet),輸入是一對語音和視頻流。網絡輸入是一對特征,表示從 0.3 秒的視頻中提取的唇部動作和語音特征。主要任務是確定音頻流是否與唇部運動視頻在所需的流持續時間內相對應。在接下來的兩個小節中,我們將分別講解語音和視覺流的輸入。

語音網絡(Speech Net)

在時間軸上,時間特征是非重疊的 20ms 窗口,用來生成局部的頻譜特征。語音特征輸入以圖像數據立方體的形式表示,對應于頻譜圖,以及 MFEC 特征的一階導數和二階導數。這三個通道對應于圖像深度。從一個 0.3 秒的視頻剪輯中,可以導出 15 個時態特征集(每個都形成 40 個 MFEC 特征),這些特征集形成了語音特征立方體。一個音頻流的輸入特征維數為 15x40x3。如下圖所示:

語音特征使用 SpeechPy 包進行提取。

要了解輸入管道是如何工作的,請參閱:

code/speech_input/input_feature.py

視覺網絡(Visual Net)

在這項工作中使用的每個視頻剪輯的幀率是 30 f/s。因此,9 個連續的圖像幀形成 0.3 秒的視頻流。網絡的視頻流的輸入是大小為 9x60x100 的立方體,其中 9 是表示時態信息的幀數。每個通道是嘴部區域的 60x100 灰度圖像。

架構

該架構是一個耦合 3D 卷積神經網絡,其中必須訓練具有不同權重的兩個網絡。在視覺網絡中,唇部運動的空間信息和時態信息相結合,以此來利用時間相關性。在音頻網絡中,提取的能量特征作為空間維度,堆疊的音頻幀構成了時間維度。在我們提出的 3D 卷積神經網絡架構中,卷積運算是在連續的時間幀上對兩個視聽流執行的。

訓練 / 評估

首先,克隆存儲庫。然后,用 cd 命令進入專用目錄:

最后,必須執行train.py文件:

對于評估階段,必須執行類似腳本:

▌運行結果

下面的結果表明了該方法對收斂準確度和收斂速度的影響。

最好的結果,也就是最右邊的結果,屬于我們提出的方法。

所提出的在線對選擇方法的效果如上圖所示。

分析到這,希望大家可以到 Github 上找到源碼,開始練起!附上作者給的代碼演示。

DEMO 演示地址

1.Training/Evaluation :

https://asciinema.org/a/kXIDzZt1UzRioL1gDPzOy9VkZ

2.Lip Tracking:

https://asciinema.org/a/RiZtscEJscrjLUIhZKkoG3GVm

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4590

    瀏覽量

    99224
  • 機器視覺
    +關注

    關注

    161

    文章

    4099

    瀏覽量

    118709
  • 識別技術
    +關注

    關注

    0

    文章

    192

    瀏覽量

    19549

原文標題:唇語識別技術的開源教程,聽不見聲音我也能知道你說什么!

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    使用Python卷積神經網絡(CNN)進行圖像識別的基本步驟

    Python 卷積神經網絡(CNN)在圖像識別領域具有廣泛的應用。通過使用卷積神經網絡,我們可以讓計算機從圖像中學習特征,從而實現對圖像的分
    的頭像 發表于 11-20 11:20 ?2007次閱讀

    基于毫米波雷達的手勢識別神經網絡

    使用3D-CNN對三種手勢進行分類,結果表明識別率為91%。然而,3D-CNN在數據分辨率靈敏度和數據要求方面存在局限性。Ref等人的另一項研究[12]介紹了一種定制的多分支
    發表于 05-23 12:12

    【uFun試用申請】基于cortex-m系列核和卷積神經網絡算法的圖像識別

    項目名稱:基于cortex-m系列核和卷積神經網絡算法的圖像識別試用計劃:本人在圖像識別領域有三年多的學習和開發經驗,曾利用nesys4ddr的fpga開發板,設計過基于cortex-
    發表于 04-09 14:12

    基于賽靈思FPGA的卷積神經網絡實現設計

    ,看一下 FPGA 是否適用于解決大規模機器學習問題。卷積神經網絡是一種深度神經網絡 (DNN),工程師最近開始將該技術用于各種識別任務。圖
    發表于 06-19 07:24

    卷積神經網絡如何使用

    卷積神經網絡(CNN)究竟是什么,鑒于神經網絡在工程上經歷了曲折的歷史,您為什么還會在意它呢? 對于這些非常中肯的問題,我們似乎可以給出相對簡明的答案。
    發表于 07-17 07:21

    可分離卷積神經網絡在 Cortex-M 處理器上實現關鍵詞識別

    ,接下來是密集全連接層?!?深度可分離卷積神經網絡 (DS-CNN)最近,深度可分離卷積神經網絡被推薦為標準 3D
    發表于 07-26 09:46

    卷積神經網絡模型發展及應用

    分析了目前的特殊模型結構,最后總結并討論了卷積神經網絡在相關領域的應用,并對未來的研究方向進行展望。卷積神經網絡(convolutional
    發表于 08-02 10:39

    卷積神經網絡簡介:什么是機器學習?

    通過網絡訓練來確定才能使模型工作。這將在后續文章“訓練卷積神經網絡:什么是機器學習?—第 2 部分”中解釋。第 3 部分將解釋我們討論過的神經網絡
    發表于 02-23 20:11

    3D卷積神經網絡的手勢識別

    傳統2D卷積神經網絡對于視頻連續幀圖像的特征提取容易丟失目標時間軸上的運動信息,導致識別準確度較低。為此,提出一種基于多列深度3D卷積
    發表于 01-30 13:59 ?2次下載
    <b class='flag-5'>3D</b><b class='flag-5'>卷積</b><b class='flag-5'>神經網絡</b>的手勢<b class='flag-5'>識別</b>

    卷積神經網絡的應用 卷積神經網絡通常用來處理什么

    的前饋神經網絡,卷積神經網絡廣泛用于圖像識別、自然語言處理、視頻處理等方面。本文將對卷積神經網絡
    的頭像 發表于 08-21 16:41 ?4332次閱讀

    卷積神經網絡概述 卷積神經網絡的特點 cnn卷積神經網絡的優點

    卷積神經網絡概述 卷積神經網絡的特點 cnn卷積神經網絡的優點?
    的頭像 發表于 08-21 16:41 ?2123次閱讀

    卷積神經網絡如何識別圖像

    為多層卷積層、池化層和全連接層。CNN模型通過訓練識別并學習高度復雜的圖像模式,對于識別物體和進行圖像分類等任務有著非常優越的表現。本文將會詳細介紹
    的頭像 發表于 08-21 16:49 ?1565次閱讀

    卷積神經網絡的基本原理 卷積神經網絡發展 卷積神經網絡三大特點

    中最重要的神經網絡之一。它是一種由多個卷積層和池化層(也可稱為下采樣層)組成的神經網絡。CNN 的基本思想是以圖像為輸入,通過網絡卷積、下
    的頭像 發表于 08-21 16:49 ?1610次閱讀

    卷積神經網絡的介紹 什么是卷積神經網絡算法

    卷積神經網絡的介紹 什么是卷積神經網絡算法 卷積神經網絡涉及的關鍵
    的頭像 發表于 08-21 16:49 ?1524次閱讀

    圖像識別卷積神經網絡模型

    圖像識別卷積神經網絡模型 隨著計算機技術的快速發展和深度學習的迅速普及,圖像識別卷積
    的頭像 發表于 08-21 17:11 ?604次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>