<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

使用3D卷積神經網絡的交叉視聽識別技術進行唇語識別

唇語識別系統使用機器視覺技術，從圖像中連續識別出人臉，判斷其中正在說話的人，提取此人連續的口型變化特征，隨即將連續變化的特征輸入到唇語識別模型中，識別出講話人口型對應的發音，隨后根據識別出的發音，計算出可能性最大的自然語言語句。

唇語識別并非最近才出現的技術，早在 2003 年，Intel 就開發了唇語識別軟件 Audio Visual Speech Recognition（AVSR），開發者得以能夠研發可以進行唇語識別的計算機；2016 年 Google DeepMind 的唇語識別技術就已經可以支持 17500 個詞，新聞測試集識別準確率達到了 50% 以上。

大家一定很好奇唇語識別系統要怎么實現。Amirsina Torfi 等人實現了使用 3D 卷積神經網絡的交叉視聽識別技術進行唇語識別，并將代碼托管到 GitHub 上開源：

傳送門：

https://github.com/astorfi/lip-reading-deeplearning

接下來就為大家介紹如何使用 3D 卷積神經網絡的交叉視聽識別技術進行唇語識別，完整的論文可參閱：

https://ieeexplore.ieee.org/document/8063416

下面是進行唇語識別的簡單實現方法。

用戶需要按照格式準備輸入數據。該項目使用耦合 3D 卷積神經網絡實現了視聽匹配（audio-visual matching）。唇語識別就是這個項目的具體應用之一。

概況

當音頻損壞時，視聽語音識別（Audio-visual recognition，AVR）被認為是完成語音識別任務的另一種解決方案，同時，它也是一種在多人場景中用于驗證講話人的視覺識別方法。AVR 系統的方法是利用從某種模態中提取的信息，通過填補缺失的信息來提高另一種模態的識別能力。

▌問題與方法

這項工作的關鍵問題是找出音頻和視頻流之間的對應關系。我們提出了一種耦合 3D 卷積神經網絡架構，該架構可以將兩種模式映射到一個表示空間中，并使用學到的多模態特征來判斷視聽流間的對應關系。

▌如何利用 3D 卷積神經網絡

我們提出的該架構將結合時態信息和空間信息，來有效地發現不同模態的時態信息之間的相關性。我們的方法使用相對較小的網絡架構和更小的數據集，并在性能上優于現有的視聽匹配方法，而現有方法主要使用 CNN來表示特征。我們還證明了有效的對選擇（pair selection）方法可以顯著提高性能。

代碼實現

輸入管道須由用戶提供。其余部分的實現包含基于話語的特征提取的數據集。

▌唇語識別

就唇語識別來講，必須將視頻作為輸入。首先，使用 cd 命令進入相應的目錄：

運行專用的python file如下：

運行上述腳本，通過保存每個幀的嘴部區域來提取唇部動作，并在畫框圈出嘴部區域來創建新的視頻，以便進行更好的可視化。

所需的arguments由以下 Python 腳本定義，VisualizeLip.py文件中已定義該腳本：

一些已定義的參數有其默認值，它們并不需要進一步的操作。

▌處理

視覺部分，視頻通過后期處理，使其幀率相等，均為 30f/s。然后，使用 dlib 庫跟蹤視頻中的人臉和提取嘴部區域。最后，所有嘴部區域都調整為相同的大小，并拼接起來形成輸入特征數據集。數據集并不包含任何音頻文件。使用 FFmpeg 框架從視頻中提取音頻文件。數據處理管道如下圖所示：

▌輸入管道

我們所提出的架構使用兩個不相同的卷積網絡（ConvNet），輸入是一對語音和視頻流。網絡輸入是一對特征，表示從 0.3 秒的視頻中提取的唇部動作和語音特征。主要任務是確定音頻流是否與唇部運動視頻在所需的流持續時間內相對應。在接下來的兩個小節中，我們將分別講解語音和視覺流的輸入。

語音網絡（Speech Net）

在時間軸上，時間特征是非重疊的 20ms 窗口，用來生成局部的頻譜特征。語音特征輸入以圖像數據立方體的形式表示，對應于頻譜圖，以及 MFEC 特征的一階導數和二階導數。這三個通道對應于圖像深度。從一個 0.3 秒的視頻剪輯中，可以導出 15 個時態特征集（每個都形成 40 個 MFEC 特征），這些特征集形成了語音特征立方體。一個音頻流的輸入特征維數為 15x40x3。如下圖所示：

語音特征使用 SpeechPy 包進行提取。

要了解輸入管道是如何工作的，請參閱：

code/speech_input/input_feature.py

視覺網絡（Visual Net）

在這項工作中使用的每個視頻剪輯的幀率是 30 f/s。因此，9 個連續的圖像幀形成 0.3 秒的視頻流。網絡的視頻流的輸入是大小為 9x60x100 的立方體，其中 9 是表示時態信息的幀數。每個通道是嘴部區域的 60x100 灰度圖像。

架構

該架構是一個耦合 3D 卷積神經網絡，其中必須訓練具有不同權重的兩個網絡。在視覺網絡中，唇部運動的空間信息和時態信息相結合，以此來利用時間相關性。在音頻網絡中，提取的能量特征作為空間維度，堆疊的音頻幀構成了時間維度。在我們提出的 3D 卷積神經網絡架構中，卷積運算是在連續的時間幀上對兩個視聽流執行的。

訓練 / 評估

首先，克隆存儲庫。然后，用 cd 命令進入專用目錄：

最后，必須執行train.py文件：

對于評估階段，必須執行類似腳本：

▌運行結果

下面的結果表明了該方法對收斂準確度和收斂速度的影響。

最好的結果，也就是最右邊的結果，屬于我們提出的方法。

所提出的在線對選擇方法的效果如上圖所示。

分析到這，希望大家可以到 Github 上找到源碼，開始練起！附上作者給的代碼演示。

DEMO 演示地址

1.Training/Evaluation ：

https://asciinema.org/a/kXIDzZt1UzRioL1gDPzOy9VkZ

2.Lip Tracking：

https://asciinema.org/a/RiZtscEJscrjLUIhZKkoG3GVm

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4590

瀏覽量
99224
機器視覺

機器視覺

+關注

關注
161

文章
4099

瀏覽量
118709
識別技術

識別技術

+關注

關注
0

文章
192

瀏覽量
19549

原文標題：唇語識別技術的開源教程，聽不見聲音我也能知道你說什么！

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

使用Python卷積神經網絡(CNN)進行圖像識別的基本步驟

Python 卷積神經網絡（CNN）在圖像識別領域具有廣泛的應用。通過使用卷積神經網絡，我們可以讓計算機從圖像中學習特征，從而實現對圖像的分

的頭像

發表于 11-20 11:20 ?2007次閱讀

基于毫米波雷達的手勢識別神經網絡

使用3D-CNN對三種手勢進行分類，結果表明識別率為91%。然而，3D-CNN在數據分辨率靈敏度和數據要求方面存在局限性。Ref等人的另一項研究[12]介紹了一種定制的多分支

發表于 05-23 12:12

【uFun試用申請】基于cortex-m系列核和卷積神經網絡算法的圖像識別

項目名稱：基于cortex-m系列核和卷積神經網絡算法的圖像識別試用計劃：本人在圖像識別領域有三年多的學習和開發經驗，曾利用nesys4ddr的fpga開發板，設計過基于cortex-

發表于 04-09 14:12

基于賽靈思FPGA的卷積神經網絡實現設計

，看一下 FPGA 是否適用于解決大規模機器學習問題。卷積神經網絡是一種深度神經網絡 (DNN)，工程師最近開始將該技術用于各種識別任務。圖

發表于 06-19 07:24

卷積神經網絡如何使用

卷積神經網絡(CNN)究竟是什么，鑒于神經網絡在工程上經歷了曲折的歷史，您為什么還會在意它呢? 對于這些非常中肯的問題，我們似乎可以給出相對簡明的答案。

發表于 07-17 07:21

可分離卷積神經網絡在 Cortex-M 處理器上實現關鍵詞識別

，接下來是密集全連接層?！?深度可分離卷積神經網絡 (DS-CNN)最近，深度可分離卷積神經網絡被推薦為標準 3D

發表于 07-26 09:46

卷積神經網絡模型發展及應用

分析了目前的特殊模型結構，最后總結并討論了卷積神經網絡在相關領域的應用，并對未來的研究方向進行展望。卷積神經網絡（convolutional

發表于 08-02 10:39

卷積神經網絡簡介：什么是機器學習？

通過網絡訓練來確定才能使模型工作。這將在后續文章“訓練卷積神經網絡：什么是機器學習？—第 2 部分”中解釋。第 3 部分將解釋我們討論過的神經網絡

發表于 02-23 20:11

3D卷積神經網絡的手勢識別

傳統2D卷積神經網絡對于視頻連續幀圖像的特征提取容易丟失目標時間軸上的運動信息，導致識別準確度較低。為此，提出一種基于多列深度3D卷積

發表于 01-30 13:59 ?2次下載

卷積神經網絡的應用卷積神經網絡通常用來處理什么

的前饋神經網絡，卷積神經網絡廣泛用于圖像識別、自然語言處理、視頻處理等方面。本文將對卷積神經網絡

發表于 08-21 16:41 ?4332次閱讀

卷積神經網絡概述卷積神經網絡的特點 cnn卷積神經網絡的優點

卷積神經網絡概述卷積神經網絡的特點 cnn卷積神經網絡的優點?

發表于 08-21 16:41 ?2123次閱讀

卷積神經網絡如何識別圖像

為多層卷積層、池化層和全連接層。CNN模型通過訓練識別并學習高度復雜的圖像模式，對于識別物體和進行圖像分類等任務有著非常優越的表現。本文將會詳細介紹

發表于 08-21 16:49 ?1565次閱讀

卷積神經網絡的基本原理卷積神經網絡發展卷積神經網絡三大特點

中最重要的神經網絡之一。它是一種由多個卷積層和池化層（也可稱為下采樣層）組成的神經網絡。CNN 的基本思想是以圖像為輸入，通過網絡的卷積、下

發表于 08-21 16:49 ?1610次閱讀

卷積神經網絡的介紹什么是卷積神經網絡算法

卷積神經網絡的介紹什么是卷積神經網絡算法卷積神經網絡涉及的關鍵

發表于 08-21 16:49 ?1524次閱讀

圖像識別卷積神經網絡模型

圖像識別卷積神經網絡模型隨著計算機技術的快速發展和深度學習的迅速普及，圖像識別卷積

發表于 08-21 17:11 ?604次閱讀

精選推薦
更多

文章

資料

帖子

Lunar Lake:NPU性能全面提升，能耗也大幅降低，綜合AI算力提升至120TOPS

eeDesign
6小時前

197 閱讀

鴻蒙ArkTS聲明式開發：跨平臺支持列表【Popup控制】通用屬性

jf_46214456
7小時前

191 閱讀

淺析應急照明系統在化工的應用和選型

聞什益
7小時前

93 閱讀

功率放大器工作狀態分類

jf_47717411
8小時前

130 閱讀

鴻蒙Ability Kit（程序框架服務）【UIExtensionAbility】

jf_46214456
12小時前

296 閱讀

LED熱學參數測試研究

3lovelove
84

免費

0下載

那些知名企業的PCB設計工藝及規范（強推收藏）

ah此生不換
1.97 MB

10積分

0下載

fast-poster海報生成器

石飛鵬
3.56 MB

免費

1下載

ImageHosting免費圖床聚合平臺

李義坤
0.02 MB

免費

0下載

cppweb web服務器

djfldsthtr
32.96 MB

免費

0下載

全志D1s軟件入門之Tina Linux燒寫教程

corkia
22小時前

176 閱讀

IR2101S的HO輸出和VS電平一樣？沒有方波輸出是直流電？

jf_17922409
22小時前

281 閱讀

全志D1s軟件入門之Tina Linux編譯教程

corkia
22小時前

193 閱讀

各位大神，CADENCE背鉆設置不成功，請問如何解決？

JSY6666
1天前

300 閱讀

整流橋并聯電容后為何會炸？

jf_70570024
1天前

374 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看