<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

一項新的視聽分割任務

聽到“唔哩——唔哩——”的警笛聲，你可以迅速判斷出聲音來自路過的一輛急救車。

能不能讓AI根據音頻信號得到發聲物完整的、精細化的掩碼圖呢？

來自合肥工業大學、商湯、澳國立、北航、英偉達、港大和上海人工智能實驗室的研究者提出了一項新的視聽分割任務（Audio-Visual Segmentation， AVS）。

視聽分割，就是要分割出發聲物，而后生成發聲物的精細化分割圖。

相應的，研究人員提出了第一個具有像素級標注的視聽數據集AVSBench。

新任務、新的數據集，搞算法的又有新坑可以卷了。

據最新放榜結果，該論文已被ECCV 2022接受。

精準鎖定發聲物

聽覺和視覺是人類感知世界中最重要的兩個傳感器。生活里，聲音信號和視覺信號往往是互補的。

視聽表征學習（audio-visual learning）已經催生了很多有趣的任務，比如視聽通信（AVC）、視聽事件定位（AVEL）、視頻解析（AVVP）、聲源定位（SSL）等。

這里面既有判定音像是否描述同一事件/物體的分類任務，也有以熱力圖可視化大致定位發聲物的任務。

但無論哪一種，離精細化的視聽場景理解都差點意思。

△ AVS 任務與 SSL 任務的比較

視聽分割“迎難而上”，提出要準確分割出視頻幀中正在發聲的物體全貌——

即以音頻為指導信號，確定分割哪個物體，并得到其完整的像素級掩碼圖。

AVSBench 數據集

要怎么研究這個新任務呢？

鑒于當前還沒有視聽分割的開源數據集，研究人員提出AVSBench 數據集，借助它研究了新任務的兩種設置：

1、單聲源（Single-source）下的視聽分割 2、多聲源（Multi-sources）下的視聽分割

數據集中的每個視頻時長5秒。

單聲源子集包含23類，共4932個視頻，包含嬰兒、貓狗、吉他、賽車、除草機等與日常生活息息相關的發聲物。

△AVSBench單源子集的數據分布

多聲源子集則包含了424個視頻。

結合難易情況，單聲源子集在半監督條件下進行，多聲源子集則以全監督條件進行。

研究人員對AVSBench里的每個視頻等間隔采樣5幀，然后人工對發聲體進行像素級標注。

對于單聲源子集，僅標注采樣的第一張視頻幀；對于多聲源子集，5幀圖像都被標注——這就是所謂的半監督和全監督。

△對單聲源子集和多聲源子集進行不同人工標注

這種像素級的標注，避免了將很多非發聲物或背景給包含進來，從而增加了模型驗證的準確性。

一個簡單的baseline方法

有了數據集，研究人員還拋磚引玉，在文中給了個簡單的baseline。

吸收傳統語義分割模型的成功經驗，研究人員提出了一個端到端的視聽分割模型。

△視聽分割框架圖

這個模型遵循編碼器-解碼器的網絡架構，輸入視頻幀，最終直接輸出分割掩碼。

另外，還有兩個網絡優化目標。

一是計算預測圖和真實標簽的損失。

而針對多聲源情況，研究人員提出了掩碼視聽匹配損失函數，用來約束發聲物和音頻特征在特征空間中保持相似分布。

部分實驗結果

光說不練假把式，研究人員進行了廣泛實驗。

首先，將視聽分割與相關任務的6種方法進行了比較，研究人員選取了聲源定位（SSL）、視頻物體分割（VOS）、顯著性物體檢測（SOD）任務上的各兩個SOTA方法。

實驗結果表明，視聽分割在多個指標下取得了最佳結果。

△和來自相關任務方法進行視聽分割的對比結果

其次，研究人員進行了一系列消融實驗，驗證出，利用TPAVI模塊，單聲源和多聲源設置下采用兩種backbone的視聽分割模型都能得到更大的提升。

△引入音頻的TPAVI模塊，可以更好地處理物體的形狀細節（左圖），并且有助于分割出正確的發聲物（右圖）

對于新任務的視聽匹配損失函數，實驗還驗證了其有效性。

△視聽匹配損失函數的有效性

One More Thing

文中還提到，AVSBench數據集不僅可以用于所提出的視聽分割模型的訓練、測試，其也可以用于驗證聲源定位模型。

研究人員在項目主頁上表示，正在準備比AVSBench大10倍的AVSBench-v2。

審核編輯：彭靜

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

編碼器

編碼器

+關注

關注
42

文章
3414

瀏覽量
132003
AI

AI

+關注

關注
87

文章
27061

瀏覽量
264828
數據集

數據集

+關注

關注
4

文章
1182

瀏覽量
24443

原文標題：聽聲辨物，這是AI視覺該干的？？？｜ECCV 2022

文章出處：【微信號：CVSCHOOL，微信公眾號：OpenCV學堂】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

新人求幣 protel 99SE 符號生成圖紙這一項怎么使用？

符號生成圖紙這一項怎么使用？PCB打樣找華強 http://www.hqpcb.com 樣板2天出貨

發表于 12-20 19:20

選擇下拉列表中的一項彈出一個窗口

求助：如何實現點擊labview下拉列表中的一項對應的彈出一個窗口請各位高手指點~~~~

發表于 09-26 16:57

下圖中的與打開文件相連的枚舉常量是自己一項一項編輯...

下圖中的與打開文件相連的枚舉常量是自己一項一項編輯的還是自動就有的？

發表于 03-17 21:39

大二學生發明×××，填補一項空白

經?？吹酱蠖W生發明×××，填補一項空白，好像人才輩出？實際上全是假的，這些人搞的發明既不實用，又不是什么新理論，騙錢的騙名譽的?？萍疾恳膊还芄?，國企的電動汽車項目全都不能超過國外，既然科研目標達不到，還搞科研做什么？應當規定，凡是科研目標達不到的，就不撥款。已經撥款的，責任設計師下崗！

發表于 09-29 22:26

有一項目，錄音+實時通話變聲用于電話

有一項目，錄音+實時通話變聲用于電話機，有興趣加Q1503523511，電話***。

發表于 04-28 20:51

51單片機的一個引腳是否只能執行一項功能？

51單片機的一個引腳是否只能執行一項功能？比如說，控制蜂鳴器的引腳如果用來控制蜂鳴器的話，還可以用作其他的功能來控制其他元件嗎？單片機控制步進電機時，可以另外用電源給步進電機供電嗎？還是直接用達林頓？

發表于 06-22 18:03

如何讀取下拉列表中的某一項

現在我做的是一個查詢的功能，通過下拉列表的選項來選擇相應的文件，但是不知道怎樣讀取所選擇的那一項例如選擇了糧倉3濕度，2016/11/4日，要打開相應的數據文件

發表于 11-08 21:33

我的一項節能發明，應該如何推廣

我的一項節能發明，不知應該如何推廣，請大師們指點，視頻連接地址：https://v.youku.com/v_show/id_XMzk1MTY4NTkzNg==.html?spm=a2h0k.11417342.soresults.dposter不足之處請指出謝謝

發表于 12-06 20:12

DropDown小工具不知道當前選擇的是哪一項

DropDown小工具的API就這么多,真不知道那個函數能返回當前選擇的是哪一項,就算是返回選擇的索引的函數也沒有,都不知道當前選擇的是哪一項,那這個DropDown小工具還有什么用,難道只能做出來當擺設,看了例程也沒有用它選擇的是哪一

發表于 03-09 23:06

請教Ring控件刪除最后一項

請問：Ring控件，刪除其下拉內容最后一項，顯示不正常（如顯示為：），怎樣糾正？

發表于 04-12 17:09

關于電機驅動原理的動畫，哪位大佬可以分享一項嗎？

關于電機驅動原理的動畫，哪位大佬可以分享一項嗎？

發表于 10-13 06:17

鴻蒙UI分割線的效果是怎么開發的？

如題，用Java還是JavaScript？還是用布局文件解決？例如每一項的分割線，按壓后有按壓的效果。如果用Java或者可否給個參考。JavaScript文件麻煩給個參考，謝謝！

發表于 05-10 11:09

通過任務分割提高嵌入式系統的實時性

分析長任務對嵌入式系統實時性的影響，在此基礎上提出任務分割是提高嵌入式系統實時性的一種有效途徑；總結長任務分割的方法，給出一個通過

發表于 05-15 15:07 ?4次下載

跨圖像關系型KD方法語義分割任務-CIRKD

語義分割任務作為計算機視覺中的基礎任務之一，其目的是對圖像中的每一個像素進行分類。該任務也被廣泛應用于實踐，例如自動駕駛和醫學圖像分割。

發表于 05-10 11:30 ?2153次閱讀

研究者提出了一項新的視聽分割任務

視聽表征學習（audio-visual learning）已經催生了很多有趣的任務，比如視聽通信（AVC）、視聽事件定位（AVEL）、視頻解析（AVVP）、聲源定位（SSL）等。

發表于 08-08 16:45 ?651次閱讀

OpenCV學堂
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 灰度共生矩陣(GLCM)基本原理
Hot UNet和UNet++：醫學影像經典分割網絡對比

New OpenCV圖像降噪算法的中值濾波與高斯濾波詳解
New OpenCV圖像卷積與濾波詳解

精選推薦
更多

文章

資料

帖子

采用144核，能效提升66%！英特爾至強6處理器震撼上市，加速數據中心升級

章鷹觀察
10小時前

631 閱讀

如何移植FFmpeg

ElfBoard
2天前

534 閱讀

基于Arm Cortex-CM85內核的RA8D1作為控制器通過MIPI DSI實現LVGL顯示

瑞薩MCU小百科
2天前

756 閱讀

便攜式直流接地故障查找儀如何使用——每日了解電力知識

武漢摩恩
2天前

778 閱讀

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
2天前

801 閱讀

svelte-intellij Svelte的IDEA插件

h1654155275.5741
0.51 MB

免費

1下載

adkill--過濾視頻廣告

h1654155272.9717
72.61 MB

免費

1下載

FastGithub GitHub加速器

甘滿盛
18.24 MB

免費

2下載

DoraemonKit客戶端（iOS、Android）研發助手

倪山騁
22.85 MB

免費

1下載

Multiavatar多元文化頭像生成器

efwedfd
1.27 MB

免費

1下載

I.MX6ULL-飛凌 ElfBoard ELF1板卡 - 如何在Ubuntu中編譯OpenCV庫(X86架構）

jf_25331175
3天前

670 閱讀

鴻蒙原生應用元服務開發-設備管理USB服務開發場景與接口

李洋水蛟龍
3天前

292 閱讀

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 如何在Ubuntu中編譯OpenCV庫

jf_25331175
3天前

856 閱讀

【留言有禮】佳節至，分享“粽”要記憶，傳遞溫馨祝福，贏取精美禮品！

ElecFans小喇叭
4天前

907 閱讀

無刷電機用的單電阻采樣的FOC，拿天線貼著電機線或者貼近采樣芯片，電機就會停轉

剛剛回國弄
4天前

1409 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看