<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一項新的視聽分割任務

OpenCV學堂 ? 來源:量子位 ? 作者:量子位 ? 2022-08-08 10:23 ? 次閱讀

聽到“唔哩——唔哩——”的警笛聲,你可以迅速判斷出聲音來自路過的一輛急救車。

能不能讓AI根據音頻信號得到發聲物完整的、精細化的掩碼圖呢?

來自合肥工業大學、商湯、澳國立、北航、英偉達、港大和上海人工智能實驗室的研究者提出了一項新的視聽分割任務(Audio-Visual Segmentation, AVS)。

視聽分割,就是要分割出發聲物,而后生成發聲物的精細化分割圖。

相應的,研究人員提出了第一個具有像素級標注的視聽數據集AVSBench。

新任務、新的數據集,搞算法的又有新坑可以卷了。

最新放榜結果,該論文已被ECCV 2022接受。

精準鎖定發聲物

聽覺和視覺是人類感知世界中最重要的兩個傳感器。生活里,聲音信號和視覺信號往往是互補的。

視聽表征學習(audio-visual learning)已經催生了很多有趣的任務,比如視聽通信(AVC)、視聽事件定位(AVEL)、視頻解析(AVVP)、聲源定位(SSL)等。

這里面既有判定音像是否描述同一事件/物體的分類任務,也有以熱力圖可視化大致定位發聲物的任務。

但無論哪一種,離精細化的視聽場景理解都差點意思。

9a6bb8d6-14bc-11ed-ba43-dac502259ad0.png

△ AVS 任務與 SSL 任務的比較

視聽分割“迎難而上”,提出要準確分割出視頻幀中正在發聲的物體全貌——

即以音頻為指導信號,確定分割哪個物體,并得到其完整的像素級掩碼圖。

AVSBench 數據集

要怎么研究這個新任務呢?

鑒于當前還沒有視聽分割的開源數據集,研究人員提出AVSBench 數據集,借助它研究了新任務的兩種設置:

1、單聲源(Single-source)下的視聽分割 2、多聲源(Multi-sources)下的視聽分割

數據集中的每個視頻時長5秒。

單聲源子集包含23類,共4932個視頻,包含嬰兒、貓狗、吉他、賽車、除草機等與日常生活息息相關的發聲物。

9a9b0956-14bc-11ed-ba43-dac502259ad0.png

△AVSBench單源子集的數據分布

多聲源子集則包含了424個視頻。

結合難易情況,單聲源子集在半監督條件下進行,多聲源子集則以全監督條件進行。

研究人員對AVSBench里的每個視頻等間隔采樣5幀,然后人工對發聲體進行像素級標注。

對于單聲源子集,僅標注采樣的第一張視頻幀;對于多聲源子集,5幀圖像都被標注——這就是所謂的半監督和全監督。

9aaee368-14bc-11ed-ba43-dac502259ad0.png

△對單聲源子集和多聲源子集進行不同人工標注

這種像素級的標注,避免了將很多非發聲物或背景給包含進來,從而增加了模型驗證的準確性。

一個簡單的baseline方法

有了數據集,研究人員還拋磚引玉,在文中給了個簡單的baseline。

吸收傳統語義分割模型的成功經驗,研究人員提出了一個端到端的視聽分割模型。

9ce74d64-14bc-11ed-ba43-dac502259ad0.png

△視聽分割框架圖

這個模型遵循編碼器-解碼器的網絡架構,輸入視頻幀,最終直接輸出分割掩碼。

另外,還有兩個網絡優化目標。

一是計算預測圖和真實標簽的損失。

而針對多聲源情況,研究人員提出了掩碼視聽匹配損失函數,用來約束發聲物和音頻特征在特征空間中保持相似分布。

部分實驗結果

光說不練假把式,研究人員進行了廣泛實驗。

首先,將視聽分割與相關任務的6種方法進行了比較,研究人員選取了聲源定位(SSL)、視頻物體分割(VOS)、顯著性物體檢測(SOD)任務上的各兩個SOTA方法。

實驗結果表明,視聽分割在多個指標下取得了最佳結果。

9d05089a-14bc-11ed-ba43-dac502259ad0.png

△和來自相關任務方法進行視聽分割的對比結果

其次,研究人員進行了一系列消融實驗,驗證出,利用TPAVI模塊,單聲源和多聲源設置下采用兩種backbone的視聽分割模型都能得到更大的提升。

9d1434aa-14bc-11ed-ba43-dac502259ad0.png

△引入音頻的TPAVI模塊,可以更好地處理物體的形狀細節(左圖),并且有助于分割出正確的發聲物(右圖)

對于新任務的視聽匹配損失函數,實驗還驗證了其有效性。

9d24a2a4-14bc-11ed-ba43-dac502259ad0.png

△視聽匹配損失函數的有效性

One More Thing

文中還提到,AVSBench數據集不僅可以用于所提出的視聽分割模型的訓練、測試,其也可以用于驗證聲源定位模型。

研究人員在項目主頁上表示,正在準備比AVSBench大10倍的AVSBench-v2。

審核編輯:彭靜

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    42

    文章

    3414

    瀏覽量

    132003
  • AI
    AI
    +關注

    關注

    87

    文章

    27061

    瀏覽量

    264828
  • 數據集
    +關注

    關注

    4

    文章

    1182

    瀏覽量

    24443

原文標題:聽聲辨物,這是AI視覺該干的???|ECCV 2022

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    新人求幣 protel 99SE 符號生成圖紙這一項怎么使用?

    符號生成圖紙這一項怎么使用?PCB打樣找華強 http://www.hqpcb.com 樣板2天出貨
    發表于 12-20 19:20

    選擇下拉列表中的一項 彈出個窗口

    求助:如何實現點擊labview下拉列表中的一項 對應的彈出個窗口 請各位高手指點~~~~
    發表于 09-26 16:57

    下圖中的與打開文件相連的枚舉常量是自己一項一項編輯...

    下圖中的與打開文件相連的枚舉常量是自己一項一項編輯的還是自動就有的?
    發表于 03-17 21:39

    大二學生發明×××,填補一項空白

    經??吹酱蠖W生發明×××,填補一項空白,好像人才輩出?實際上全是假的,這些人搞的發明既不實用,又不是什么新理論,騙錢的騙名譽的??萍疾恳膊还芄?,國企的電動汽車項目全都不能超過國外,既然科研目標達不到,還搞科研做什么?應當規定,凡是科研目標達不到的,就不撥款。已經撥款的,責任設計師下崗!
    發表于 09-29 22:26

    一項目,錄音+實時通話變聲 用于電話

    一項目,錄音+實時通話變聲 用于電話機,有興趣加Q1503523511,電話***。
    發表于 04-28 20:51

    51單片機的個引腳是否只能執行一項功能?

    51單片機的個引腳是否只能執行一項功能?比如說,控制蜂鳴器的引腳如果用來控制蜂鳴器的話,還可以用作其他的功能來控制其他元件嗎?單片機控制步進電機時,可以另外用電源給步進電機供電嗎?還是直接用達林頓?
    發表于 06-22 18:03

    如何讀取下拉列表中的某一項

    現在我做的是個查詢的功能,通過下拉列表的選項來選擇相應的文件,但是不知道怎樣讀取所選擇的那一項例如選擇了糧倉3濕度,2016/11/4日,要打開相應的數據文件
    發表于 11-08 21:33

    我的一項節能發明,應該如何推廣

    我的一項節能發明,不知應該如何推廣,請大師們指點,視頻連接地址:https://v.youku.com/v_show/id_XMzk1MTY4NTkzNg==.html?spm=a2h0k.11417342.soresults.dposter不足之處請指出謝謝
    發表于 12-06 20:12

    DropDown小工具不知道當前選擇的是哪一項

    DropDown小工具的API就這么多,真不知道那個函數能返回當前選擇的是哪一項,就算是返回選擇的索引的函數也沒有,都不知道當前選擇的是哪一項,那這個DropDown小工具還有什么用,難道只能做出來當擺設,看了例程也沒有用它選擇的是哪
    發表于 03-09 23:06

    請教Ring控件刪除最后一項

    請問:Ring控件,刪除其下拉內容最后一項,顯示不正常(如顯示為:),怎樣糾正?
    發表于 04-12 17:09

    關于電機驅動原理的動畫,哪位大佬可以分享一項嗎?

    關于電機驅動原理的動畫,哪位大佬可以分享一項嗎?
    發表于 10-13 06:17

    鴻蒙UI分割線的效果是怎么開發的?

    如題,用Java還是JavaScript?還是用布局文件解決?例如每一項分割線,按壓后有按壓的效果。如果用Java或者可否給個參考。JavaScript文件麻煩給個參考,謝謝!
    發表于 05-10 11:09

    通過任務分割提高嵌入式系統的實時性

    分析長任務對嵌入式系統實時性的影響,在此基礎上提出任務分割是提高嵌入式系統實時性的一種有效途徑; 總結長任務分割的方法, 給出一個通過
    發表于 05-15 15:07 ?4次下載

    跨圖像關系型KD方法語義分割任務-CIRKD

    語義分割任務作為計算機視覺中的基礎任務之一,其目的是對圖像中的每一個像素進行分類。該任務也被廣泛應用于實踐,例如自動駕駛和醫學圖像分割。
    的頭像 發表于 05-10 11:30 ?2153次閱讀
    跨圖像關系型KD方法語義<b class='flag-5'>分割</b><b class='flag-5'>任務</b>-CIRKD

    研究者提出了一項新的視聽分割任務

    視聽表征學習(audio-visual learning)已經催生了很多有趣的任務,比如視聽通信(AVC)、視聽事件定位(AVEL)、視頻解析(AVVP)、聲源定位(SSL)等。
    的頭像 發表于 08-08 16:45 ?651次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>