0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區
會(huì )員中心
創(chuàng )作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內不再提示

深度學(xué)習在全景視覺(jué)上的應用及未來(lái)展望

新機器視覺(jué) ? 來(lái)源:arxiv ? 作者:arxiv ? 2022-10-19 15:25 ? 次閱讀

作者:Hao Ai,Zidong Cao,Jinjing Zhu,Haotian Bai,Yucheng Chen,Lin Wang

本綜述來(lái)自于香港科技大學(xué)(廣州)王林團隊,對現有的深度學(xué)習在全景視覺(jué)上的應用進(jìn)行了全面的回顧,并提供了一些新的觀(guān)點(diǎn)以及對全景視覺(jué)未來(lái)的應用展望。

本文首先對全景圖像的成像進(jìn)行了分析,緊接著(zhù)對現有的在全景圖像上的卷積方式進(jìn)行了分類(lèi)介紹,并對現有的全景圖像數據集進(jìn)行了收集并介紹。作為第一篇全面回顧和分析深度學(xué)習方法在全景圖像應用上的綜述,我們匯總并分析對比了在眾多視覺(jué)任務(wù)上現有深度學(xué)習方法的相同與差異。最后,我們提供了一些全景圖像的新的應用方向的研究思路,以供研究者參考討論。

1、Abstract

全向圖像(ODI)數據是用360a71a99b0-4ec0-11ed-a3b6-dac502259ad0.pngx180a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png的視場(chǎng)捕獲的,該視場(chǎng)比針孔相機寬得多,并且包含比傳統平面圖像更豐富的空間信息。因此,全景視覺(jué)因其在自動(dòng)駕駛和虛擬現實(shí)等眾多應用中更具優(yōu)勢的性能而引起了人們的廣泛關(guān)注。近年來(lái),客戶(hù)級360a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png相機的出現使得全景視覺(jué)更加流行,深度學(xué)習(DL)的進(jìn)步顯著(zhù)激發(fā)了其研究和應用。本文對深度學(xué)習方法在全景視覺(jué)方面的最新進(jìn)展進(jìn)行了系統、全面的綜述和分析。作者的工作包括四個(gè)主要內容:(一)介紹全向成像原理,ODI上的卷積方法,以及數據集,以突出與2D平面圖像數據相比的差異和困難;(二) 用于全景視覺(jué)的遠程學(xué)習方法的結構和層次分類(lèi);(三) 總結最新的新學(xué)習戰略和應用;(四) 通過(guò)強調潛在的研究方向,對挑戰和懸而未決的問(wèn)題進(jìn)行有見(jiàn)地的討論,以促進(jìn)社區中的更多研究。

2、Introduction

隨著(zhù)3D技術(shù)的飛速發(fā)展和對逼真視覺(jué)體驗的追求,對計算機視覺(jué)的研究興趣逐漸從傳統的2D平面圖像數據轉向全向圖像(ODI)數據,也稱(chēng)為360a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png圖像、全景圖像或球形圖像數據。由360a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png攝像機捕獲的ODI數據產(chǎn)生360a71a99b0-4ec0-11ed-a3b6-dac502259ad0.pngx180a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png視場(chǎng)(FoV),這比針孔相機寬得多;因此,它可以通過(guò)反射比傳統平面圖像更豐富的空間信息來(lái)捕獲整個(gè)周?chē)h(huán)境。由于沉浸式體驗和完整視圖,ODI數據已廣泛應用于眾多應用,例如增強現實(shí)(AR)/虛擬現實(shí)(VR),自動(dòng)駕駛和機器人導航。通常,原始ODI數據表示為等距柱狀投影(ERP)或立方體圖投影(CP)以與成像管道一致。作為一個(gè)新穎的數據領(lǐng)域,ODI數據既具有領(lǐng)域獨特的優(yōu)勢(球面成像的寬FoV,豐富的幾何信息,多種投影類(lèi)型)也具有挑戰性(ERP類(lèi)型中的嚴重失真,CP格式的內容不連續性)。這使得對全景視覺(jué)的研究變得有價(jià)值,但具有挑戰性。

最近,客戶(hù)級360a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png相機的出現使全景視覺(jué)更加普及,深度學(xué)習(DL)的進(jìn)步極大地促進(jìn)了其研究和應用。特別是作為一項數據驅動(dòng)的技術(shù),公共數據集的持續發(fā)布,包括:SUN360、Salient 360、Stanford2D3D、Pano-AVQA和PanoContext數據集等等,已經(jīng)迅速使深度學(xué)習方法取得了顯著(zhù)的突破,并經(jīng)常在各種全景視覺(jué)任務(wù)上實(shí)現最先進(jìn)的(SoTA)性能。此外,還開(kāi)發(fā)了各種基于不同架構的深度神經(jīng)網(wǎng)絡(luò )(DNN)模型,從卷積神經(jīng)網(wǎng)絡(luò )(CNN),遞歸神經(jīng)網(wǎng)絡(luò )(RNN),生成對抗網(wǎng)絡(luò )(GAN),圖神經(jīng)網(wǎng)絡(luò )(GNN),到vision Trasnformer(ViTs)。一般來(lái)說(shuō),SoTA-DL方法側重于四個(gè)主要方面:(I)用于從ODI數據中提取特征的卷積濾波器(全向視頻(ODV)可以被認為是ODI的一個(gè)時(shí)間集),(II)通過(guò)考慮輸入數字和投影類(lèi)型進(jìn)行網(wǎng)絡(luò )設計,(III)新穎的學(xué)習策略,以及(IV)實(shí)際應用。本文對深度學(xué)習方法在全景視覺(jué)方面的最新進(jìn)展進(jìn)行了系統、全面的綜述和分析。與已有的關(guān)于全景視覺(jué)的綜述不同,我們強調了深度學(xué)習的重要性,并按照邏輯地和全面地探索了全景視覺(jué)的最新進(jìn)展。本研究中提出的結構和層次分類(lèi)法如圖所示。

a7c16f1a-4ec0-11ed-a3b6-dac502259ad0.png

綜上所述,本研究的主要貢獻可歸納為:(1)據我們所知,這是第一份調查,全面回顧和分析了全景視覺(jué)的DL方法,包括全向成像原理,表征學(xué)習,數據集,分類(lèi)學(xué)和應用,以突出與2D規劃師圖像數據的差異和困難。(2)我們總結了過(guò)去五年中發(fā)表的大多數(可能不是全部)頂級會(huì )議/期刊作品(超過(guò)200篇論文),并對DL的最新趨勢進(jìn)行了分析研究,以實(shí)現分層和結構上的全景視覺(jué)。此外,我們還提供對每個(gè)類(lèi)別的討論和挑戰的見(jiàn)解。(3)我們總結了最新的新型學(xué)習策略和全方位視覺(jué)的潛在應用。(4)由于深度學(xué)習用于全景視覺(jué)是一個(gè)活躍而復雜的研究領(lǐng)域,我們對挑戰和尚未解決的問(wèn)題進(jìn)行了深入的討論,并提出了潛在的未來(lái)方向,以刺激社區進(jìn)行更深入的研究。同時(shí),我們在多個(gè)表格中總結了一些流行的全景視覺(jué)任務(wù)的代表性方法及其關(guān)鍵策略。為了提供更好的任務(wù)內比較,我們在基準數據集上提出了一些代表性方法的定量和定性結果,所有統計數據均來(lái)自原始論文。由于空間不足,我們在補充材料的Sec.2中展示了實(shí)驗結果。(5)我們創(chuàng )建了一個(gè)開(kāi)源存儲庫,該存儲庫提供了所有上述作品和代碼鏈接的分類(lèi)。我們將繼續用這一領(lǐng)域的新作品更新我們的開(kāi)源存儲庫,并希望它能為未來(lái)的研究提供啟示。存儲庫鏈接為https://github.com/VLISLAB/360-DL-Survey。

3、Background

3.1、全景成像原理

3.1.1 Acquisition

普通相機的FoV低于180a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png,因此最多只能捕獲一個(gè)半球的視圖。然而,一個(gè)理想的360a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png相機可以捕捉從各個(gè)方向落在焦點(diǎn)上的光線(xiàn),使投影平面成為一個(gè)完整的球面。在實(shí)踐中,大多數360a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png相機無(wú)法實(shí)現它,由于死角,這排除了頂部和底部區域。根據鏡頭數量,360a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png相機可分為三種類(lèi)型:(i)帶有一個(gè)魚(yú)眼鏡頭的相機,不可能覆蓋整個(gè)球面。但是,如果已知內在和外在參數,則可以通過(guò)將多個(gè)圖像投影到一個(gè)球體中并將它們拼接在一起來(lái)實(shí)現ODI;(ii)帶有雙魚(yú)眼鏡頭的攝像機位于相反的位置,每個(gè)鏡頭的額定值都超過(guò) 180 美元,例如 Insta360 ONE 和 LG 360 CAM。這種類(lèi)型的360a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png相機對鏡頭有最低需求,這些鏡頭便宜又方便,受到行業(yè)和客戶(hù)的青睞。然后將來(lái)自?xún)蓚€(gè)相機的圖像拼接在一起以獲得全向圖像,但拼接過(guò)程可能會(huì )導致邊緣模糊;(iii) 具有兩個(gè)以上鏡頭的相機,如泰坦(八個(gè)鏡頭)。此外,GoPro Omni是第一款將六個(gè)常規相機放置在立方體的六個(gè)面上的相機裝備,其合成結果具有更高的精度和更少的邊緣模糊。這種類(lèi)型的360a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png相機是專(zhuān)業(yè)級的。

a88b7472-4ec0-11ed-a3b6-dac502259ad0.png

3.1.2 Spherical Stereo

a8b49762-4ec0-11ed-a3b6-dac502259ad0.png

全景圖像擁有多個(gè)投影方式,如等距柱狀投影(ERP), 立方體貼圖投影(CP), 切線(xiàn)投影(TP), 二十面體投影(IP)以及一些其他復雜投影方式等等,具體轉換公式請查看全文。

3.1.3 Spherical Stereo

a8d33be0-4ec0-11ed-a3b6-dac502259ad0.png

3.2 針對全景圖像的卷積方法

由于全景圖像(ODI)的自然投影表面是一個(gè)球體,因此當球面圖像投影回平面時(shí),標準 CNN 處理固有失真的能力較差。已經(jīng)提出了許多基于CNN的方法,以增強從球形圖像中提取“無(wú)偏”信息的能力。這些方法可以分為兩類(lèi):(i)在平面投影上應用2D卷積濾波器;(ii) 直接利用球面域中的球面卷積濾波器。在本小節中,我們將詳細分析這些方法。

3.2.1 基于平面投影的卷積

a8f2a0e8-4ec0-11ed-a3b6-dac502259ad0.png

作為最常見(jiàn)的球面投影,ERP引入了嚴重的變形,特別是在兩極??紤]到它提供了全局信息并且占用了更少的計算成本,Su 等人提出了一種具有代表性的方法,該方法基于球面坐標利用具有自適應核大小的常規卷積濾波器。受球面卷積的啟發(fā),SphereNet提出了另一種典型的方法,通過(guò)直接調整卷積濾波器的采樣網(wǎng)格位置來(lái)實(shí)現失真不變性,并可以端到端地訓練,如圖所示。Distortion-aware的卷積核,如圖所示。特別是,在ODI得到廣泛應用之前,Cohen等人研究了ERP引入的空間變化失真,并提出了一種旋轉不變球面CNN方法來(lái)學(xué)習SO3表示,等等。

3.2.2 球面卷積

一些方法已經(jīng)探索了球面域中的特殊卷積濾波器。Esteves等人提出了第一個(gè)球面CNN架構,該架構考慮了球面諧波域中的卷積濾波器,以解決標準CNN中的3D旋轉等價(jià)差問(wèn)題。

楊等人提出了一個(gè)代表性框架,將球面圖像映射到基于球面幾何形狀的旋轉等變表示中。(a),SGCN將輸入球面圖像表示為基于GICOPix的圖形。此外,它通過(guò)GCN層探索了圖的等距變換等方差。在cohen等人的文章中,提出了規范等變CNN來(lái)學(xué)習二十面體的球面表示。相比之下,shakerinava等人將二十面體擴展到柏拉圖固體的所有像素化,并在像素化的球體上推廣了規范等變CNN。由于在效率和旋轉等價(jià)差之間進(jìn)行權衡,DeepSphere將采樣球體建模為連接像素的圖形,并設計了一種新穎的圖形卷積網(wǎng)絡(luò ) (GCN),通過(guò)調整圖上像素的相鄰像素數來(lái)平衡計算效率和采樣靈活性。與上述方法相比,在SpherePHD中提出了另一種具有代表性的ODI表示。如圖所示,球面PHD將球面圖像表示為球面多面體,并提供特定的卷積和池化方法。

a94d588a-4ec0-11ed-a3b6-dac502259ad0.png

3.3數據集

基于深度學(xué)習的方法的性能與數據集的質(zhì)量和數量密切相關(guān)。隨著(zhù)球面成像設備的發(fā)展,大量的ODI和OPV數據集被公開(kāi)用于各種視覺(jué)任務(wù)。特別是,大多數ODV數據都是從維梅奧和優(yōu)酷等公共視頻共享平臺收集的。在表格Table1中,我們列出了一些用于不同目的的代表性 ODI 和 ODV 數據集,我們還顯示了它們的屬性,例如大小、分辨率、數據源。更多的數據集可以在全文以及補充材料中找到。

a969c376-4ec0-11ed-a3b6-dac502259ad0.png

4、Omnidirectional Vision Tasks

4.1、圖像/視頻處理

4.1.1 圖像生成

圖像生成旨在從部分或噪聲數據中恢復或合成完整且干凈的ODI數據. 對于ODI上的圖像生成,存在四個(gè)流行的研究方向:(i)全景深度圖補全;(二) 全景深度圖補全;(三)全景語(yǔ)義圖的補全;(四)在全景圖像上的視角合成。在本小節中,我們對一些代表性作品進(jìn)行了全面的分析。

4.1.2 跨視圖合成和地理定位

跨視圖合成旨在從衛星視圖圖像中合成地面視圖ODI,而地理定位旨在匹配地面視圖ODI和衛星視圖圖像以確定它們之間的關(guān)系。

討論:大多數跨視圖合成和地理定位方法都假定參考圖像精確地位于任何查詢(xún)圖像的位置。盡管如此,在實(shí)踐中,這兩種觀(guān)點(diǎn)在方向和空間位置方面通常并不完全一致。因此,如何在具有挑戰性的條件下應用跨視圖合成和地理定位方法是一個(gè)有價(jià)值的研究方向。

a98c4496-4ec0-11ed-a3b6-dac502259ad0.png

4.1.3 圖像壓縮

與傳統的透視圖像相比,全景數據以更高的分辨率和更寬的FoV記錄更豐富的幾何信息,這使得實(shí)現有效壓縮更具挑戰性。早期的ODI壓縮方法直接利用現有的透視方法來(lái)壓縮ODI的透視投影。例如,Simone等人提出了一種自適應量化方法,以解決將ODI投影到ERP時(shí)視口圖像塊的頻率偏移。相比之下,OmniJPEG首先估計 ODI 中感興趣的區域,然后根據區域內容的幾何變換,使用一種名為 OmniJPEG 的新穎格式對 ODI 進(jìn)行編碼,該格式是 JPEG 格式的擴展,可以在舊版 JPEG 解碼器上查看,等等。

4.1.4 照明估計

它旨在從低動(dòng)態(tài)范圍(LDR)ODI預測高動(dòng)態(tài)范圍(HDR)照明。照明恢復被廣泛用于許多現實(shí)世界的任務(wù),從場(chǎng)景理解、重建到編輯。Hold-Geoffroy等人提出了一個(gè)具有代表性的戶(hù)外照度估計框架。他們首先訓練了一個(gè)CNN模型,以預測室外ODI的視口的天空參數,例如太陽(yáng)位置和大氣條件。然后,他們根據預測的照明參數為給定的測試圖像重建照明環(huán)境圖。同樣,在Gardner等人的工作中,利用CNN模型來(lái)預測視口中燈光的位置,并對CNN進(jìn)行微調以從ODI中預測燈光強度即環(huán)境圖。在Gardner等人2019年的一個(gè)工作中中,室內照明的幾何和光度參數從ODI的視口回歸,并利用中間潛向量重構環(huán)境貼圖。另一種代表性的方法,稱(chēng)為EMLight,由回歸網(wǎng)絡(luò )和神經(jīng)投影儀組成?;貧w網(wǎng)絡(luò )輸出光參數,神經(jīng)投影儀將光參數轉換為照度圖。特別是,光參數的地面實(shí)況由通過(guò)球面高斯函數從照明生成的高斯圖分解。

討論和潛力:從上述分析中,先前用于ODI照明估計的工作將單個(gè)視口作為輸入。原因可能是視口無(wú)失真,低成本,分辨率低。然而,它們遭受了空間信息的嚴重下降。因此,應用對比學(xué)習從切線(xiàn)圖像的多個(gè)視口或組件中學(xué)習穩健的表示可能是有益的。

4.1.5 圖像超分

現有的頭戴式顯示器(HMD)設備至少需要21600乘以10800像素的ODI才能獲得沉浸式體驗,這是當前相機系統無(wú)法直接捕獲的。另一種方法是捕獲低分辨率 (LR) ODI,并高效地將它們超級解析為高分辨率 (HR) ODI。LAU-Net作為第一個(gè)考慮ODI SR緯度差異的著(zhù)作,引入了多級緯度自適應網(wǎng)絡(luò )。它將ODI劃分為不同的緯度波段,并分層地擴展這些波段,這些波段具有不同的自適應因子,這些因子是通過(guò)強化學(xué)習方案學(xué)習的。除了考慮ERP上的SR之外,Yoon等人提出了一個(gè)代表性的工作SphereSR,以學(xué)習統一的連續球面局部隱式圖像函數,并根據球面坐標查詢(xún)生成任意分辨率的任意投影。對于全景視頻(ODV) SR,SMFN是第一個(gè)基于DNN的框架,包括單幀和多幀聯(lián)合網(wǎng)絡(luò )和雙網(wǎng)絡(luò )。單幀和多幀聯(lián)合網(wǎng)絡(luò )融合了相鄰幀的特征,雙網(wǎng)限制了求解空間,以找到更好的答案。

4.1.6 Upright Adjustment

Upright Adjustment旨在糾正攝像機和場(chǎng)景之間方向的錯位,以提高ODI和ODV的視覺(jué)質(zhì)量,同時(shí)將它們與窄視場(chǎng)(NFoV)顯示器(如VR應用程序)一起使用。

4.1.7 視覺(jué)質(zhì)量評估

由于全向數據的超高分辨率和球體表示,視覺(jué)質(zhì)量評估(V-QA)對于優(yōu)化現有的圖像/視頻處理算法很有價(jià)值。接下來(lái),我們將分別介紹一些關(guān)于ODI-QA和ODV-QA的代表性作品。

aa016cee-4ec0-11ed-a3b6-dac502259ad0.png

對于 ODI-QA,根據參考圖像的可用性,可以進(jìn)一步將其分為兩類(lèi):full-reference (FR) ODI-QA 和no-reference (NR) ODI-QA。對于 ODV-QA,Li等人提出了一種基于具有代表性的基于視口的 CNN 方法,包括視口提案網(wǎng)絡(luò )和視口質(zhì)量網(wǎng)絡(luò ),如圖所示。視口方案網(wǎng)絡(luò )生成多個(gè)潛在視口及其錯誤映射,視口質(zhì)量網(wǎng)絡(luò )對每個(gè)建議視口的 V-QA 分數進(jìn)行評級。最終的V-QA分數是通過(guò)所有視口V-QA分數的加權平均值計算的。Gao等人對ODV的時(shí)空扭曲進(jìn)行了建模,并通過(guò)整合現有的3個(gè)ODI-QA目標指標,提出了一種新的FR目標指標。

4.2、場(chǎng)景理解

4.2.1 物體識別

與普通透視圖像相比,基于深度學(xué)習的ODI對象檢測仍然存在兩大難點(diǎn):(i)傳統的卷積核在ODI投影中處理不規則平面網(wǎng)格結構的能力較弱;(ii)傳統2D物體檢測中采用的標準不適合球形圖像。

4.2.2 語(yǔ)義分割

基于DL的全向語(yǔ)義分割已被廣泛研究,因為ODI可以包含有關(guān)周?chē)臻g的詳盡信息。實(shí)際上還存在許多挑戰,例如,平面投影中的變形,物體變形,計算復雜性和稀缺的標記數據。在文章中,我們介紹了一些通過(guò)監督學(xué)習和無(wú)監督學(xué)習進(jìn)行ODI語(yǔ)義分割的代表性方法。

aa290bc8-4ec0-11ed-a3b6-dac502259ad0.png

4.2.3 單目深度估計

由于大規模全景深度數據集的出現,單目深度估計發(fā)展迅速。如圖所示有幾種趨勢:(i)定制網(wǎng)絡(luò ),例如,失真感知卷積濾波器和魯棒表示;(ii) 基于不同的投影類(lèi)型。(iii) 固有的幾何先驗。(iv) 多個(gè)視圖或姿態(tài)估計。

aa5ba34e-4ec0-11ed-a3b6-dac502259ad0.png

4.2.4 光流估計

基于現有的實(shí)驗結果表明,直接應用基于DL的二維光流估計方法對ODI進(jìn)行估計,會(huì )得到不盡如人意的結果。為此,Xie等人介紹了一個(gè)小型診斷數據集FlowCLEVR,并評估了三種定制卷積濾波器的性能,即相關(guān)卷積、坐標和可變形卷積,用于估計全向光流。域適配框架受益于透視域光流估計的發(fā)展。與Cubes3DNN類(lèi)似,OmniFlowNet建立在FlowNet2上。特別是作為L(cháng)iteFlowNet的延伸,LiteFlowNet360采用核變換技術(shù),解決了球面投影帶來(lái)的固有失真問(wèn)題,等等。

4.2.5 視頻總結

視頻摘要旨在通過(guò)選擇包含 ODV 最關(guān)鍵信息的部分來(lái)生成具有代表性和完整的概要。與2D視頻總結方法相比,ODV的視頻總結只有少數作品被提出。Pano2Vid是代表性框架,包含兩個(gè)子步驟:檢測整個(gè) ODV 幀中感興趣的候選事件,并應用動(dòng)態(tài)編程來(lái)鏈接檢測到的事件。但是,Pano2Vid需要觀(guān)察整個(gè)視頻,并且對于視頻流應用程序的能力較差。Deep360Pilot是第一個(gè)設計用于觀(guān)眾自動(dòng)ODV導航的類(lèi)人在線(xiàn)代理的框架。Deep360pilot包括三個(gè)步驟:對象檢測以獲得感興趣的候選對象,訓練RNN選擇重要對象,以及在ODV中捕捉激動(dòng)人心的時(shí)刻。AutoCam在人類(lèi)行為理解之后從 ODV 生成正常的 NFoV 視頻。

討論:基于上述分析,該研究領(lǐng)域只有少數幾種方法存在。作為一項與時(shí)間相關(guān)的任務(wù),將轉換器機制應用于ODV匯總可能是有益的。此外,以前的作品只考慮了ERP格式,這遭受了最嚴重的失真問(wèn)題。因此,最好考慮 CP、切線(xiàn)投影或球體格式作為 ODV 匯總的輸入。

4.3、3D視覺(jué)

4.3.1 房間布局估計和重建

aa8a5572-4ec0-11ed-a3b6-dac502259ad0.png

aaded034-4ec0-11ed-a3b6-dac502259ad0.png

房間布局估計和重建包括多個(gè)子任務(wù),例如布局估計、3D 對象檢測 和 3D 對象重建。這項綜合任務(wù)旨在促進(jìn)基于單個(gè) ODI 的整體場(chǎng)景理解。

4.3.2 立體匹配

人類(lèi)雙眼視差取決于視網(wǎng)膜上投影之間的差異,即球體投影而不是平面投影。因此,ODI上的立體匹配更類(lèi)似于人類(lèi)視覺(jué)系統。在Seuffert等人的工作中,他們討論了全向失真對基于CNN的方法的影響,并比較了從透視和全向立體圖像預測的視差圖的質(zhì)量。實(shí)驗結果表明,基于ODI的立體匹配對于機器人、AR/VR等多種應用更具優(yōu)勢。一般立體匹配算法遵循四個(gè)步驟:(i)匹配成本計算,(ii)成本聚合,(iii)優(yōu)化差異計算,以及(iv)差異細化。作為首個(gè)基于DNN的全向立體框架,SweepNet提出了一種寬基線(xiàn)立體系統,用于從采用超廣角FoV鏡頭的相機拍攝的一對圖像中計算匹配的成本圖,并在鉆機坐標系上使用全局球體掃描直接生成全向深度圖。

4.3.3 SLAM

SLAM是一個(gè)復雜的系統,采用多個(gè)攝像頭,例如單目,立體聲或RGB-D,結合移動(dòng)代理上的傳感器來(lái)重建環(huán)境并實(shí)時(shí)估計代理姿勢。SLAM通常用于實(shí)時(shí)導航和現實(shí)增強,例如谷歌地球。立體信息,如關(guān)鍵點(diǎn)和dense或semi-dense深度圖引用,對于構建精確的現代SLAM系統是必不可少的。具體而言,與傳統的單目SLAM或多視角SLAM相比,全向數據由于FoV較大,可以提供更豐富的紋理和結構信息,基于全景相機的SLAM避免了不連續幀對周?chē)h(huán)境的影響,并享有完整定位和映射的技術(shù)優(yōu)勢。Caruso等人提出了一種具有代表性的單目SLAM方法,直接闡述了圖像直接對準和像素距離濾波的全向相機。

4.4、人類(lèi)行為理解

4.4.1 顯著(zhù)性預測

最近,在深度學(xué)習進(jìn)展的基礎上,ODI顯著(zhù)性預測出現了幾個(gè)研究趨勢:(i)從2D傳統卷積到3D特定卷積;(ii) 從單一特征到多個(gè)特征;(iii) 從單一的企業(yè)資源規劃投入到多類(lèi)型投入;(iv)從基于CNN的正常學(xué)習到新穎的學(xué)習策略。

ab1da098-4ec0-11ed-a3b6-dac502259ad0.png

4.4.2 注視行為

注視跟隨,也稱(chēng)為注視估計,與檢測場(chǎng)景中的人們所看和吸收的內容有關(guān)。由于正常的透視圖像是NFoV捕獲的,因此注視目標總是在場(chǎng)景之外。ODI注視跟蹤是為了解決這個(gè)問(wèn)題,因為ODI具有捕獲整個(gè)觀(guān)看環(huán)境的強大能力。以前的3D注視跟蹤方法可以直接檢測球體空間中人類(lèi)受試者的注視目標,但忽略了ODI的場(chǎng)景信息,其執行的凝視跟隨效果不佳。Gaze360使用魚(yú)眼晶狀體校正來(lái)預處理圖像,收集了一個(gè)大型的凝視數據集。然而,由于球面投影引起的失真,遠距離凝視中的凝視目標可能不在人體主體的2D視線(xiàn)中,這在2D圖像中已不再相同。李等人提出了第一個(gè)ODI注視跟蹤框架,并收集了第一個(gè)ODI注視跟蹤數據集,稱(chēng)為GazeFollow360。

挑戰和潛力:ODI 包含更豐富的上下文信息,可以促進(jìn)對注視行為的理解。然而,仍然存在一些挑戰。首先,很少有特定于ODI的特定凝視跟蹤和凝視預測數據集。數據是基于深度學(xué)習的方法的“引擎”,因此收集定量和定性數據集是必要的。其次,由于球面投影類(lèi)型中存在失真問(wèn)題,未來(lái)的研究應考慮如何通過(guò)幾何變換來(lái)校正這種失真。最后,與普通2D圖像相比,ODI中的注視跟隨和注視預測都需要了解更廣泛的場(chǎng)景信息。應進(jìn)一步探討空間背景關(guān)系。

4.4.3 視聽(tīng)場(chǎng)景理解

由于ODV可以為觀(guān)察者提供對整個(gè)周?chē)h(huán)境的沉浸式理解,因此最近的研究重點(diǎn)是對ODV的視聽(tīng)場(chǎng)景理解。由于它使觀(guān)眾能夠在各個(gè)方向上體驗聲音,因此ODV的空間無(wú)線(xiàn)電是全場(chǎng)景感知的重要提示。作為全向空間化問(wèn)題的第一部作品,Morgado 等人設計了一個(gè)四塊架構,應用自監督學(xué)習來(lái)生成空間無(wú)線(xiàn)電,給定單聲道音頻和ODV作為聯(lián)合輸入。他們還提出了一個(gè)具有代表性的自我監督框架,用于從ODV的視聽(tīng)空間內容中學(xué)習表示。

討論:基于上述分析,該研究領(lǐng)域的大多數工作將ERP圖像處理為普通2D圖像,而忽略了固有的失真。未來(lái)的研究可能會(huì )探索如何將ODI的球面成像特性和幾何信息與空間音頻線(xiàn)索更好地結合起來(lái),以提供更逼真的視聽(tīng)體驗。

4.4.4 視覺(jué)問(wèn)答

視覺(jué)問(wèn)答(VQA)是一項全面而有趣的任務(wù),結合了計算機視覺(jué)(CV),自然語(yǔ)言處理(NLP)和知識表示$ &$推理(KR)。更寬的FoV ODI和ODV對于VQA研究更有價(jià)值和更具挑戰性,因為它們可以提供類(lèi)似于人類(lèi)視覺(jué)系統的立體空間信息。VQA 360a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png,在~引用{chou2020可視化}中提出,是第一個(gè)關(guān)于ODI的VQA框架。它引入了一種基于CP的模型,具有多級融合和注意力擴散,以減少空間失真。同時(shí),收集的VQA 360a71a99b0-4ec0-11ed-a3b6-dac502259ad0.png數據集為未來(lái)的發(fā)展提供了基準。此外,Yun等人提出了第一個(gè)基于ODV的VQA作品,全景AVQA,它結合了來(lái)自三種形式的信息:語(yǔ)言,音頻和ODV幀。變壓器網(wǎng)絡(luò )提取的融合多模態(tài)表示提供了對全向環(huán)境的整體語(yǔ)義理解。他們還在 ODV 上提供了第一個(gè)空間和音頻 VQA 數據集。

討論與挑戰:基于上述分析,基于ODI/ODV VQA的工作很少。與2D域中的方法相比,最大的困難是如何利用球面投影類(lèi)型,例如二十面體和切線(xiàn)圖像。隨著(zhù)2D領(lǐng)域中二十多個(gè)數據集和眾多有效網(wǎng)絡(luò )的發(fā)表,未來(lái)的研究可能會(huì )考慮如何有效地轉移知識,以學(xué)習更強大的DNN模型以實(shí)現全向視覺(jué)。

5、Novel Learning Strategies

5.1、無(wú)監督/半監督學(xué)習

由于全景注釋不足但成本高昂,因此會(huì )發(fā)生ODI數據稀缺問(wèn)題。這個(gè)問(wèn)題通常通過(guò)半監督學(xué)習或無(wú)監督學(xué)習來(lái)解決,它們可以利用豐富的未標記數據來(lái)增強泛化能力。對于半監督學(xué)習,Tran等人利用“平均教師”模型通過(guò)在同一場(chǎng)景中從標記和未標記的數據中學(xué)習來(lái)進(jìn)行3D房間布局重建。對于無(wú)監督學(xué)習,Djilali等人提出了ODI顯著(zhù)性預測的第一個(gè)框架。它計算來(lái)自多個(gè)場(chǎng)景的不同視圖之間的相互信息,并將對比學(xué)習與無(wú)監督學(xué)習相結合,以學(xué)習潛在表示。此外,無(wú)監督學(xué)習可以與監督學(xué)習相結合,以增強泛化能力。Yun等人提出將自監督學(xué)習與監督學(xué)習相結合,進(jìn)行深度估計,緩解數據稀缺,增強穩定性。

5.2 GAN

為了減少透視圖像與ODI之間的域分歧,P2PDA和密集通道利用GAN框架并設計對抗性損失來(lái)促進(jìn)語(yǔ)義分割。在圖像生成方面,BIPS提出了一個(gè)GAN框架,用于基于攝像頭和深度傳感器的任意配置來(lái)合成RGB-D室內全景圖。

5.3 注意機制

對于跨視圖地理定位,在Zhu等人中,ViT等人用于刪除無(wú)信息的圖像補丁,并將信息性圖像補丁增強到更高分辨率。這種注意力引導的非均勻裁剪策略可以節省計算成本,將其重新分配給信息補丁以提高性能。在無(wú)監督顯著(zhù)性預測中采用了類(lèi)似的策略。在A(yíng)bdelaziz等人提出的工作中,采用自我注意模型在兩個(gè)輸入之間建立空間關(guān)系并選擇充分不變的特征。

5.4 遷移學(xué)習

有很多工作可以轉移從源2D域學(xué)到的知識,以促進(jìn)ODI域中學(xué)習許多視覺(jué)任務(wù),例如,語(yǔ)義分割和深度估計。從透視圖像在預訓練的模型上設計可變形的CNN或MLP可以增強ODI在眾多任務(wù)中的模型能力,例如,語(yǔ)義分割,視頻超分辨率,深度估計和光流估計。但是,這些方法嚴重依賴(lài)于手工制作的模塊,這些模塊缺乏針對不同場(chǎng)景的泛化能力。無(wú)監督域適配旨在通過(guò)減少透視圖像和ODI之間的域間隙,將知識從透視域轉移到ODI域。P2PDA和BendingRD減小透視圖像與ODI之間的域間隙,有效獲得ODI的偽密集標簽。知識提煉(KD)是另一種有效的技術(shù),它將知識從繁瑣的教師模型中轉移出來(lái),學(xué)習緊湊的學(xué)生模型,同時(shí)保持學(xué)生的表現。然而,我們發(fā)現很少有作品將KD應用于全向視覺(jué)任務(wù)。在語(yǔ)義分割中,ECANets通過(guò)來(lái)自世界各地的各種全景圖執行數據提煉。

5.5 強化學(xué)習

在顯著(zhù)性預測中,MaiXu等人通過(guò)將頭部運動(dòng)的軌跡解釋為離散動(dòng)作來(lái)預測頭部注視,并得到正確策略的獎勵。此外,在對象檢測中,Pais等人通過(guò)考慮3D邊界框及其在圖像中的相應失真投影來(lái)提供行人在現實(shí)世界中的位置。DRL的另一個(gè)應用是在LAUNet中基于像素密度自適應地選擇放大因子,解決了ERP中像素密度分布不均勻的問(wèn)題。

5.6 多任務(wù)學(xué)習

在相關(guān)任務(wù)之間共享表示可以增加模型的泛化能力,并提高所有涉及任務(wù)的性能。MT-DNN將顯著(zhù)性檢測任務(wù)與視口檢測任務(wù)相結合,預測每幀的視口顯著(zhù)性圖,提高ODV的顯著(zhù)性預測性能。DeepPanoContext通過(guò)共同預測物體形狀、3D姿勢、語(yǔ)義類(lèi)別和房間布局,實(shí)現全景場(chǎng)景理解。同樣,HoHoNet提出了一個(gè)潛在的水平特征(LHFeat)和一種新穎的視界到密集模塊來(lái)完成各種任務(wù),包括房間布局重建和每像素密集預測任務(wù),例如深度估計,語(yǔ)義分割。

6、Applications

6.1、AR 和VR

隨著(zhù)技術(shù)的進(jìn)步和交互場(chǎng)景需求的不斷增長(cháng),AR和VR近年來(lái)發(fā)展迅速。VR旨在模擬真實(shí)或虛構的環(huán)境,參與者可以通過(guò)感知和與環(huán)境互動(dòng)來(lái)獲得身臨其境的體驗和個(gè)性化的內容。憑借在ODI中捕獲整個(gè)周?chē)h(huán)境的優(yōu)勢,360 VR / AR有助于開(kāi)發(fā)沉浸式體驗。

6.2、機器人導航

除了上文中提到的SLAM之外,我們還進(jìn)一步討論了ODI/ODV在機器人導航領(lǐng)域的相關(guān)應用,包括遠程呈現系統、監控和基于DL的優(yōu)化方法。

遠程呈現系統旨在克服空間限制,使人們能夠遠程訪(fǎng)問(wèn)并相互交流。ODI/ODV通過(guò)提供更逼真、更自然的場(chǎng)景而越來(lái)越受歡迎,特別是在開(kāi)放環(huán)境的戶(hù)外活動(dòng)中. Zhang等人提出了一種基于ODV的遠程呈現系統的原型,以支持更自然的交互和遠程環(huán)境探索,在遠程環(huán)境中的真實(shí)行走可以同時(shí)控制機器人平臺的相關(guān)運動(dòng)。出于安全目的,監控旨在取代人類(lèi),其中校準對于敏感數據至關(guān)重要。因此,普迪克斯提出了一種針對障礙物檢測和避障的安全導航系統,并采用校準設計來(lái)獲得適當的距離和方向。與NFoV圖像相比,全景圖像可以通過(guò)在單次拍攝中提供完整的FoV來(lái)顯著(zhù)降低計算成本。此外,Ran等人提出了一個(gè)基于未校準的360相機的輕量級框架。該框架可以通過(guò)將其制定為一系列分類(lèi)任務(wù)來(lái)準確估計航向,并通過(guò)保存校準和校正過(guò)程來(lái)避免冗余計算。

6.3、自動(dòng)駕駛

自動(dòng)駕駛需要對周?chē)h(huán)境有充分的了解,這是全景視覺(jué)所擅長(cháng)的。一些作品專(zhuān)注于為自動(dòng)駕駛建立360平臺。具體而言,依托Sun等人的工作,利用立體相機、偏振相機和全景相機,形成多模態(tài)視覺(jué)系統,捕捉全向景觀(guān)。除了該平臺之外,用于自動(dòng)駕駛的公共全向數據集的出現對于深度學(xué)習方法的應用至關(guān)重要。Caeser等人是第一個(gè)引入相關(guān)數據集,該數據集攜帶了六個(gè)攝像頭,五個(gè)雷達和一個(gè)激光雷達。所有設備都帶有360 FoV。最近,OpenMP 數據集被六臺攝像機和四臺激光雷達捕獲,其中包含復雜環(huán)境中的場(chǎng)景,例如,過(guò)度曝光或黑暗的城市地區。Kumar等人提出了一個(gè)多任務(wù)視覺(jué)感知網(wǎng)絡(luò ),該網(wǎng)絡(luò )由自動(dòng)駕駛中的六項重要任務(wù)組成:深度估計,視覺(jué)里程測量,感性分割,運動(dòng)分割,物體檢測和鏡頭污染檢測。重要的是,由于實(shí)時(shí)性能對于自動(dòng)駕駛至關(guān)重要,并且車(chē)輛中的嵌入系統通常具有有限的內存和計算資源,因此輕量級DNN模型在實(shí)踐中更受青睞。

7、Discussion and New Perspectives

7.1、投影格式的缺點(diǎn)

ERP是最流行的投影格式,因為它的平面格式的FoV很寬。ERP面臨的主要挑戰是向兩極的拉伸變形日益嚴重。因此,提出了許多針對失真的特定卷積濾波器的設計方法。相比之下,CP 和切線(xiàn)(TP)圖像通過(guò)將球面投影到多個(gè)平面上是無(wú)失真的投影格式。它們與透視圖像相似,因此可以充分利用平面域中的許多預訓練模型和數據集。然而,CP和切線(xiàn)圖像受到更高的計算成本,差異和不連續性的挑戰。我們總結了利用CP和切線(xiàn)圖像的兩個(gè)潛在方向:(i)冗余計算成本是由投影平面之間的大重疊區域引起的。但是,像素密度因不同的采樣位置而異。通過(guò)強化學(xué)習為密集區域(例如赤道)分配更多資源,為稀疏區域(例如極點(diǎn))分配更少的資源,計算效率更高。(二) 目前,不同的投影平面往往是并行處理的,缺乏全球一致性。為了克服不同局部平面之間的差異,探索一個(gè)以ERP為輸入或基于注意力的變壓器來(lái)構建非局部依賴(lài)關(guān)系的分支是有效的。

7.2、數據高效學(xué)習

深度學(xué)習方法面臨的一個(gè)挑戰是需要具有高質(zhì)量注釋的大規模數據集。然而,對于全向視覺(jué),構建大規模數據集既昂貴又乏味。因此,有必要探索更高效的數據方法。一個(gè)有希望的方向是將從在標記的2D數據集上訓練的模型中學(xué)到的知識轉移到在未標記的全景數據集上訓練的模型。具體而言,可以應用域適應方法來(lái)縮小透視圖像與ODI之間的差距。KD也是一種有效的解決方案,它將學(xué)習到的特征信息從繁瑣的視角DNN模型轉移到學(xué)習ODI數據的緊湊DNN模型。最后,最近的自我監督方法,eg,Yan等人證明了預訓練的有效性,而不需要額外的訓練注釋。

7.3、物理約束

透視圖像的現有方法在推斷全球場(chǎng)景和看不見(jiàn)的區域的光照方面受到限制。由于ODI的FoV很寬,可以捕獲完整的周?chē)h(huán)境場(chǎng)景。此外,反射率可以根據照明與場(chǎng)景結構之間的物理約束,基于照明來(lái)揭示反射率。因此,未來(lái)的方向可以聯(lián)合利用計算機圖形學(xué)(如光線(xiàn)追蹤)和渲染模型來(lái)幫助計算反射率,這反過(guò)來(lái)又有助于更高精度的全局照明估計。此外,基于照明運輸理論處理和渲染ODI是有希望的。

7.4、多模態(tài)全景視覺(jué)

它指的是使用相同的DNN模型從不同類(lèi)型的模態(tài)(例如,用于視覺(jué)問(wèn)答的文本圖像,視聽(tīng)場(chǎng)景理解)學(xué)習表示的過(guò)程。對于世界性愿景來(lái)說(shuō),這是一個(gè)有希望但又切實(shí)可行的方向。例如,Beltran等人引入了一個(gè)基于視覺(jué)和 LiDAR 信息的多模態(tài)感知框架,用于 3D 對象檢測和跟蹤。但是,這方面的現有工作將ODI視為透視圖像,而忽略了ODI中固有的失真。未來(lái)的工作可能會(huì )探索如何利用ODI的優(yōu)勢,例如,完整的FoV,以協(xié)助其他模式的表示。重要的是,不同方式的獲取有明顯的差異。例如,捕獲 RGB 圖像比深度圖容易得多。因此,一個(gè)有希望的方向是從一種模式中提取可用信息,然后通過(guò)多任務(wù)學(xué)習,KD等轉移到另一種模式。然而,應考慮不同方式之間的差異,以確保多模式的一致性。

7.5、潛在的對抗性攻擊

很少有研究關(guān)注對全向視覺(jué)模型的對抗性攻擊。Zhang等人提出了第一種具有代表性的攻擊方法,通過(guò)僅擾動(dòng)從ODI渲染的一個(gè)切線(xiàn)圖像來(lái)欺騙DNN模型。建議的攻擊是稀疏的,因為它只干擾了輸入ODI的一小部分。因此,他們進(jìn)一步提出了一種位置搜索方法來(lái)搜索球面上的切點(diǎn)。該方向存在許多有前途但具有挑戰性的研究問(wèn)題,例如,分析ODI不同DNN模型之間攻擊的泛化能力,網(wǎng)絡(luò )架構和訓練方法的白盒攻擊以及攻擊防御。

7.6、Metaverse的潛力

Metaverse旨在創(chuàng )建一個(gè)包含大規模高保真數字模型的虛擬世界,用戶(hù)可以在其中自由創(chuàng )建內容并獲得身臨其境的互動(dòng)體驗。元宇宙由AR和VR頭顯促進(jìn),其中ODI由于完整的FoV而受到青睞。因此,一個(gè)潛在的方向是從ODI生成高保真2D/3D模型,并詳細模擬真實(shí)世界的對象和場(chǎng)景。此外,為了幫助用戶(hù)獲得身臨其境的體驗,分析和理解人類(lèi)行為的技術(shù)(例如,注視跟隨,顯著(zhù)性預測)可以在將來(lái)進(jìn)一步探索和整合。

7.4、智慧城市的潛力

智慧城市專(zhuān)注于使用各種設備從城市收集數據,并利用數據中的信息來(lái)提高效率,安全性和便利性等。利用街景圖像中ODI的特性,可以促進(jìn)城市形態(tài)比較的發(fā)展。如第前面所述,一個(gè)有希望的方向是將街景圖像轉換為衛星視圖圖像以進(jìn)行城市規劃。

8、Discussion and New Perspectives

在本次調查中,我們全面回顧并分析了深度學(xué)習方法在全向視覺(jué)方面的最新進(jìn)展。我們首先介紹了全向成像的原理,卷積方法和數據集。然后,我們提供了DL方法的分層和結構分類(lèi)。針對分類(lèi)學(xué)中的每項任務(wù),我們總結了當前的研究現狀,并指出了其中的機遇和挑戰。我們進(jìn)一步回顧了新的學(xué)習策略和應用。在構建了當前方法之間的聯(lián)系之后,我們討論了需要解決的關(guān)鍵問(wèn)題,并指出了有希望的未來(lái)研究方向。我們希望這項工作能為研究人員提供一些見(jiàn)解,并促進(jìn)社區的進(jìn)步。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權轉載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習之用,如有內容侵權或者其他違規問(wèn)題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    207

    文章

    27327

    瀏覽量

    202162
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    775

    文章

    13216

    瀏覽量

    163916
  • 深度學(xué)習
    +關(guān)注

    關(guān)注

    73

    文章

    5261

    瀏覽量

    120118

原文標題:港科大最新綜述:深度學(xué)習在全景視覺(jué)上的應用

文章出處:【微信號:vision263com,微信公眾號:新機器視覺(jué)】歡迎添加關(guān)注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    VR全景拍攝的實(shí)用價(jià)值和未來(lái)發(fā)展

    拍攝的發(fā)展需求所在??赡躒R技術(shù)目前我們普通人眼中并沒(méi)有特別大的作用,只是提供了更好的視覺(jué)體驗效果。但隨著(zhù)技術(shù)的不斷革新,以及VR全景拍攝的不斷普及,我們就可以慢慢的感受到VR技術(shù)所帶來(lái)種種便利。而我
    發(fā)表于 08-03 22:22

    【詳解】FPGA:深度學(xué)習未來(lái)?

    未來(lái)方向提出關(guān)鍵建議,幫助解決今后深度學(xué)習所面臨的問(wèn)題。2. FPGA傳統來(lái)說(shuō),評估硬件平臺的加速時(shí),必須考慮到靈活性和性能之間的權衡。一方面,通用處理器(GPP)可提供高度的靈活
    發(fā)表于 08-13 09:33

    深度學(xué)習汽車(chē)中的應用

    未來(lái)的某個(gè)時(shí)候,人們必定能夠相對自如地運用人工智能,安全地駕車(chē)出行。這個(gè)時(shí)刻何時(shí)到來(lái)我無(wú)法預見(jiàn);但我相信,彼時(shí)“智能”會(huì )顯現出更“切實(shí)”的意義。與此同時(shí),通過(guò)深度學(xué)習方法,人工智能的實(shí)際應用能夠
    發(fā)表于 03-13 06:45

    未來(lái)語(yǔ)音接口的展望

    作者:Eran Belaish,音頻和語(yǔ)音產(chǎn)品線(xiàn)的產(chǎn)品營(yíng)銷(xiāo)經(jīng)理,CEVA隨著(zhù)虛擬助手變得更加智能,我們對它們的期望越來(lái)越高?,F在,簡(jiǎn)單的語(yǔ)音命令實(shí)際被認為是理所當然的,深度學(xué)習可以實(shí)現更復雜的交互
    發(fā)表于 07-16 06:10

    為什么說(shuō)FPGA是機器深度學(xué)習未來(lái)?

    都出現了重大突破。深度學(xué)習是這些領(lǐng)域中所最常使用的技術(shù),也被業(yè)界大為關(guān)注。然而,深度學(xué)習模型需要極為大量的數據和計算能力,只有更好的硬件加速條件,才能滿(mǎn)足現有數據和模型規模繼續擴大的需
    發(fā)表于 10-10 06:45

    請問(wèn)計算機視覺(jué)深度學(xué)習要看什么書(shū)?

    計算機視覺(jué)深度學(xué)習,看這本書(shū)就夠了
    發(fā)表于 05-21 12:43

    解析深度學(xué)習:卷積神經(jīng)網(wǎng)絡(luò )原理與視覺(jué)實(shí)踐

    解析深度學(xué)習:卷積神經(jīng)網(wǎng)絡(luò )原理與視覺(jué)實(shí)踐
    發(fā)表于 06-14 22:21

    深度學(xué)習計算機視覺(jué)領(lǐng)域圖像應用總結 精選資料下載

    簡(jiǎn)單的回顧的話(huà),2006年Geoffrey Hinton的論文點(diǎn)燃了“這把火”,現在已經(jīng)有不少人開(kāi)始潑“冷水”了,主要是AI泡沫太大,而且深度學(xué)習不是包治百病的藥方。計算機視覺(jué)不是深度
    發(fā)表于 07-28 08:22

    深度學(xué)習與傳統計算機視覺(jué)簡(jiǎn)介

    文章目錄1 簡(jiǎn)介1.1 深度學(xué)習與傳統計算機視覺(jué)1.2 性能考量1.3 社區支持2 結論3 參考計算機視覺(jué)領(lǐng)域中,不同的場(chǎng)景不同的應用程序
    發(fā)表于 12-23 06:17

    深度學(xué)習介紹

    未來(lái)的某個(gè)時(shí)候,人們必定能夠相對自如地運用人工智能,安全地駕車(chē)出行。這個(gè)時(shí)刻何時(shí)到來(lái)我無(wú)法預見(jiàn);但我相信,彼時(shí)“智能”會(huì )顯現出更“切實(shí)”的意義。與此同時(shí),通過(guò)深度學(xué)習方法,人工智能的
    發(fā)表于 11-11 07:55

    什么是深度學(xué)習?使用FPGA進(jìn)行深度學(xué)習的好處?

    要走,但我認為它在未來(lái)有很大的潛力??偨Y在這篇文章中,解釋了兩點(diǎn):“什么是深度學(xué)習?”和“深度學(xué)習
    發(fā)表于 02-17 16:56

    FPGA是深度學(xué)習未來(lái)

    FPGA是深度學(xué)習未來(lái),學(xué)習資料,感興趣的可以看看。
    發(fā)表于 10-26 15:29 ?0次下載

    全景視覺(jué)SNS社交新媒體

    全景視覺(jué)網(wǎng)絡(luò )科技有限公司CMO毛予女士參加了11日下午的產(chǎn)品血戰篇環(huán)節,現場(chǎng)演講并介紹了全景視覺(jué)極富想象力和潛力的SNS社交新媒體概念,為未來(lái)
    發(fā)表于 10-13 11:51 ?0次下載

    人工智能深度學(xué)習未來(lái)展望

    本文是推出的人工智能深度學(xué)習綜述,也是Hinton、LeCun和Bengio三位大神首次合寫(xiě)同一篇文章。該綜述在深度學(xué)習領(lǐng)域的重要性不言而喻,可以說(shuō)是所有人入門(mén)
    的頭像 發(fā)表于 07-30 16:40 ?8684次閱讀

    探究深度學(xué)習在目標視覺(jué)檢測中的應用與展望

    目標視覺(jué)檢測是計算機視覺(jué)領(lǐng)域的一個(gè)重要問(wèn)題,在視頻監控、自主駕駛、人機交互等方面具有重要的研究意義和應用價(jià)值.近年來(lái),深度學(xué)習在圖像分類(lèi)研究中取得了突破性進(jìn)展,也帶動(dòng)著(zhù)目標
    的頭像 發(fā)表于 01-13 10:59 ?5585次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看