搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學(xué)習在線(xiàn)課程
觀(guān)看技術(shù)視頻
寫(xiě)文章/發(fā)帖/加入社區

會(huì )員中心

創(chuàng )作中心

發(fā)布

創(chuàng )作活動(dòng)

完善資料讓更多小伙伴認識你，還能領(lǐng)取20積分哦，立即完善>

3天內不再提示

第一個(gè)大規模點(diǎn)云的自監督預訓練MAE算法Voxel-MAE

作者：Chen Min， Xinli Xu， Dawei Zhao， Liang Xiao， Yiming Nie， Bin Dai

基于掩碼的自監督預訓練方法在圖像和文本領(lǐng)域得到了成功的應用。但是，對于同樣信息冗余的大規模點(diǎn)云，基于掩碼的自監督預訓練學(xué)習的研究還沒(méi)有展開(kāi)。在這篇文章中，我們提出了第一個(gè)將掩碼自編碼器引入大規模點(diǎn)云自監督預訓練學(xué)習的方法：Voxel-MAE。不同于2D MAE采用RGB像素回歸，3D點(diǎn)云數量巨大，無(wú)法直接學(xué)習每個(gè)點(diǎn)云的數據分布，因此Voxel-MAE將點(diǎn)云轉成體素形式，然后進(jìn)行體素內是否包含點(diǎn)云的二分類(lèi)任務(wù)學(xué)習。這種簡(jiǎn)單但是有效的分類(lèi)學(xué)習策略能使模型在體素級別上對物體形狀敏感，進(jìn)而提高下游任務(wù)的精度。即使掩蔽率高達90%，Voxel-MAE依然可以學(xué)習有代表性的特征，這是因為大規模點(diǎn)云的冗余度非常高。另外考慮點(diǎn)云隨著(zhù)距離增大變稀疏，設計了距離感知的掩碼策略。2D MAE的Transformer結構無(wú)法處理大規模點(diǎn)云，因此Voxel-MAE利用3D稀疏卷積來(lái)構建encoder，其中position encoding同樣可以只處理unmasked的體素。我們同時(shí)在無(wú)監督領(lǐng)域自適應任務(wù)上驗證了Voxel-MAE的遷移性能。Voxel-MAE證明了對大規模點(diǎn)云進(jìn)行基于掩碼的自監督預訓練學(xué)習，來(lái)提高無(wú)人車(chē)的感知性能是可行的。KITTI、nuScenes、Waymo數據集上，SECOND、CenterPoint和PV-RCNN上的充分的實(shí)驗證明Voxel-MAE在大規模點(diǎn)云上的自監督預訓練性能。

Voxel-MAE是第一個(gè)大規模點(diǎn)云的自監督掩碼自編碼器預訓練方法。

不同于MAE中，Voxel-MAE為大規模點(diǎn)云設計了適合的體素二分類(lèi)任務(wù)、距離感知的掩碼策略和3D稀疏卷積構建的encoder等。

Voxel-MAE的自監督掩碼自編碼器預訓練模型有效提升了SECOND、CenterPoint和PV-RCNN等算法在KITTI、nuScenes、Waymo數據集上的性能。

Voxel-MAE同時(shí)在無(wú)監督領(lǐng)域自適應3D目標檢測任務(wù)上驗證了遷移性能。

算法流程

圖1 Voxel-MAE的整體框圖：首先將大規模點(diǎn)云轉成體素表示，然后采用距離感知的掩碼策略對體素進(jìn)行mask，再將unmasked的體素送入不對稱(chēng)的encoder-decoder網(wǎng)絡(luò )，重建體素。最后，采用判斷體素內是否包含點(diǎn)云的二分類(lèi)交叉熵損失函數端到端訓練整個(gè)網(wǎng)絡(luò )。Encoder采用三維稀疏卷積網(wǎng)絡(luò )構建，Decoder采用三維反卷積實(shí)現。

Range-aware Masking

遵循常見(jiàn)的3D點(diǎn)云目標檢測的設置，我們將WXHXD范圍內的大規模點(diǎn)云沿著(zhù)XYZ方向分成大小為VWXVHXVD的體素。所有體素的個(gè)數為nl，包含點(diǎn)云的體素個(gè)數為nv。

不同于2D圖像，3D點(diǎn)云的分布隨著(zhù)離激光雷達的距離增加越來(lái)越稀疏。因此不能對不同位置的點(diǎn)云采用相同的掩碼策略。

對此我們設計了距離感知的掩碼策略。即對近處稠密的點(diǎn)云masking多，對遠處稀疏的點(diǎn)云masking少。具體我們將點(diǎn)云分成30米以?xún)龋?0-50米，50米以外，然后分別采用r1，r2和r3三種掩碼率來(lái)對點(diǎn)云體素進(jìn)行隨機掩蔽，其中r1》r2》r3。剩余的unmasked的體素個(gè)數為nun。對于所有包含點(diǎn)云的體素nl，我們將其點(diǎn)云體素分類(lèi)目標設為1，其他設為0。

3D Sparse Convolutional Encoder

MAE論文中采用Transformer網(wǎng)絡(luò )架構對訓練集中的unmasked部分進(jìn)行自注意力機制學(xué)習，不會(huì )被masked部分影響。但是由于unmasked的點(diǎn)云數量仍然很大，幾十萬(wàn)級別，Transformer網(wǎng)絡(luò )無(wú)法處理如此大規模unmasked的點(diǎn)云數據。研究者通常采用3D SparseConvolutions來(lái)處理大規模稀疏3D點(diǎn)云。因此不同于2D MAE，Voxel-MAE采用3D SparseConvolutions來(lái)構建MAE中的encoder，其采用positional encoding來(lái)只對unmasked的體素聚合信息，從而類(lèi)似MAE中的Transformer結構，可以降低訓練模型的計算復雜度。

3D Deconvolutional Decoder

Voxel-MAE采用3D反卷積構建decoder。最后一層輸出每個(gè)體素包含點(diǎn)云的概率。decoder網(wǎng)絡(luò )簡(jiǎn)單，只用于訓練過(guò)程。

Voxel-MAE的encoder和decoder的結構如下：

Reconstruction Target

2D MAE中采用masked部分的RGB像素回歸作為掩碼自編碼器自監督學(xué)習的目標，但是3D點(diǎn)云的數量很大，回歸點(diǎn)云需要學(xué)習每個(gè)點(diǎn)云的數據分布，是難以學(xué)習的。

對于3D點(diǎn)云的體素表示，體素內是否包含點(diǎn)云非常重要。因此我們?yōu)閂oxel-MAE設計了體素是否包含點(diǎn)云的二分類(lèi)任務(wù)。目標是恢復masked的體素的位置信息。雖然分類(lèi)任務(wù)很簡(jiǎn)單，但是可以學(xué)習到大規模點(diǎn)云的數據分布信息，從而提高預訓練模型的性能。

實(shí)驗結果

采用OpenPCDet算法基準庫，在KITTI、nuScenes、Waymo數據集上進(jìn)行了實(shí)驗驗證。

1.KITTI

2. Waymo

3. nuScenes

4. 3D點(diǎn)云無(wú)監督領(lǐng)域自適應任務(wù)驗證遷移性能

5. 3D點(diǎn)云重建可視化圖

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權轉載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習之用，如有內容侵權或者其他違規問(wèn)題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關(guān)注

關(guān)注
42

文章
3449

瀏覽量
132082
激光雷達

激光雷達

+關(guān)注

關(guān)注
965

文章
3743

瀏覽量
187500
數據集

數據集

+關(guān)注

關(guān)注
4

文章
1182

瀏覽量
24461

原文標題：Voxel-MAE: 第一個(gè)大規模點(diǎn)云的自監督預訓練MAE算法

文章出處：【微信號：3D視覺(jué)工坊，微信公眾號：3D視覺(jué)工坊】歡迎添加關(guān)注！文章轉載請注明出處。

評論

相關(guān)推薦

名單公布！【書(shū)籍評測活動(dòng)NO.30】大規模語(yǔ)言模型：從理論到實(shí)踐

，在大模型實(shí)踐和理論研究的過(guò)程中，歷時(shí)8個(gè)月完成《大規模語(yǔ)言模型：從理論到實(shí)踐》一書(shū)的撰寫(xiě)。希望這本書(shū)能夠幫助讀者快速入門(mén)大模型的研究和應用，并解決相關(guān)技術(shù)問(wèn)題。本書(shū)一經(jīng)上市，

發(fā)表于 03-11 15:16

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預訓練

具有以下三個(gè)非常顯著(zhù)的特點(diǎn)，一個(gè)就是模型參數規模更大，訓練數據更多。當然，對計算資源的要求也會(huì )更高。構建強大的語(yǔ)言模型時(shí)，模型的選型至關(guān)

發(fā)表于 05-07 17:10

一個(gè)大規模電路是怎么設計出來(lái)的？？？

組合成電路，比如一個(gè)電視機的電路板上電子元件縱橫交錯，怎么設計組合成那樣的，還有各與器件參數大小怎么算的?數字電路的各個(gè)門(mén)，模擬電路的三極管，單個(gè)是簡(jiǎn)單，就是不明白怎么組合成大規模電路的。書(shū)上就那么幾個(gè)簡(jiǎn)單的電路圖，網(wǎng)上也查詢(xún)過(guò)

發(fā)表于 12-24 20:34

【阿里云大學(xué)免費精品課】機器學(xué)習入門(mén)：概念原理及常用算法

的性能。2.機器學(xué)習是對能通過(guò)經(jīng)驗自動(dòng)改進(jìn)的計算機算法的研究。3.機器學(xué)習是用數據或以往的經(jīng)驗，以此優(yōu)化計算機程序的性能標準。機器學(xué)習算法可以分成下面幾種類(lèi)別：?監督學(xué)習：從給定的訓練

發(fā)表于 06-23 13:51

大規模MIMO的性能

軌跡產(chǎn)生的容量斜坡仍然比需求線(xiàn)平坦。面對此挑戰，3GPP 標準實(shí)體近來(lái)提出了數據容量“到2020 年增長(cháng)1000 倍”的目標，以滿(mǎn)足演進(jìn)性或革命性創(chuàng )意的需要。這種概念要求基站部署極大規模的天線(xiàn)陣

發(fā)表于 07-17 07:54

AU1200 MAE驅動(dòng)程序的開(kāi)發(fā)流程是什么？

隨著(zhù)移動(dòng)多媒體終端的口益普及，功能的日益強大，人們已經(jīng)不滿(mǎn)足于自己的手持終端僅僅能夠聽(tīng)MP3音樂(lè )，而是希望終端在播放音樂(lè )的同時(shí)能夠播放高質(zhì)量視頻，并支持多種視頻格式。AU 1200作為一

發(fā)表于 03-16 07:38

請問(wèn)怎樣去設計MAE前端驅動(dòng)軟件？

MAE是什么？MAE的開(kāi)發(fā)環(huán)境如何去建立？怎樣對MAE前端驅動(dòng)軟件進(jìn)行設計及測試？

發(fā)表于 04-22 06:04

一個(gè)benchmark實(shí)現大規模數據集上的OOD檢測

操作，感知的環(huán)境類(lèi)別也更多。因此，針對大規模圖像分類(lèi)任務(wù)的OOD檢測算法的開(kāi)發(fā)和評估存在一個(gè)關(guān)鍵的gap。本文首先志在提出一

發(fā)表于 08-31 15:11

神經(jīng)網(wǎng)絡(luò )在訓練時(shí)常用的一些損失函數介紹

是一個(gè)標準的高斯分布，說(shuō)明我們的這個(gè)損失函數可能不是很適合這個(gè)問(wèn)題。下圖顯示各訓練輪次的對比MSE收斂得很好，但MSE可能過(guò)擬合了，因為它從20輪開(kāi)始下降變得變換并且開(kāi)始上升。MAE根

發(fā)表于 10-20 17:14

為什么MFR4310E1MAE40型號的絲印是1M63J而不是0M63J？

為什么MFR4310E1MAE40型號的絲印是1M63J而不是0M63J？說(shuō)明書(shū)里有詳細說(shuō)明，怎么看？

發(fā)表于 04-14 06:09

AU 1200 MAE驅動(dòng)程序開(kāi)發(fā)流程

AU 1200作為一款基于MIPS架構的處理器，由于其片上集成了視頻硬件設備(Media Accel-eration Engine，MAE)，使得該處理器無(wú)需配合其他視頻解碼芯片即可完成多種格式的視頻解碼功能 &nb

發(fā)表于 06-24 09:38 ?580次閱讀

AU 1200 <b class='flag-5'>MAE</b>驅動(dòng)程序開(kāi)發(fā)流程

樂(lè )華LED23C310A板號40-MS82VG-MAE2LG主芯

樂(lè )華LED23C310A板號40-MS82VG-MAE2LG主芯片MST6M181.182閃存W25Q32屏LC230EUE(SE)(A1) 軟件

發(fā)表于 03-04 15:38 ?7次下載

如何向大規模預訓練語(yǔ)言模型中融入知識？

本文關(guān)注于向大規模預訓練語(yǔ)言模型（如RoBERTa、BERT等）中融入知識。

的頭像

發(fā)表于 06-23 15:07 ?3765次閱讀

如何向<b class='flag-5'>大規模</b>預<b class='flag-5'>訓練</b>語(yǔ)言模型中融入知識？

MAE再發(fā)力，跨模態(tài)交互式自編碼器PiMAE席卷3D目標檢測領(lǐng)域

MAE以其簡(jiǎn)單的實(shí)現方式、強大的視覺(jué)表示能力，可以在很多基礎視覺(jué)任務(wù)中展現出良好的性能。但是目前的工作大多是在單一視覺(jué)模態(tài)中進(jìn)行，那MAE在多模態(tài)數據融合方面表現如何呢？本文

的頭像

發(fā)表于 04-21 09:36 ?663次閱讀

基礎模型自監督預訓練的數據之謎：大量數據究竟是福還是禍？

。然而，在自監督預訓練中，是否數據越多越好？數據增廣是否始終有效？華為諾亞方舟實(shí)驗室與香港科技大學(xué)的研究團隊近期發(fā)現：主流自監督預訓練方法如 Masked Autoencoder (

的頭像

發(fā)表于 07-24 16:55 ?335次閱讀

基礎模型自<b class='flag-5'>監督</b>預<b class='flag-5'>訓練</b>的數據之謎：大量數據究竟是福還是禍？

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看