0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區
會(huì )員中心
創(chuàng )作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內不再提示

第一個(gè)大規模點(diǎn)云的自監督預訓練MAE算法Voxel-MAE

3D視覺(jué)工坊 ? 來(lái)源:arxiv ? 作者:arxiv ? 2022-10-21 16:15 ? 次閱讀

作者:Chen Min, Xinli Xu, Dawei Zhao, Liang Xiao, Yiming Nie, Bin Dai

基于掩碼的自監督預訓練方法在圖像和文本領(lǐng)域得到了成功的應用。但是,對于同樣信息冗余的大規模點(diǎn)云,基于掩碼的自監督預訓練學(xué)習的研究還沒(méi)有展開(kāi)。在這篇文章中,我們提出了第一個(gè)將掩碼自編碼器引入大規模點(diǎn)云自監督預訓練學(xué)習的方法:Voxel-MAE。不同于2D MAE采用RGB像素回歸,3D點(diǎn)云數量巨大,無(wú)法直接學(xué)習每個(gè)點(diǎn)云的數據分布,因此Voxel-MAE將點(diǎn)云轉成體素形式,然后進(jìn)行體素內是否包含點(diǎn)云的二分類(lèi)任務(wù)學(xué)習。這種簡(jiǎn)單但是有效的分類(lèi)學(xué)習策略能使模型在體素級別上對物體形狀敏感,進(jìn)而提高下游任務(wù)的精度。即使掩蔽率高達90%,Voxel-MAE依然可以學(xué)習有代表性的特征,這是因為大規模點(diǎn)云的冗余度非常高。另外考慮點(diǎn)云隨著(zhù)距離增大變稀疏,設計了距離感知的掩碼策略。2D MAE的Transformer結構無(wú)法處理大規模點(diǎn)云,因此Voxel-MAE利用3D稀疏卷積來(lái)構建encoder,其中position encoding同樣可以只處理unmasked的體素。我們同時(shí)在無(wú)監督領(lǐng)域自適應任務(wù)上驗證了Voxel-MAE的遷移性能。Voxel-MAE證明了對大規模點(diǎn)云進(jìn)行基于掩碼的自監督預訓練學(xué)習,來(lái)提高無(wú)人車(chē)的感知性能是可行的。KITTI、nuScenes、Waymo數據集上,SECOND、CenterPoint和PV-RCNN上的充分的實(shí)驗證明Voxel-MAE在大規模點(diǎn)云上的自監督預訓練性能。

Voxel-MAE是第一個(gè)大規模點(diǎn)云的自監督掩碼自編碼器預訓練方法。

不同于MAE中,Voxel-MAE為大規模點(diǎn)云設計了適合的體素二分類(lèi)任務(wù)、距離感知的掩碼策略和3D稀疏卷積構建的encoder等。

Voxel-MAE的自監督掩碼自編碼器預訓練模型有效提升了SECOND、CenterPoint和PV-RCNN等算法在KITTI、nuScenes、Waymo數據集上的性能。

Voxel-MAE同時(shí)在無(wú)監督領(lǐng)域自適應3D目標檢測任務(wù)上驗證了遷移性能。

算法流程

圖1 Voxel-MAE的整體框圖:首先將大規模點(diǎn)云轉成體素表示,然后采用距離感知的掩碼策略對體素進(jìn)行mask,再將unmasked的體素送入不對稱(chēng)的encoder-decoder網(wǎng)絡(luò ),重建體素。最后,采用判斷體素內是否包含點(diǎn)云的二分類(lèi)交叉熵損失函數端到端訓練整個(gè)網(wǎng)絡(luò )。Encoder采用三維稀疏卷積網(wǎng)絡(luò )構建,Decoder采用三維反卷積實(shí)現。

Range-aware Masking

遵循常見(jiàn)的3D點(diǎn)云目標檢測的設置,我們將WXHXD范圍內的大規模點(diǎn)云沿著(zhù)XYZ方向分成大小為VWXVHXVD的體素。所有體素的個(gè)數為nl,包含點(diǎn)云的體素個(gè)數為nv。

不同于2D圖像,3D點(diǎn)云的分布隨著(zhù)離激光雷達的距離增加越來(lái)越稀疏。因此不能對不同位置的點(diǎn)云采用相同的掩碼策略。

對此我們設計了距離感知的掩碼策略。即對近處稠密的點(diǎn)云masking多,對遠處稀疏的點(diǎn)云masking少。具體我們將點(diǎn)云分成30米以?xún)龋?0-50米,50米以外,然后分別采用r1,r2和r3三種掩碼率來(lái)對點(diǎn)云體素進(jìn)行隨機掩蔽,其中r1》r2》r3。剩余的unmasked的體素個(gè)數為nun。對于所有包含點(diǎn)云的體素nl,我們將其點(diǎn)云體素分類(lèi)目標設為1,其他設為0。

3D Sparse Convolutional Encoder

MAE論文中采用Transformer網(wǎng)絡(luò )架構對訓練集中的unmasked部分進(jìn)行自注意力機制學(xué)習,不會(huì )被masked部分影響。但是由于unmasked的點(diǎn)云數量仍然很大,幾十萬(wàn)級別,Transformer網(wǎng)絡(luò )無(wú)法處理如此大規模unmasked的點(diǎn)云數據。研究者通常采用3D SparseConvolutions來(lái)處理大規模稀疏3D點(diǎn)云。因此不同于2D MAE,Voxel-MAE采用3D SparseConvolutions來(lái)構建MAE中的encoder,其采用positional encoding來(lái)只對unmasked的體素聚合信息,從而類(lèi)似MAE中的Transformer結構,可以降低訓練模型的計算復雜度。

3D Deconvolutional Decoder

Voxel-MAE采用3D反卷積構建decoder。最后一層輸出每個(gè)體素包含點(diǎn)云的概率。decoder網(wǎng)絡(luò )簡(jiǎn)單,只用于訓練過(guò)程。

Voxel-MAE的encoder和decoder的結構如下:

Reconstruction Target

2D MAE中采用masked部分的RGB像素回歸作為掩碼自編碼器自監督學(xué)習的目標,但是3D點(diǎn)云的數量很大,回歸點(diǎn)云需要學(xué)習每個(gè)點(diǎn)云的數據分布,是難以學(xué)習的。

對于3D點(diǎn)云的體素表示,體素內是否包含點(diǎn)云非常重要。因此我們?yōu)閂oxel-MAE設計了體素是否包含點(diǎn)云的二分類(lèi)任務(wù)。目標是恢復masked的體素的位置信息。雖然分類(lèi)任務(wù)很簡(jiǎn)單,但是可以學(xué)習到大規模點(diǎn)云的數據分布信息,從而提高預訓練模型的性能。

實(shí)驗結果

采用OpenPCDet算法基準庫,在KITTI、nuScenes、Waymo數據集上進(jìn)行了實(shí)驗驗證。

1.KITTI

2. Waymo

3. nuScenes

4. 3D點(diǎn)云無(wú)監督領(lǐng)域自適應任務(wù)驗證遷移性能

5. 3D點(diǎn)云重建可視化圖

審核編輯:郭婷


聲明:本文內容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權轉載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習之用,如有內容侵權或者其他違規問(wèn)題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    42

    文章

    3449

    瀏覽量

    132082
  • 激光雷達
    +關(guān)注

    關(guān)注

    965

    文章

    3743

    瀏覽量

    187500
  • 數據集
    +關(guān)注

    關(guān)注

    4

    文章

    1182

    瀏覽量

    24461

原文標題:Voxel-MAE: 第一個(gè)大規模點(diǎn)云的自監督預訓練MAE算法

文章出處:【微信號:3D視覺(jué)工坊,微信公眾號:3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    名單公布!【書(shū)籍評測活動(dòng)NO.30】大規模語(yǔ)言模型:從理論到實(shí)踐

    ,在大模型實(shí)踐和理論研究的過(guò)程中,歷時(shí)8個(gè)月完成 《大規模語(yǔ)言模型:從理論到實(shí)踐》 書(shū)的撰寫(xiě)。希望這本書(shū)能夠幫助讀者快速入門(mén)大模型的研究和應用,并解決相關(guān)技術(shù)問(wèn)題。 本書(shū)經(jīng)上市,
    發(fā)表于 03-11 15:16

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的訓練

    具有以下三個(gè)非常顯著(zhù)的特點(diǎn),個(gè)就是模型參數規模更大,訓練數據更多。當然,對計算資源的要求也會(huì )更高。 構建強大的語(yǔ)言模型時(shí),模型的選型至關(guān)
    發(fā)表于 05-07 17:10

    個(gè)大規模電路是怎么設計出來(lái)的???

    組合成電路,比如個(gè)電視機的電路板上電子元件縱橫交錯,怎么設計組合成那樣的,還有各與器件參數大小怎么算的?數字電路的各個(gè)門(mén),模擬電路的三極管,單個(gè)是簡(jiǎn)單,就是不明白怎么組合成大規模電路的。書(shū)上就那么幾個(gè)簡(jiǎn)單的電路圖,網(wǎng)上也查詢(xún)過(guò)
    發(fā)表于 12-24 20:34

    【阿里大學(xué)免費精品課】機器學(xué)習入門(mén):概念原理及常用算法

    的性能。2.機器學(xué)習是對能通過(guò)經(jīng)驗自動(dòng)改進(jìn)的計算機算法的研究。3.機器學(xué)習是用數據或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標準。機器學(xué)習算法可以分成下面幾種類(lèi)別:?監督學(xué)習:從給定的訓練
    發(fā)表于 06-23 13:51

    大規模MIMO的性能

    軌跡產(chǎn)生的容量斜坡仍然比需求線(xiàn)平坦。面對此挑戰,3GPP 標準實(shí)體近來(lái)提出了數據容量“到2020 年增長(cháng)1000 倍”的目標,以滿(mǎn)足演進(jìn)性或革命性創(chuàng )意的需要。這種概念要求基站部署極大規模的天線(xiàn)陣
    發(fā)表于 07-17 07:54

    AU1200 MAE驅動(dòng)程序的開(kāi)發(fā)流程是什么?

    隨著(zhù)移動(dòng)多媒體終端的口益普及,功能的日益強大,人們已經(jīng)不滿(mǎn)足于自己的手持終端僅僅能夠聽(tīng)MP3音樂(lè ),而是希望終端在播放音樂(lè )的同時(shí)能夠播放高質(zhì)量視頻,并支持多種視頻格式。AU 1200作為
    發(fā)表于 03-16 07:38

    請問(wèn)怎樣去設計MAE前端驅動(dòng)軟件?

    MAE是什么?MAE的開(kāi)發(fā)環(huán)境如何去建立?怎樣對MAE前端驅動(dòng)軟件進(jìn)行設計及測試?
    發(fā)表于 04-22 06:04

    個(gè)benchmark實(shí)現大規模數據集上的OOD檢測

    操作,感知的環(huán)境類(lèi)別也更多。因此,針對大規模圖像分類(lèi)任務(wù)的OOD檢測算法的開(kāi)發(fā)和評估存在個(gè)關(guān)鍵的gap。本文首先志在提出
    發(fā)表于 08-31 15:11

    神經(jīng)網(wǎng)絡(luò )在訓練時(shí)常用的些損失函數介紹

    個(gè)標準的高斯分布,說(shuō)明我們的這個(gè)損失函數可能不是很適合這個(gè)問(wèn)題。下圖顯示各訓練輪次的對比MSE收斂得很好,但MSE可能過(guò)擬合了,因為它從20輪開(kāi)始下降變得變換并且開(kāi)始上升。MAE
    發(fā)表于 10-20 17:14

    為什么MFR4310E1MAE40型號的絲印是1M63J而不是0M63J?

    為什么MFR4310E1MAE40型號的絲印是1M63J而不是0M63J?說(shuō)明書(shū)里有詳細說(shuō)明,怎么看?
    發(fā)表于 04-14 06:09

    AU 1200 MAE驅動(dòng)程序開(kāi)發(fā)流程

    AU 1200作為一款基于MIPS架構的處理器,由于其片上集成了視頻硬件設備(Media Accel-eration Engine,MAE),使得該處理器無(wú)需配合其他視頻解碼芯片即可完成多種格式的視頻解碼功能 &nb
    發(fā)表于 06-24 09:38 ?580次閱讀
    AU 1200 <b class='flag-5'>MAE</b>驅動(dòng)程序開(kāi)發(fā)流程

    樂(lè )華LED23C310A板號40-MS82VG-MAE2LG主芯

    樂(lè )華LED23C310A板號40-MS82VG-MAE2LG主芯片MST6M181.182閃存W25Q32屏LC230EUE(SE)(A1) 軟件
    發(fā)表于 03-04 15:38 ?7次下載

    如何向大規模訓練語(yǔ)言模型中融入知識?

    本文關(guān)注于向大規模訓練語(yǔ)言模型(如RoBERTa、BERT等)中融入知識。
    的頭像 發(fā)表于 06-23 15:07 ?3765次閱讀
    如何向<b class='flag-5'>大規模</b>預<b class='flag-5'>訓練</b>語(yǔ)言模型中融入知識?

    MAE再發(fā)力,跨模態(tài)交互式自編碼器PiMAE席卷3D目標檢測領(lǐng)域

    MAE以其簡(jiǎn)單的實(shí)現方式、強大的視覺(jué)表示能力,可以在很多基礎視覺(jué)任務(wù)中展現出良好的性能。但是目前的工作大多是在單一視覺(jué)模態(tài)中進(jìn)行,那MAE在多模態(tài)數據融合方面表現如何呢?本文
    的頭像 發(fā)表于 04-21 09:36 ?663次閱讀

    基礎模型自監督訓練的數據之謎:大量數據究竟是福還是禍?

    。然而,在自監督訓練中,是否數據越多越好?數據增廣是否始終有效?華為諾亞方舟實(shí)驗室與香港科技大學(xué)的研究團隊近期發(fā)現: 主流自監督訓練方法如 Masked Autoencoder (
    的頭像 發(fā)表于 07-24 16:55 ?335次閱讀
    基礎模型自<b class='flag-5'>監督</b>預<b class='flag-5'>訓練</b>的數據之謎:大量數據究竟是福還是禍?
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看