<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

港中文等發布MagicDrive:日夜、雨晴、多視角全覆蓋,人、物位置隨意變更

CVer ? 來源:新智元 ? 2023-10-20 16:18 ? 次閱讀

efaf7ad2-6f13-11ee-939d-92fbcf53809c.gif

【導讀】MagicDrive可以細粒度生成高保真、多相機街景,可以隨意變換天氣、光照條件以及人物位置,海量自動駕駛數據觸手可及!

深度學習算法的應用中,高質量的數據是技術創新的關鍵驅動力,尤其在自動駕駛領域,獲取和標注3D感知數據的成本不菲,對于許多研究者和開發者來說都是一個重大挑戰。

為此,來自香港中文大學、香港科技大學和華為諾亞方舟實驗室的研究人員聯合提出了基于 Diffusion的3D自動駕駛數據生成方法MagicDrive。

通過多種3D幾何條件的細粒度控制,MagicDrive在生成高保真多相機街景圖像的同時,還能夠支持多種下游感知任務的訓練。

efd1f9ea-6f13-11ee-939d-92fbcf53809c.png

論文地址:https://arxiv.org/abs/2310.02601

項目主頁:https://gaoruiyuan.com/magicdrive/

Github: https://github.com/cure-lab/MagicDrive

?MagicDrive多樣化生成數據

MagicDrive是一個突破性的解決方案利用可控生成技術合成自動駕環視相機視圖,生成更多樣化的自動駕駛數據,為自動駕駛場景仿真提供了新思路。

efe7a682-6f13-11ee-939d-92fbcf53809c.gif

先來看一些MagicDrive的生成效果。

多視角下,前景和背景都能保持一致性:

effec998-6f13-11ee-939d-92fbcf53809c.png

可以一鍵轉雨天:

f00cc6c4-6f13-11ee-939d-92fbcf53809c.png

不止生成車,人、障礙物都能準確控制位置:

f01a1e6e-6f13-11ee-939d-92fbcf53809c.png

還可以一鍵轉夜晚:

f03233fa-6f13-11ee-939d-92fbcf53809c.png

物體位置可以實現細粒度控制:

f03b78f2-6f13-11ee-939d-92fbcf53809c.gif

?

?關鍵問題:多種3D條件的編碼與注入

描述自動駕駛場景的條件是多維度的,包括:相機參數、物體框、路面地圖以及對場景屬性的語言描述(比如天氣和時間)。如何將如此復雜的場景信息同時作為條件指導生成,是3D自動駕駛街景數據合成的重點問題。

BEVGen[1]將3D幾何信息(路面和物體位置)都投影在BEV空間中,這會丟失全部高度信息,既無法控制物體高度/遮擋,也無法體現路面起伏;BEVControl[2]將3D幾何信息分別投影在相機視圖中,對于沒有高度信息的路面地圖而言,投影本身就是一個欠定義的問題,而且這種做法丟失了深度信息,同樣無法準確控制遮擋。

f063e59e-6f13-11ee-939d-92fbcf53809c.png

?

3D幾何信息與不同2D投影(相機投影/BEV)控制的比較

MagicDrive在完整考慮這些控制條件的基礎上,首次實現3D幾何的直接控制。MagicDrive結合Diffusion Model進行條件生成的優勢,根據每個控制條件的形式,采用不同的方法對生成進行控制。

f070217e-6f13-11ee-939d-92fbcf53809c.png

MagicDrive的方法框架

具體來說,對于場景級別的信息(語言描述和相機參數)和物體框信息,由于他們具有可變長的性質,MagicDrive先使用不同的編碼器講輸入數據編碼成嵌入序列,然后使用交叉注意力模塊控制圖像生成過程;

對于路面地圖信息,BEV能夠很好地將路面表示成圖像的形式,因此,使用類似ControlNet[3]的額外編碼器分支,就能夠讓生成遵循路面地圖的條件。

刪繁就簡:不同視角的一致性生成

多視角一致性是3D場景相機視圖生成的另一個重要要求。此前,已經有一些工作探索了室內場景中的多視角一致性約束方法,例如:MVDiffusion[5]和[6],但室內場景通常視角之間重疊較大,因此他們借助了不同的幾何先驗來限制視角之間的關系。

對于自動駕駛場景,不同相機之間重疊程度是有限的,因此并不需要過強的幾何約束。相反,在幾何條件足夠的情況下(即不同視角已經有獨立的幾何條件信息),只需要讓不同視角的生成過程有信息交互,就能夠保證前景和背景的一致生成。

因此MagicDrive提出cross-view attention模塊,用于在各個視角的生成過程中與左右相鄰視角交換信息,確保了從多個視角看到的前景和背景是一致的,這大大提高了數據的真實性與可靠性。

f085263c-6f13-11ee-939d-92fbcf53809c.png

Corss-view attention 模塊控制多視角的一致性

生成效果:在多個下游任務上提升明顯

用以真實圖像訓練的感知模型評價生成模型產生的圖片,MagicDrive不僅可以在BEV分割任務上超過baseline,并且能夠直接支持3D物體檢測任務,體現出優越的生成效果。

MagicDrive生成的圖片還可以直接用于數據增強,支持BEV分割和3D物體檢測任務,提升BEVFusion[6]和CVT[7]的性能。

除此之外,MagicDrive的多條件控制還可以實現場景、背景和前景的多層次街景圖像編輯,用來生成更多的新街景圖像。

更多評價結果與討論請參考原論文。

總結

總的來說,MagicDrive帶給我們一個全新的、高效的數據生成途徑。不僅成功解決了之街景生成中的3D幾何控制問題,而且提供了一種全新的方法,利用細粒度可控生成技術為3D自動駕駛產生訓練數據,生成數據的質量和真實性向自動駕駛的感知技術注入了新的活力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模塊
    +關注

    關注

    7

    文章

    2529

    瀏覽量

    46730
  • 3D
    3D
    +關注

    關注

    9

    文章

    2773

    瀏覽量

    106596
  • 自動駕駛
    +關注

    關注

    775

    文章

    13215

    瀏覽量

    163896

原文標題:自動駕駛數據不用愁!港中文等發布MagicDrive:日夜、雨晴、多視角全覆蓋,人、物位置隨意變更

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    什么是液晶電視可視角

    ,水平可視角度表示以顯示器的垂直法線(即顯示器正中間的垂直假想線)為準,在垂直于法線左方或右方一定角度的位置上仍然能夠正常的看見顯示圖像,這個角度范圍就是液晶顯示器的水平可視角度;同樣如果以水平法線為準
    發表于 11-18 09:29

    12864液晶 中文資料

    12864液晶 中文資料
    發表于 08-09 21:26

    視角裸眼3D顯示器技術發展和市場動態

    視角裸眼3D顯示器技術發展和市場動態
    發表于 08-17 13:48

    【天空之城】自動視角跟蹤讀書架

    書架基礎上增加自動提供舒適視角的一種書架。自動提供舒適的視角是本產品的亮點和創新點,更是本產品的出發點。我們在淘寶市場買來的書架只能通過人工的方式來進行視角的調節,為了更加智能化,于
    發表于 12-30 17:13

    【Tisan聯網申請】戶外集

    申請理由:由于傳統的采都是人工的,既費時費力,而且效率不高,基于單片機控制的集器不僅能自動采集雨水,而且還自動換瓶,省時省力。項目描述:由于有多個采樣地點,同時控制集板的開合不太容易,基于
    發表于 11-16 11:17

    一場超過56W圍觀的IoT發布

    ,更是一舉打破直播史上IoT發布會收視記錄,華麗麗完成直播史and VR直播史上的第一場超過56W圍觀的聯網技術產品發布會,(PS: 4小時直播平均 14-18GB的流量峰值)……
    發表于 09-22 15:13

    工廠車間無線WiFi覆蓋解決方案

    都是在一個AP覆蓋下,手持設備和移動終端隨意移動,不會出現跨AP切換斷線或延時的問題,真正意義上的零延時零切換。扇區覆蓋的缺點:  適合于敞開的車間、倉庫、貨場,中間不能有橫墻或隔斷
    發表于 08-11 17:15

    STMCU中文官網發布了最新的云接入培訓課件

    STMCU中文官網發布了最新的云接入培訓課件,共4篇培訓課件。內容涵蓋:聯網和聯網協議的基本介紹;MQTT即消息隊列遙測傳輸協議的詳細介紹;列舉STM32現有方案,包括軟件包、硬件
    發表于 08-22 15:24

    厲害了!關于珠澳大橋背后的“科技密碼”

    激光器、激光檢測器和測量電路組成。激光傳感器是新型測量儀表,它的優點是能實現無接觸遠距離測量,速度快,精度高,量程大,抗光、電干擾能力強。由于珠澳大橋采用了很多的海底沉管,在對它們進行位置測量
    發表于 10-25 11:52

    窄帶聯網將成為發展趨勢

    少的,但其重要性不言而喻,并且同樣與我們的生活息息相關。窄帶聯網能否成為未來發展的趨勢,是由其自身的特點決定的。通常來說,窄帶聯網具有廣覆蓋、連接、低功耗、低成本
    發表于 04-30 21:34

    聯網技術

    深入人心。三、2020博會整體規劃1、權威發布憑借權威資源,在展會平臺發布行業白皮書、資深行業報告。2、交流推廣服務企業在展會同期舉行新產品、新技術
    發表于 06-09 10:02

    定制段碼液晶屏如何確認視角反向?

    的是視角就是有LCD顯示屏安裝在儀器上的位置來確定的,(如:計算器一般是放在桌子上或握在手上,這種做6:00視角比較好,有些LCD液晶屏是安裝在低于
    發表于 07-08 09:13

    HarmonyOS-API7相對API6差異主要變更內容

    、系統及應用帳號管理、多線程機制、進程管理、后臺任務管理、添加日歷/聯系、視覺無障礙、人臉識別、傳感器管理、WLAN管理、藍牙管理、NFC標簽管理、位置信息。詳細情況查看如下:Java API
    發表于 02-15 14:35

    G104XVN01.0?友達10.4寸高清視角工業顯示屏

    G104XVN01.0?友達10.4寸高清視角工業顯示屏一、友達10.4寸液晶屏G104XVN01.0應用詳情品牌:友達型號名稱:G104XVN01.0屏幕類型:a-Si TFT-LCD , 液晶
    發表于 03-16 10:02

    中文C語言編程玩轉聯網華為鴻蒙Hi3861開發-基礎案例合集

    繼《一套支持中文C語言編程的鴻蒙Hi3861智能硬件開發套件》發布后,中文C語言編程玩轉聯網華為鴻蒙Hi3861開發,多個基礎案例視頻,包括交通紅綠燈、數碼管、光電開關、手指偵測心率
    發表于 05-08 23:50
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>