<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

字節發布機器人領域首個開源視覺-語言操作大模型，激發開源VLMs更大潛能

還在苦苦尋找開源的機器人大模型？試試RoboFlamingo！

近年來，大模型的研究正在加速推進，它逐漸在各類任務上展現出多模態的理解和時間空間上的推理能力。機器人的各類具身操作任務天然就對語言指令理解、場景感知和時空規劃等能力有著很高的要求，這自然引申出一個問題：能不能充分利用大模型能力，將其遷移到機器人領域，直接規劃底層動作序列呢？

對此，ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。使用簡單、少量的微調就可以把 VLM 變成 Robotics VLM，從而適用于語言交互的機器人操作任務。

OpenFlamingo 在機器人操作數據集 CALVIN 上進行了驗證，實驗結果表明，RoboFlamingo 只利用了 1% 的帶語言標注的數據即在一系列機器人操作任務上取得了 SOTA 的性能。

隨著 RT-X 數據集開放，采用開源數據預訓練 RoboFlamingo 并 finetune 到不同機器人平臺，將有希望成為一個簡單有效的機器人大模型 pipeline。論文還測試了各種不同 policy head、不同訓練范式和不同 Flamingo 結構的 VLM 在 Robotics 任務上微調的表現，得到了一些有意思的結論。

項目主頁：https://roboflamingo.github.io/

代碼鏈接：

https://github.com/RoboFlamingo/RoboFlamingo

論文鏈接：

https://arxiv.org/abs/2311.01378

研究背景

基于語言的機器人操作是具身智能領域的一個重要應用，它涉及到多模態數據的理解和處理，包括視覺、語言和控制等。近年來，視覺語言基礎模型（VLMs）已經在多個領域取得了顯著的進展，包括圖像描述、視覺問答和圖像生成等。然而，將這些模型應用于機器人操作仍然存在一些挑戰，例如如何將視覺和語言信息結合起來，如何處理機器人操作的時序性等。

為了解決這些問題，ByteDance Research 的機器人研究團隊利用現有的開源 VLM，OpenFlamingo，設計了一套新的視覺語言操作框架，RoboFlamingo。其中 VLM 可以進行單步視覺語言理解，而額外的 policy head 模組被用來處理歷史信息。只需要簡單的微調方法就能讓 RoboFlamingo 適應于基于語言的機器人操作任務。

RoboFlamingo 在基于語言的機器人操作數據集 CALVIN 上進行了驗證，實驗結果表明，RoboFlamingo 只利用了 1% 的帶語言標注的數據即在一系列機器人操作任務上取得了 SOTA 的性能（多任務學習的 task sequence 成功率為 66%，平均任務完成數量為 4.09，基線方法為 38%，平均任務完成數量為 3.06；zero-shot 任務的成功率為 24%，平均任務完成數量為 2.48，基線方法為 1%，平均任務完成數量是 0.67），并且能夠通過開環控制實現實時響應，可以靈活部署在較低性能的平臺上。

這些結果表明，RoboFlamingo 是一種有效的機器人操作方法，可以為未來的機器人應用提供有用的參考。

方法

本工作利用已有的基于圖像 - 文本對的視覺語言基礎模型，通過訓練端到端的方式生成機器人每一步的 relative action。模型的主要模塊包含了 vision encoder，feature fusion decoder 和 policy head 三個模塊。

Vision encoder 模塊先將當前視覺觀測輸入到 ViT 中，并通過 resampler 對 ViT 輸出的 token 進行 down sample。

Feature fusion decoder 將 text token 作為輸入，并在每個 layer 中先將 vision encoder 的 output 作為 query 進行 cross attention，之后進行 self attention 以完成視覺與語言特征的融合。

最后，對 feature fusion decoder 進行 max pooling 后將其送入 policy head 中，policy head 根據 feature fusion decoder 輸出的當前和歷史 token 序列直接輸出當前的 7 DoF relative action，包括了 6-dim 的機械臂末端位姿和 1-dim 的 gripper open/close。

在訓練過程中，RoboFlamingo 利用預訓練的 ViT、LLM 和 Cross Attention 參數，并只微調 resampler、cross attention 和 policy head 的參數。

實驗結果

數據集：

CALVIN（Composing Actions from Language and Vision）是一個開源的模擬基準測試，用于學習基于語言的 long-horizon 操作任務。與現有的視覺 - 語言任務數據集相比，CALVIN 的任務在序列長度、動作空間和語言上都更為復雜，并支持靈活地指定傳感器輸入。CALVIN 分為 ABCD 四個 split，每個 split 對應了不同的 context 和 layout。

定量分析：

RoboFlamingo 在各設置和指標上的性能均為最佳，說明了其具有很強的模仿能力、視覺泛化能力以及語言泛化能力。Full 和 Lang 表示模型是否使用未配對的視覺數據進行訓練（即沒有語言配對的視覺數據）；Freeze-emb 指的是凍結融合解碼器的嵌入層；Enriched 表示使用 GPT-4 增強的指令。

消融實驗：

不同的 policy head：

實驗考察了四種不同的策略頭部：MLP w/o hist、MLP w hist、GPT 和 LSTM。其中，MLP w/o hist 直接根據當前觀測預測歷史，其性能最差，MLP w hist 將歷史觀測在 vision encoder 端進行融合后預測 action，性能有所提升；GPT 和 LSTM 在 policy head 處分別顯式、隱式地維護歷史信息，其表現最好，說明了通過 policy head 進行歷史信息融合的有效性。

視覺-語言預訓練的影響：

預訓練對于 RoboFlamingo 的性能提升起到了關鍵作用。實驗顯示，通過預先在大型視覺-語言數據集上進行訓練，RoboFlamingo 在機器人任務中表現得更好。

模型大小與性能：

雖然通常更大的模型會帶來更好的性能，但實驗結果表明，即使是較小的模型，也能在某些任務上與大型模型媲美。

指令微調的影響：

指令微調是一個強大的技巧，實驗結果表明，它可以進一步提高模型的性能。

定性結果相較于基線方法，RoboFlamingo 不但完整執行了 5 個連續的子任務，且對于基線頁執行成功的前兩個子任務，RoboFlamingo 所用的步數也明顯更少。

總結本工作為語言交互的機器人操作策略提供了一個新穎的基于現有開源 VLMs 的框架，使用簡單微調就能實現出色的效果。RoboFlamingo 為機器人技術研究者提供了一個強大的開源框架，能夠更容易地發揮開源 VLMs 的潛能。工作中豐富的實驗結果或許可以為機器人技術的實際應用提供寶貴的經驗和數據，有助于未來的研究和技術發展。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

機器人

機器人

+關注

關注
207

文章
27315

瀏覽量
202146
開源

開源

+關注

關注
3

文章
3029

瀏覽量
41814
大模型

大模型

+關注

關注
2

文章
1823

瀏覽量
1419

原文標題：字節發布機器人領域首個開源視覺-語言操作大模型，激發開源VLMs更大潛能

文章出處：【微信號：vision263com，微信公眾號：新機器視覺】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

Baxter——通過語言和動作教機器人完成任務

操作系統 ROS ，這是硅谷全面提供機器人應用開發包公司“柳樹車庫”開發的系統，你既可以給它編程，也可以像教孩子做事一樣，通過動作和語言教會機器人完成任務。現在，他們的重點已經從如何

發表于 01-22 10:04

機器人視覺——機器人的“眼睛”

目前產業機器人僅能在嚴格定義的結構化環境中執行預定指令動作，缺乏對環境的感知與應變能力，這極大地限制了機器人的應用。利用機器人的視覺控制，不需要預先對產業

發表于 01-23 15:02

ColorSky雙足機器人開源項目

本帖最后由 colorsky 于 2016-4-21 14:05 編輯大家好，我是ColorSky。這是我的雙足機器人的開源項目。先發出視頻給大家看看，后面陸續會把技術資料上傳。機器人鞠躬動作

發表于 04-21 10:51

《工業機器人》，蔣剛編著的，附下載。

推薦課程：張飛軟硬開源：基于STM32的BLDC直流無刷電機驅動器（視頻+硬件）http://url.elecfans.com/u/73ad899cfd 中文名: 工業機器人作者: 蔣剛圖書分類

發表于 06-01 13:12

自律型機器人制作入門.基于Arduino

]昨天 14:47 上傳內容介紹《自律型機器人制作入門：基于Arduino》基于開源硬件思想，完全公開各個結構件的外觀尺寸，控制板基于開源硬件領域內廣泛使用的Arduino，采用在Ar

發表于 06-23 11:18

全自動AI移動機器人（開發手冊+開源資料）

`近年來，機器人領域的各類熱門產品不斷涌現，全國的機器人市場規模也在不斷擴大。中國作為第一制造大國，面臨著制造業產業模式的重大變革，而機器人的興起恰好給中國制造業的轉型升級提供了一個絕

發表于 10-11 14:52

機器人的自主決策可靠嗎？機器視覺在智能領域占據什么地位？

工業視覺中，機器人視覺領域在技術和商用程度上均有較好的表現。本文從機器人視覺的市場需求、技術原理

發表于 08-16 04:00

基于圖像的機器人視覺伺服系統該怎么設計？

　　制造出像人一樣具有智能的能替代人類勞動的機器人，一直是人類的夢想，人類獲取的信息80%以上是通過視覺。因此，在智能機器人的研究中，具有視覺

發表于 09-27 08:07

服務機器人的視覺系統怎么設計？

跟蹤等領域。不同種類的機器人由于工作的重點不一樣，它的視覺系統在軟件或硬件上都有著細微的差別。本文研究基于服務機器人的單目視覺系統。它處理的

發表于 04-07 07:27

機器人視覺與機器視覺有什么不一樣？

特定的應用，而不僅僅是關注技術的部分，機器視覺是指工業用途的視覺來進行自動檢測、過程控制和機器人導引。族譜的其余部分是科學領域，而

發表于 08-28 10:48

開源資料六足仿生機器人（原理圖+PCB+源碼等）

有很多小伙伴喜歡在沒事的時候鼓搗一些機器人什么的，現在給大家分享一個仿生機器人開源資料，喜歡的小伙伴可以看看。六足機器人系統基于仿生學原理，采用六足昆蟲的機械結構，通過控制18個舵機，

發表于 10-10 09:57

設計一種可用于大學和學校教授機器人技術的機器人

于大學和學校教授機器人技術的機器人?？紤]到這一點，設計必須負擔得起且易于使用。發布源文件并在開源許可下這樣做是最好的選擇：任何人都可以深入研究機器人

發表于 07-25 07:04

嵌入式熱門DIY項目：智能機器人開源資料合集（原理圖、代碼、論文）

智能機器人設計是不少電子發燒友首選的熱門DIY項目，現整理了一批機器人開源項目，基本都包含了原理圖、代碼、論文資料等，速度上車學習起來吧！一、機器人控制系統-嵌入式數字圖像處理全

發表于 09-20 15:02

ROS讓機器人開發更便捷，基于RK3568J+Debian系統發布！

ROS系統是什么 ROS(Robot Operating System)是一個適用于機器人的開源的元操作系統。它提供了操作系統應有的服務，包括硬件抽象，底層設備控制，常用函數的實現，進

發表于 11-30 16:01

機器人基于開源的多模態語言視覺大模型

ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo

發表于 01-19 11:43 ?180次閱讀

新機器視覺
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 國內外傳感器知名制造商 Top 100
Hot 世界上第一臺工業機器人的前世今生

New 如何將每個框架插入到SLAM框架中
New PyTorch中激活函數的全面概覽

精選推薦
更多

文章

資料

帖子

使用理想二極管控制器的汽車應用冗余電源拓撲

德州儀器
2小時前

232 閱讀

電力電子中的電大、電小尺寸？

英飛凌工業半導體
2天前

164 閱讀

EMC大揭秘 PCB設計必備指南

凡億PCB
1天前

710 閱讀

華為PCBA檢查規范設計總結

凡億PCB
1天前

802 閱讀

第一批人機戀的“AI前任”已經死了

腦極體
1天前

873 閱讀

drv8703-q1 EVM的用戶指南

istraight
1.75 MB

1積分

0下載

Qorvo大牛談IOT市場前景及相關應對策略

半導體動態
568KB

1積分

12下載

安規電容知識詳解，X電容和Y電容的作用以及應用、耐壓選擇

聽風說夢
172.42KB

10積分

57下載

IoTlink物聯網綜合業務支撐平臺

李郝蔭
5.82 MB

免費

0下載

YOLOX高性能實時目標檢測器

微風挽雨
2.84 MB

2積分

2下載

為什么我的電源會出現振鈴和過熱？

久醉不醒
14小時前

84 閱讀

無線鼠標主板，可以自己照著做嗎？

angel725
1天前

329 閱讀

【Vision Board創客營連載體驗】基于Vision Board的垃圾分類

大菠蘿Alpha
1天前

160 閱讀

【Vision Board創客營連載體驗】使用 Vision Board 做一個 UVC Camera

ouxiaolong
2天前

161 閱讀

【Vision Board創客營連載體驗】TinyMaix進行手寫數字識別

ouxiaolong
2天前

474 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看