<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

自然語言控制機械臂:ChatGPT與機器人技術的融合創新(下)

大象機器人科技 ? 來源:大象機器人科技 ? 作者:大象機器人科技 ? 2024-04-11 15:54 ? 次閱讀

引言


在我們的上一篇文章中,我們探索了如何將ChatGPT集成到myCobot 280機械臂中,實現了一個通過自然語言控制機械臂的系統。我們詳細介紹了項目的動機、使用的關鍵技術如ChatGPT和Google的Speech-to-text服務,以及我們是如何通過pymycobot模塊來控制機械臂的。通過將自然語言處理和機械臂控制相結合,我們的項目旨在降低機器人編程的門檻,使得非專業人士也能輕松地進行機器人編程和實驗。

接下來,在這篇文章中,我們將討論在開發這一系統過程中遇到的挑戰,我們是如何克服這些挑戰的,以及項目未來的擴展可能性。我們的目標是深入了解技術實施的具體問題,并探索該系統未來發展的新方向。

wKgZomYXhL2AWINGAHjQGzQa6LU646.png

開發當中遇到的困難


在開發集成了ChatGPT的mycobot 280機械臂控制系統的過程中,我面臨了幾個主要的技術挑戰。

1.語音識別的準確性和響應時間


首先,我遇到的挑戰是語音識別的準確性和反應時間。盡管使用了Google的Speech-to-text,但在實際應用中,我發現它有時難以準確識別專業術語或在嘈雜環境中捕捉語音指令??赡苁且驗椴惶斫獾讓舆壿嬤\行的一個原理是什么,也不知道如何來正確的使用。此外,從語音輸入到文本輸出的過程延遲較長,如何來判斷這句話是不是說完了,通常響應的時間較久。

wKgZomYXjQiAdddWAAA5T4Pbqmk535.png

在我說完之后,大概會有3s左右的響應時間。

2.OpenAI API的實用性和地域限制


ChatGPT的API 是整個項目的核心功能點,沒有了他就不能實現AI的機械臂控制系統了。在一開始測試代碼的時候我用的是WEB版本的ChatGPT,一開始沒有考慮到使用API是一個比較大的問題。

因為地區的問題,沒有辦法直接通過API進行訪問OpenAI,會出現網絡延遲,不能夠使用代理等軟件來實現訪問。除此之外還得確保網絡的穩定性才能夠快快速的進行處理。

wKgZomYXjTqAJnVDAAB5lnQ5YAc478.png

3.自然語言轉指令的處理


如果解決了上邊的生成代碼的問題,我們將會得到類似于命令行的字符串,需要將它轉變成可以編譯的代碼。一開始只考慮到了單行的命令行

"robot.move_to_zero()"


要將字符串轉化成執行的代碼可以用到python的getattr(),他是一個內置函數,用于獲取對象的屬性值。

getattr(object, name[, default]) object:表示要獲取屬性的對象。 name:表示要獲取的屬性的名稱。 default:可選參數,表示如果指定的屬性不存在時返回的默認值。


getattr() 函數會嘗試獲取指定對象的指定屬性的值。如果對象具有該屬性,則返回屬性的值;如果對象沒有指定的屬性,但提供了默認值,則返回默認值;如果對象沒有指定的屬性,并且沒有提供默認值,則會引發 AttributeError 異常。

舉個例子直接調用類的方法

class Myclass: def print_1(self): print("halo word") obj = mycalss() getattr(obj,"print_1")() """ halo word


用這個方法就可以完美解決如何將字符串的形式輸出可執行的代碼了!

接下來是將字符串轉化為可執行代碼的過程:

我們收到的字符串是代碼的形式例如

"robot.move_to_zero()"


我們要將這一部分進行拆分,分為obj和方法兩部分,就要用到python當中的分割的方法。

# 以.為節點分為前后兩個部分 command_str = "robot.move_to_zero()" parts = command_str.split(".") parts[0] = "robot" part[1] = "move_to_zero()" # 去掉括號保留,方法名 method_name = part[1].split("()")[0] method = getatter(robot,method_name) method() #處理轉化方法 def execute_command(instance,command_str): try: #分割對象名和方法 parts = command_str.split(".") if len(parts) != 2 or parts[0] != 'robot': print("Invalid command format.") return method_name = parts[1].split("()")[0] #移除括號 #使用getattr 安全的獲取方法引用 if hasattr(instance, method_name): method = getattr(instance, method_name) method() else: print(f"the method {method_name} does not exist!") except Exception as e: print(f"An error occurred: {e}")

這樣就完成了,能夠處理單行的字符串,但是在測試的時候使用產生多行的命令的時候,這個代碼就不行了,它會變成一長串,所以這個方法是無效的。

上述三個是我主要遇到的問題,接下來我將一一的進行解答。

解決方案和應對策略


1.優化語音識別


根據我上述描寫的識別延遲的問題,我是通過設置時間來優化我的程序。

# 設置timeout為3秒,phrase_time_limit為10秒 audio = recognizer.listen(source, timeout=3, phrase_time_limit=10)


默認設置沒有聽到聲音,一直的進行監聽,我設置了時間上的限制10s,也能夠保證我在說完話之后較快的一個響應。

接下來完成的功能代碼

import speech_recognition as sr def speech_to_text(): # 初始化識別器 recognizer = sr.Recognizer() with sr.Microphone() as source: print("start speaking...") # 監聽源,設置timeout和phrase_time_limit # timeout:在這段時間內沒有檢測到聲音,則停止監聽 # phrase_time_limit:監聽的最大時長 try: audio = recognizer.listen(source, timeout=3, phrase_time_limit=10) except sr.WaitTimeoutError: print("No speech was detected within the timeout period.") return None try: # 使用Google的語音識別服務 text = recognizer.recognize_google(audio, language='en-US') print("You said: " + text) return text except sr.UnknownValueError: print("Google Speech Recognition could not understand audio") return None except sr.RequestError as e: print(f"Could not request results from Google Speech Recognition service; {e}") return None

這目前已經可以滿足大部分的需求了,實際的使用情況下來來看,整個的功能還是比較完整的,能夠有效的識別出語音內容,特別是讓我說數字的時候他主動轉化成阿拉伯數字,在進行交互的過程中省了處理數字的問題。

1.自然語言轉化優化


如何來解決多行的指令問題呢。

當我們收到,多行的指令就不能跟之前單純的分離來進行處理了得考慮其他的方式,以下的情況默認ChatGPT生成的指令是下面這種換行行的字符串,沒有帶注釋的(ChatGPT很喜歡寫注釋)。

"robot.move_to_zero() robot.grab_position() robot.plus_z_coords(20)"


只要把多個當成一個來看就好了!

# 分割成多行 commands = command_str.strip().split('n') #萬一里面存在一些空白符,得先進行處理 for cmd in commands: cmd = cmd.strip() if not cmd: continue # 我們默認obj 是robot,就只需要獲取方法名字就可以了 if cmd.startswith("robot."): cmd = cmd[6:] # 分割方法名,和參數 if '(' in cmd and cmd.endswith(")"): method_name, args_str = cmd.split('(', 1) method_name = method_name.strip() #刪除前后空格 args_str = args_str.rstrip(")") #刪除右側的) # 移除可能的空白字符,并按逗號分隔參數 args = [arg.strip() for arg in args_str.split(',')] if args_str else []

wKgaomYXj6qAJXcQAABhB7CAPh4382.png

it works!

3.ChatGPT API的問題

關于這個問題,我目前并沒能很好的進行解決,大家如果有好的方法可以,私信我跟我溝通,因為地區的問題,并不能夠直接的用API獲取響應。

項目的擴展功能和未來展望
視覺功能


在本次記錄當中,缺少了最重要的一個模塊,視覺模塊,單獨有一個機械臂沒有眼睛的話跟瞎子又有什么區別呢。 對于這一部分的開發,會需要花費較大的經歷,如果以后有完成一定程度上的開發,我也會及時出來跟大家進行分享。

之前也有看到日本的Shirokuma 開發個類似的項目,用到了ChatGPT4-vision的功能,做了說出目標進行抓取的一個功能。

https://twitter.com/neka_nat/status/1733517151947108717

這個項目也是相當的有意思,給了我不少開發這個項目的想法。

wKgaomYXkAOAfa1rAAbFhnzWR4E408.png

更加智能的“賈維斯”


相信大家的肯定都有看過鋼鐵俠,隨著AI的不斷發展,我覺得在不久的將來,肯定會出現一款如同電影當中的機械臂,能夠通過交流的方式來幫助你完成一些工作。

近幾年也能說是人工智能的突發猛進的幾年,AIGC是近期最火熱的內容,只要接收到內容就可以生成對應的文本,圖像,視頻音頻等等。

總結


很期待未來,AI和機器人相結合能夠融合到怎樣的一個程度,是不是已經能夠幫助人類做一定的事情了!如果你有一些好的想法,或者對我的項目修改的意見歡迎隨時跟我提出!

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    206

    文章

    27157

    瀏覽量

    201680
  • 人工智能
    +關注

    關注

    1778

    文章

    44244

    瀏覽量

    231120
  • 機械臂
    +關注

    關注

    10

    文章

    477

    瀏覽量

    23904
  • ChatGPT
    +關注

    關注

    27

    文章

    1453

    瀏覽量

    5142
收藏 人收藏

    評論

    相關推薦

    其利天下技術·搭載無刷電機的掃地機器人的前景如何?

    隨著懶人經濟的崛起,智能家居設備的需求呈現出顯著的增長態勢。作為智能家居領域的一員,掃地機器人因其方便、實用的特性而備受消費者青睞。特別是在無刷電機技術的加持,掃地機器人不僅提升了清
    發表于 05-05 15:03

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    語言模型基礎技術21隨著Transformer結構在機器翻譯領域取得巨大成功,研究人員開始探索其在其他自然語言處理任務中的潛力。很快,Transformer 結構被證明不僅適用于序列
    發表于 05-05 12:17

    【先楫HPM5361EVK開發板試用體驗】(原創)5.手把手實戰AI機械

    的其他外設。 驅動編寫:根據硬件的規格和SDK文檔,編寫或集成適當的驅動程序來控制這些外設。 游戲邏輯:設計游戲邏輯,例如目標識別、機械控制、得分機制等。
    發表于 02-06 10:28

    【國產FPGA+OMAPL138開發板體驗】(原創)2.手把手玩轉游戲機械

    ChatGPT,是一項相當復雜的任務。下面我把系統方案和代碼框架開源共享一,這是一個相當復雜且技術性強的項目,需要多領域的專業知識,包括嵌入式系統、機械
    發表于 02-01 20:18

    一種基于自然語言的軌跡修正方法

    本研究提出了ExTraCT框架,利用自然語言進行軌跡校正。該框架結合了大型語言模型(LLMs)用于自然語言理解和軌跡變形函數。ExTraCT能夠根據場景在線生成軌跡修改特征及其自然語言
    的頭像 發表于 01-19 10:45 ?202次閱讀
    一種基于<b class='flag-5'>自然語言</b>的軌跡修正方法

    自然語言處理的研究內容

    自然語言處理(NLP)的最新發展改變了我們與AI系統的交互方式: 1. 預訓練模型:像 GPT-3 這樣的模型已經進步,使人工智能能夠在聊天機器人和虛擬助手中生成更連貫的上下文感知響應。 2.
    的頭像 發表于 01-18 16:39 ?226次閱讀

    自然語言處理和人工智能的區別

      自然語言處理(Natural Language Processing,NLP)是人工智能(AI)中的一個分支,它利用計算機技術自然語言進行處理,使得電腦能夠理解和操作人類語言。
    發表于 08-28 17:32 ?981次閱讀

    自然語言處理和人工智能的概念及發展史 自然語言處理和人工智能的區別

    自然語言處理(Natural Language Processing, NLP)的定義是通過電腦軟件程序實現人們日常語言機器自動處理。為了幫助計算機理解,掌握自然語言處理的基本原理,
    發表于 08-23 18:22 ?559次閱讀

    自然語言處理的概念和應用 自然語言處理屬于人工智能嗎

      自然語言處理(Natural Language Processing)是一種人工智能技術,它是研究自然語言與計算機之間的交互和通信的一門學科。自然語言處理旨在研究
    發表于 08-23 17:31 ?887次閱讀

    ChatGPT和文心一言的區別

    ChatGPT和文心一言的區別 ChatGPT和文心一言的區別 人工智能(AI)在現代化社會中扮演著日益重要的角色,其中自然語言處理(NLP)技術的進步使得Chatbot(聊天
    的頭像 發表于 08-09 15:33 ?1289次閱讀

    自然語言處理包括哪些內容 自然語言處理技術包括哪些

    自然語言處理(Natural Language Processing, NLP)一般包括以下內容: 語音識別(Speech Recognition):將人類語言轉換為計算機可以理解的形式。 語音合成
    的頭像 發表于 08-03 16:22 ?4139次閱讀

    chatgpt是什么意思 ChatGPT背后的技術原理

      今天我們為大家帶來的文章,深入淺出地闡釋了ChatGPT背后的技術原理,沒有NLP或算法經驗的小伙伴,也可以輕松理解ChatGPT是如何工作的?! ?b class='flag-5'>ChatGPT是一種
    發表于 07-18 17:12 ?0次下載

    chatgpt怎么用 ChatGPT的多種使用方法

      ChatGPT可以用于多種不同的應用場景和使用方法,包括但不限于以下幾種:  1. 聊天機器人ChatGPT可以用于開發聊天機器人,通過自然語
    發表于 07-18 14:47 ?6次下載

    ChatGPT 是什么

    應用。 ChatGPT基于自然語言處理技術和神經網絡模型,可以學習和理解人類語言的語法和語義,并能夠生成具有連貫性和邏輯性的自然語言文本,從
    發表于 06-27 13:55 ?1984次閱讀

    ChatGPT是什么?ChatGPT寫代碼的原理你知道嗎

    ChatGPT是什么 ChatGPT是一種人工智能聊天機器人,可以與用戶進行自然語言對話,回答問題,提供建議和娛樂等服務。它的名字"GPT"代表著"生成預訓練模型
    的頭像 發表于 06-04 17:01 ?2625次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>