<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ChatGPT背后的數據標注,工作量大,報酬低!

Carol Li ? 來源:電子發燒友網 ? 作者:李彎彎 ? 2023-02-17 09:17 ? 次閱讀
電子發燒友網報道(文/李彎彎)最近爆火的ChatGPT有多強大,想必大家都已經知曉,它幾乎可以生成任何形式的文本,從莎士比亞的十四行詩,到用5歲孩子都能理解的語言描述,以及復雜數學問題,也因此月活躍用戶在短短上線兩個月就達到1億。

而強大的ChatGPT背后,離不開一項重要的工作,那就是數據標注。據美媒報道,為了訓練ChatGPT,OpenAI的合作伙伴Sama雇傭了肯尼亞、烏干達和印度的外包員工,對龐大的數據庫手動進行數據標注。


什么是數據標注

事實上,人工智能是一種可以根據人類需求做出合理行為的計算機程序,要想實現人工智能,就需要把人類的理解能力和判斷能力教給計算機,讓計算機擁有類似人類的識別能力。在這一過程中,需要計算機模仿人類進行經驗學習。

而數據標注就是把需要計算機進行機器學習的的圖片、視頻等初級數據打上標簽,讓計算機不斷的識別這些初級數據的特征,最終可以讓計算機能夠自主的識別。

這里涉及到幾個概念:1、數據標注,簡單來說,就是對文本、圖像、音頻、視頻等數據進行高質量、高精度的處理打標簽,來滿足機器訓練學習的需求。2、標簽,就是對需要機器學習的數據進行標識特征、類別和屬性等,用于建立數據和機器訓練學習的可讀數據編碼間的聯系。3、數據標注員,就是負責對文本、圖像、音頻、視頻等數據進行高質量、高精度的處理打標簽的工作人員。

計算機特征數據主要分為圖像數據、語音數據、文本數據等。在自然語言處理的需求中,文本數據標注是關鍵環節,數據標注員需要通過對語句分詞的標注、語義判斷的標注、情感標注、多音字標注等,為人工智能機器學習提供高準確率的文本語料。

數據標注的流程,首先是從數據采集開始,由于新采集的數據是非結構化的,有些數據不完整,還有不一致、有雜音噪聲的數據,需要通過數據清洗,對采集的數據進行篩選、去重、查缺補漏、平滑噪音等操作,將數據清理成適合標注的格式。

接著,數據經過清洗后,就可以進入數據標注的核心環節。在現實的標注工作中,數據管理員會將數據根據不同的需求,將待標注的數據分為不同的數據包任務,每一個數據任務都會有不同的規范和標注形式要求,然后將標注任務分配給多個標注員進行標注工作。

最后,為了提高數據輸出的正確率,標注員完成標注工作后,需要質檢師對數據進行檢驗,最終通過質檢環節的數據才是可用于訓練學習的數據。


龐大的數據標注工作,和低水平的報酬

從ChatGPT來看,雖然對于ChatGPT最后的強大能力來說,數據標注是重要的一環,然而這卻是一項工作量及其龐大,報酬卻并不高的工作。

雖然ChatGPT的前身GPT-3已經展示出非常強大的語句串聯的能力。然而,當時的GPT-3卻存在很多弊端,例如內容容易出現暴力、性別歧視等言論。之所以會出現這樣的不足之處,是因為AI工具從互聯網抓取了數千億個單詞來訓練。由于互聯網的詞匯有不少帶有偏見及負面的詞匯,因此單純憑借學習能力無法來清除這些訓練數據。

為了獲得這些有害內容的標簽,OpenAI從2021年11月開始便向一家外包公司發送了數萬條文本片段。這家公司便是Sama,Sama總部位于美國舊金山,該公司雇傭了肯尼亞、烏干達和印度的外包員工。大約30多名工作人員被分成三個小組,每個小組都專注于一個主題。據該公司的三名員工表示,他們每9個小時要閱讀和標注150~200段文字,這些段落的范圍從100個單詞到1000多個單詞不等。

薪酬方面,Sama為OpenAI雇傭的數據標簽員工支付的時薪在1.32美元~2美元之間(約8.99元~13.62元),具體取決于資歷和表現。據Sama員工透露,“代理商”是三個小組中最初級的數據標簽人員,他們的基本工資為每月2.1萬肯尼亞先令(約170美元或者約1158元)。此外,他們每月還能獲得約70美元的獎金,如果達到準確性和速度等關鍵績效指標,他們還可以獲得傭金。

按此計算,一名每天工作9小時的員工預計稅后時薪至少能拿1.32美元,如果超額完成所有目標,則最高可達到1.44美元。質量分析師是資歷更深的數據標簽員工,他們的工作是檢查“代理商”的工作,如果他們達到了所有績效目標,時薪可以拿到2美元。

OpenAI發言人曾在一份聲明中證實,Sama在肯尼亞的員工為該公司正在開發的監測有害內容的工具作出了貢獻,該工具最終被內置到ChatGPT中。


小結

隨著ChatGPT的爆火,人工智能走進了更多人的視野。然而從目前的情況來看,人們印象中的人工智能仍然是很高端的事物,只有科技、互聯網巨頭企業及專業人士才能涉足的領域。然而人工智能產業鏈涉及面廣泛,其中就包括數據標注??梢钥吹?,人工智能的存在和實現,不僅僅是解放人們的雙手,同時從這個層面來看,它對勞動力的需求也是龐大的。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ChatGPT
    +關注

    關注

    28

    文章

    1485

    瀏覽量

    5656
收藏 人收藏

    評論

    相關推薦

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

    無縫切換的場景為特色,高精度處理細微的查詢。 · 實時數據分析和報告 :在特別引起業務分析師共鳴的演示中,ChatGPT-4o處理了大型數據集,以提取可操作的見解,具備顯著加快決策的潛力。 新功能摘要
    發表于 05-27 15:43

    在FPGA設計中是否可以應用ChatGPT生成想要的程序呢

    當下AI人工智能崛起,很多開發領域都可看到ChatGPT的身影,FPGA設計中,是否也可以用ChatGPT輔助設計呢?
    發表于 03-28 23:41

    【國產FPGA+OMAPL138開發板體驗】(原創)6.FPGA連接ChatGPT 4

    OMAP-L138(定點/浮點DSP C674x+ARM9)+ FPGA處理器的開發板。 編寫一個用于FPGA訪問ChatGPT 4的程序代碼是一個相當復雜的任務,涉及到硬件設計、網絡通信、數據處理等多個
    發表于 02-14 21:58

    芯科技,解密ChatGPT暢聊之算力芯片

    的GPU服務器,尤其是英偉達的A100 GPU,提供了強大而精確的計算能力。ChatGPT的功能遠超日常對話,它能夠學習、理解并生成人類般的文本,是人工智能領域的一個重要突破。但其真正力量的源泉,是背后那些不斷工作的算力芯片,它
    的頭像 發表于 12-27 07:45 ?474次閱讀
    芯科技,解密<b class='flag-5'>ChatGPT</b>暢聊之算力芯片

    ChatGPT如何影響“下一代戰爭”

    一是決策支持參謀。ChatGPT受人工智能驅動,能夠不知疲倦地、近乎無限地輸出產品和完成復雜工作,隱藏在強大人機交互過程背后的大數據采集和分析,其廣度和深度為軍事決策者所青睞,可以直接
    的頭像 發表于 11-23 17:07 ?604次閱讀

    人工智能中常見的數據標注方法

    數據標注(Data Annotations)是指對收集到的、未處理的原始數據或初級數據,包括語音、圖片、文本、視頻等類型的數據進行加工處理,
    發表于 09-21 11:22 ?1990次閱讀
    人工智能中常見的<b class='flag-5'>數據</b><b class='flag-5'>標注</b>方法

    自動駕駛點云標注的挑戰與解決方案

    點云數據量大且復雜:激光雷達等設備獲取的點云數據量非常大,而且數據的格式和精度各不相同,這給數據處理和標注帶來了很大的困難。此外,由于道路
    的頭像 發表于 09-13 18:18 ?494次閱讀

    ChatGPT變聰明了嗎?如何計算IGBT器件的工作結溫Tvj

    ChatGPT變聰明了嗎?如何計算IGBT器件的工作結溫Tvj
    的頭像 發表于 09-09 08:16 ?793次閱讀
    <b class='flag-5'>ChatGPT</b>變聰明了嗎?如何計算IGBT器件的<b class='flag-5'>工作</b>結溫Tvj

    新唐MINI58替代新唐M0516,軟件上調整得工作量大不大?

    想用新唐MINI58替代新唐M0516,兩款芯片接口一致不?軟件上調整得工作量大不大?謝謝!
    發表于 08-23 07:15

    科技前沿的助力:探索語音標注平臺的奇跡

    在當今數字化的世界中,人工智能已經成為引領創新和變革的關鍵。而在人工智能背后默默支持著的一項重要技術,就是語音識別。然而,讓機器準確理解人類語言并非易事,這就需要大量的數據標注工作。在
    的頭像 發表于 08-18 17:05 ?286次閱讀

    了解ChatGPT背后的芯片

    ChatGPT 等生成式人工智能工具對社會眾多領域產生了巨大影響。作為工程師,了解使之成為可能的計算技術對我們很有幫助。 近年來,隨著新技術以前所未有的速度出現,人工智能取得了重大飛躍。毫無疑問
    的頭像 發表于 08-11 10:45 ?840次閱讀
    了解<b class='flag-5'>ChatGPT</b><b class='flag-5'>背后</b>的芯片

    ChatGPT工作原理

      ChatGPT工作原理可以分為兩個主要步驟:預訓練和微調?! 。?)預訓練階段  ChatGPT 使用大量的文本數據進行訓練,以了解不同語言結構和上下文之間的關系。這樣它就能夠
    發表于 07-20 11:29 ?10次下載

    chatgpt是什么意思 ChatGPT背后的技術原理

      今天我們為大家帶來的文章,深入淺出地闡釋了ChatGPT背后的技術原理,沒有NLP或算法經驗的小伙伴,也可以輕松理解ChatGPT是如何工作的?! ?/div>
    發表于 07-18 17:12 ?0次下載

    點云標注的標準化與數據共享

    點云標注的標準化和數據共享對于自動駕駛技術的發展具有重要意義。通過標準化和數據共享,可以促進點云標注技術的進步,提高自動駕駛汽車的感知和決策能力。 首先,點云
    的頭像 發表于 07-13 15:10 ?452次閱讀

    點云標注的挑戰與未來發展

    點云標注在自動駕駛中面臨著許多挑戰。首先,點云數據的質量和精度對標注的準確性有著重要影響。在實際應用中,由于傳感器技術和環境的復雜性,點云數據往往存在噪聲、缺失等問題,這給
    的頭像 發表于 07-10 15:39 ?437次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>