<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ChatGPT最強競品Claude2來了:代碼、GRE 成績超越GPT-4,免費可用

數據分析與開發 ? 來源:機器之心 ? 2023-07-14 15:21 ? 次閱讀

此次,Claude 2 除了一大波能力上的升級,更重要的是大家都可以用了。

今日,那個被很多網友稱為「ChatGPT 最強競品」的人工智能系統 Claude 迎來了版本大更新。 Claude 2 正式發布! 據介紹,Claude 2 在編寫代碼、分析文本、數學推理等方面的能力得到加強,并且可以產生更長的響應。 更重要的是,用戶可以在新的 beta 網站上免費試用,并且 Claude 2 商用 API 的價格與 1.3 版本相同。

ead08c98-21f9-11ee-962d-dac502259ad0.png

機器之心在此前的文章中多次介紹過 Claude,它是由 OpenAI 離職人員創建的 Anthropic 公司打造的。在 ChatGPT 發布兩個月后,該公司就迅速開發出了 Claude,可以完成摘要總結、搜索、協助創作、問答、編碼等任務。 之后持續升級,五月份通過 100K Context Windows 將 Claude 的上下文窗口從 9k token 擴展到了 100k。 現在終于迎來了大版本更新。Anthropic 表示,Claude 2 基于此前從用戶那里獲得的反饋建議進行改進。 接下來看各方面能力細節。 Claude 2 在哪些方面得到了加強? 總的來說,Claude 2 注重提高以下能力:

Anthropic 致力于提高 Claude 作為編碼助理的能力,Claude 2 在編碼基準和人類反饋評估方面性能顯著提升。

長上下文(long-context)模型對于處理長文檔、少量 prompt 以及使用復雜指令和規范進行控制特別有用。Claude 的上下文窗口從 9K token 擴展到了 100K token(Claude 2 已經擴展到 200K token,但目前發布版本僅支持 100K token)。

以前的模型經過訓練可以編寫相當短的回答,但許多用戶要求更長的輸出。Claude 2 經過訓練,可以生成最多 4000 個 token 的連貫文檔,相當于大約 3000 個單詞。

Claude 通常用于將長而復雜的自然語言文檔轉換為結構化數據格式。Claude 2 經過訓練,可以更好地生成 JSON、XML、YAML、代碼和 Markdown 格式的正確輸出。

雖然 Claude 的訓練數據仍然主要是英語,但 Claude 2 的訓練數據中非英語數據比例已經明顯增加。

Claude 2 的訓練數據包括 2022 年和 2023 年初更新的數據。這意味著它知道最近發生的事件,但它仍然可能會產生混淆。

該研究進行了一系列評估實驗來測試 Claude 2 的性能水平,包括對齊評估和能力評估兩部分。 在模型對齊方面,該研究針對大模型的三個關鍵要求做了具體評估,包括:遵循指令、生成內容有用(helpfulness);生成內容無害(harmlessness);生成內容準確、真實(honesty)。 人類反饋評估 大模型在生成過程中應該遵循人類提供的指令,這將讓生成結果符合要求、實際有用。針對這一點,該研究對 Claude 2、Claude 1.3 和 Claude Instant 1.1 進行了實驗評估,并使用經典的對弈水平評估指標 ——Elo 分數,幾個模型的評估結果如下圖 1 所示:

eb0c2ba4-21f9-11ee-962d-dac502259ad0.png

偏見評估 Bias Benchmark for QA(BBQ)是用于評估模型對人群偏見的常用基準。該研究在 BBQ 基準上進行實驗評估,幾種模型的實驗結果如下圖 2 所示:

eb3112c0-21f9-11ee-962d-dac502259ad0.png

下圖 3 顯示了在消除歧義的語境下幾種模型回答 BBQ 基準中問題的準確性。值得注意的是,Claude 模型的準確率會比 Helpful-Only 模型低是因為模型會拒絕回答一些存在偏見的問題。

eb4aef38-21f9-11ee-962d-dac502259ad0.png

事實性評估 大模型有時會生成虛假混亂的信息,因此測試模型生成內容的事實性非常重要。TruthfulQA 是一個用于評估語言模型在對抗性環境中輸出的準確性和真實性的基準,幾種模型的測試結果如下圖 4 所示:

eb6fc27c-21f9-11ee-962d-dac502259ad0.png

總的來說,Claude 2 在 HHH(在有用性(helpfulness)、無害性(harmlessness)、事實性(honesty)、)評估上的總體表現如下圖 6 所示:

eb9818da-21f9-11ee-962d-dac502259ad0.png

在能力評估方面,該研究針對多語言翻譯任務、上下文窗口、標準基準評估、資格水平考試幾個方面對 Claude 2 展開評估實驗。 多語言翻譯 該研究選擇涵蓋 200 多種語言的翻譯基準 Flores 200 來評估 Claude 2 的多語言翻譯能力,其中包括低資源語言。Claude 2、Claude 1.3 和 Claude Instant 1.1 的評估結果如下圖 7 所示:

ebd3c4c0-21f9-11ee-962d-dac502259ad0.png

上下文窗口 今年早些時候,研究團隊將 Claude 的上下文窗口從 9K token 擴展到了 100K token,現在 Claude 2 進一步擴展了上下文窗口, 達到 200K token,相當于約 150000 個單詞。 為了證明 Claude 2 會實際使用完整的上下文,該研究測量了每個 token 位置的損失,平均超過 1000 個長文檔,如下圖 8 所示:

ebf39da4-21f9-11ee-962d-dac502259ad0.png

不過,研究團隊表示目前發布的版本僅支持 100K token 的上下文窗口,完整的上下文窗口將會集成到他們的產品中。 標準基準評估 該研究在幾個標準基準上評估測試了 Claude 2、Claude Instant 1.1 和 Claude 1.3,包括用于 python 函數合成的 Codex HumanEval、用于解決小學數學問題的 GSM8k、用于多學科問答的 MMLU、針對長故事問答的 QuALITY、用于科學問題的 ARC-Challenge、用于閱讀理解的 TriviaQA 和用于中學水平閱讀理解與推理的 RACE-H,具體的評估結果如下表所示:

ec0a6278-21f9-11ee-962d-dac502259ad0.png

值得注意的是,Claude 2 生成代碼的能力有了明顯的提升,在 Codex HumanEval 上的得分從 56% 上升到 71.2%。 資格水平考試 該研究還用幾個常見資格水平考試的題目測試了 Claude 2 的實際能力。 首先,Claude 2 在美國律師資格考試(Bar Exam)的多項選擇題測試中得分率為 76.5%,高于 Claude 1.3 的 73.0%。

ec328bfe-21f9-11ee-962d-dac502259ad0.png

其次,研究團隊還用美國研究生入學考試(GRE)測試了 Claude 2 的能力水平,Claude 2 在 GRE 閱讀和寫作考試中的得分高于 90%,在定量推理方面與達到了參加 GRE 考試的考生的中位數水平。

ec4477e2-21f9-11ee-962d-dac502259ad0.png

最后,該研究還在美國醫師執照考試(USMLE)題目上測試了 Claude 2:

ec51e8c8-21f9-11ee-962d-dac502259ad0.png

Anthropic 表示,人工智能寫作平臺 Jasper 和代碼導航工具 Sourcegraph 等公司已開始將 Claude 2 納入其運營中。 官方示例及試用體驗 我們先看 Anthropic 提供的一些官方示例。 1、編碼能力:為靜態地圖添加交互式數據。 2、文本處理能力:總結文檔、輸出表格。這里 Claude 2 用上了 100K token 文本處理功能,可以在 prompt 窗口上傳幾百頁的文檔。 除了以上,機器之心也嘗試了一些文本分析、數學推理和編寫代碼方面的示例。

ec6792ea-21f9-11ee-962d-dac502259ad0.png

試用地址:http://claude.ai 首先讓 Claude 2 以目錄形式總結一下「Claude 2 技術文檔」的要點,總結得非常詳細,對我們寫這篇文章有幫助。

ec75281a-21f9-11ee-962d-dac502259ad0.png

再來兩道數學推理題,Claude 2 只用一次就能搞定。

ecbf69fc-21f9-11ee-962d-dac502259ad0.png

eced1dd4-21f9-11ee-962d-dac502259ad0.png

最后測一些代碼題,生成、檢查和補全代碼都不在話下。

ed19ff66-21f9-11ee-962d-dac502259ad0.png

ed53cdcc-21f9-11ee-962d-dac502259ad0.png

edab8012-21f9-11ee-962d-dac502259ad0.png

不過,Claude 2 仍不具備生成圖片的多模態能力。

edebff02-21f9-11ee-962d-dac502259ad0.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1776

    文章

    43871

    瀏覽量

    230624
  • 代碼
    +關注

    關注

    30

    文章

    4556

    瀏覽量

    66784
  • ChatGPT
    +關注

    關注

    27

    文章

    1409

    瀏覽量

    4757

原文標題:ChatGPT 最強競品 Claude2 來了:代碼、GRE 成績超越 GPT-4,免費可用

文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Anthropic Claude 3大模型重磅來襲!微美全息(WIMI.US)全力沖刺加入GPT革命!

    在AI邏輯基準測試中超過了ChatGPT-4。 Claude 3 Opus 超越 GPT-4 ? Anthropic聲稱,Claude 3也
    的頭像 發表于 03-27 10:59 ?132次閱讀
    Anthropic <b class='flag-5'>Claude</b> 3大模型重磅來襲!微美全息(WIMI.US)全力沖刺加入<b class='flag-5'>GPT</b>革命!

    Anthropic 發布 Claude 3 系列大模型和 AI 助手

    中的表現超越GPT-4/3.5 和 Gemini 1.0 Ultra/Pro。 ? 目前Opus 和 Sonnet 已可通過 claude網站和 Claude API 使用,而 H
    的頭像 發表于 03-08 12:29 ?203次閱讀

    新火種AI|秒殺GPT-4,狙殺GPT-5,橫空出世的Claude 3振奮人心!

    GPT-4被拉下神壇, Claude 3很可能對GPT-4實現全方位的碾壓 。 Anthropic發布3個模型,全方位實現
    的頭像 發表于 03-06 22:22 ?325次閱讀
    新火種AI|秒殺<b class='flag-5'>GPT-4</b>,狙殺<b class='flag-5'>GPT</b>-5,橫空出世的<b class='flag-5'>Claude</b> 3振奮人心!

    全球最強大模型易主,Claude 3全面超越GPT-4

    由谷歌和亞馬遜支持的AI初創公司Anthropic近日發布了其全新的Claude 3模型家族,該家族包含三個重要成員:Claude 3 Opus、Sonnet和Haiku。每個模型的名字都寓意著它們獨特的能力與特點。
    的頭像 發表于 03-06 10:44 ?328次閱讀

    OpenAI推出ChatGPT新功能:朗讀,支持37種語言,兼容GPT-4GPT-3

    據悉,“朗讀”功能支持37種語言,且能夠自主識別文本類型并對應相應的發音。值得關注的是,該功能對GPT-4以及GPT-3.5版本的ChatGPT均適用。此舉彰顯了OpenAI致力于“多模態交互”(multimodal capab
    的頭像 發表于 03-05 15:48 ?280次閱讀

    全球最強大模型易主,GPT-4超越

    近日,AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型,其中包括最強Claude 3 Opus。據該公司稱,Claude 3系列在推理、數學、編碼、多語言理
    的頭像 發表于 03-05 09:58 ?272次閱讀

    Anthropic發布Claude 3系列,超越GPT-4和Gemini Ultra

    人工智能領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型,包括Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku。據該公司稱
    的頭像 發表于 03-05 09:43 ?213次閱讀

    全球最強大模型易主:GPT-4超越,Claude 3系列嶄露頭角

    近日,人工智能領域迎來了一場革命性的突破。Anthropic公司發布了全新的Claude 3系列模型,該系列模型在多模態和語言能力等關鍵指標上展現出卓越性能,成功超越了此前被廣泛認為是全球最強
    的頭像 發表于 03-05 09:42 ?247次閱讀

    Gemini和ChatGPT有什么不同,Gemini將超越ChatGPT?

    Gemini Ultra是首個在MMLU測評上超過人類專家的大模型,取得90.0%的成績。作為對比,人類專家的成績為89.8%,GPT-4為86.4%。
    發表于 12-20 11:45 ?250次閱讀
    Gemini和<b class='flag-5'>ChatGPT</b>有什么不同,Gemini將<b class='flag-5'>超越</b><b class='flag-5'>ChatGPT</b>?

    ChatGPT plus有什么功能?OpenAI 發布 GPT-4 Turbo 目前我們所知道的功能

    截止、擴展的上下文窗口、預算友好的定價等。 什么是GPT-4 Turbo? GPT-4 Turbo是現有GPT-4大語言模型的更新。它帶來了一些改進,
    的頭像 發表于 12-13 09:19 ?605次閱讀
    <b class='flag-5'>ChatGPT</b> plus有什么功能?OpenAI 發布 <b class='flag-5'>GPT-4</b> Turbo 目前我們所知道的功能

    OpenAI發布的GPT-4 Turbo版本ChatGPT plus有什么功能?

    GPT-4的最新版本。OpenAI憑借承諾增強功能和成本效率的模型實現了巨大飛躍,為人工智能行業樹立了新標準。 我們來看看OpenAI帶來了什么: 文本和圖像理解 GPT-4 Turbo憑借兩個獨特的版本脫穎而出:以文本為中心的
    的頭像 發表于 12-05 17:57 ?1463次閱讀
    OpenAI發布的<b class='flag-5'>GPT-4</b> Turbo版本<b class='flag-5'>ChatGPT</b> plus有什么功能?

    ChatGPT重磅更新 OpenAI發布GPT-4 Turbo模型價格大降2/3

    ChatGPT重磅更新 OpenAI發布GPT-4 Turbo模型價格大降2/3 目前OpenAI算是全球大模型的引領者,一舉一動都牽動著大家的關注,現在ChatGPT迎來重磅更新。 OpenAI
    的頭像 發表于 11-07 18:20 ?2163次閱讀
    <b class='flag-5'>ChatGPT</b>重磅更新 OpenAI發布<b class='flag-5'>GPT-4</b> Turbo模型價格大降2/3

    GPT-4沒有推理能力嗎?

    今年三月,OpenAI 重磅發布了 GPT-4 大模型,帶來了ChatGPT 背后 GPT-3.5 更強的推理、計算、邏輯能力,也引發了全民使用的熱潮。在各行各領域研究人員、開發者
    的頭像 發表于 08-11 14:20 ?671次閱讀
    <b class='flag-5'>GPT-4</b>沒有推理能力嗎?

    GPT-3.5 vs GPT-4ChatGPT Plus 值得訂閱費嗎 國內怎么付費?

    GPT-3.5 vs GPT-4ChatGPT Plus值得訂閱費嗎?ChatGPT Plus國內如何付費?? ChatGPT-3.5一切
    的頭像 發表于 08-02 12:09 ?3021次閱讀
    <b class='flag-5'>GPT</b>-3.5 vs <b class='flag-5'>GPT-4</b>:<b class='flag-5'>ChatGPT</b> Plus 值得訂閱費嗎 國內怎么付費?

    GPT-4處于一個什么樣的編碼地位

    ? 面試環節第一步——回答問題,寫軟件需求 面試環節第二步——上手寫代碼 測試用例 ? 比 ChatGPT 背后 GPT-3.5 更為強大的模型 GPT-4,已正式對外發布。在 Ope
    的頭像 發表于 06-16 10:42 ?437次閱讀
    <b class='flag-5'>GPT-4</b>處于一個什么樣的編碼地位
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>