<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

ChatGPT最強競品Claude2來了：代碼、GRE 成績超越GPT-4，免費可用

此次，Claude 2 除了一大波能力上的升級，更重要的是大家都可以用了。

今日，那個被很多網友稱為「ChatGPT 最強競品」的人工智能系統 Claude 迎來了版本大更新。 Claude 2 正式發布！據介紹，Claude 2 在編寫代碼、分析文本、數學推理等方面的能力得到加強，并且可以產生更長的響應。更重要的是，用戶可以在新的 beta 網站上免費試用，并且 Claude 2 商用 API 的價格與 1.3 版本相同。

機器之心在此前的文章中多次介紹過 Claude，它是由 OpenAI 離職人員創建的 Anthropic 公司打造的。在 ChatGPT 發布兩個月后，該公司就迅速開發出了 Claude，可以完成摘要總結、搜索、協助創作、問答、編碼等任務。之后持續升級，五月份通過 100K Context Windows 將 Claude 的上下文窗口從 9k token 擴展到了 100k。現在終于迎來了大版本更新。Anthropic 表示，Claude 2 基于此前從用戶那里獲得的反饋建議進行改進。接下來看各方面能力細節。 Claude 2 在哪些方面得到了加強？總的來說，Claude 2 注重提高以下能力：

Anthropic 致力于提高 Claude 作為編碼助理的能力，Claude 2 在編碼基準和人類反饋評估方面性能顯著提升。

長上下文（long-context）模型對于處理長文檔、少量 prompt 以及使用復雜指令和規范進行控制特別有用。Claude 的上下文窗口從 9K token 擴展到了 100K token（Claude 2 已經擴展到 200K token，但目前發布版本僅支持 100K token）。

以前的模型經過訓練可以編寫相當短的回答，但許多用戶要求更長的輸出。Claude 2 經過訓練，可以生成最多 4000 個 token 的連貫文檔，相當于大約 3000 個單詞。

Claude 通常用于將長而復雜的自然語言文檔轉換為結構化數據格式。Claude 2 經過訓練，可以更好地生成 JSON、XML、YAML、代碼和 Markdown 格式的正確輸出。

雖然 Claude 的訓練數據仍然主要是英語，但 Claude 2 的訓練數據中非英語數據比例已經明顯增加。

Claude 2 的訓練數據包括 2022 年和 2023 年初更新的數據。這意味著它知道最近發生的事件，但它仍然可能會產生混淆。

該研究進行了一系列評估實驗來測試 Claude 2 的性能水平，包括對齊評估和能力評估兩部分。在模型對齊方面，該研究針對大模型的三個關鍵要求做了具體評估，包括：遵循指令、生成內容有用（helpfulness）；生成內容無害（harmlessness）；生成內容準確、真實（honesty）。人類反饋評估大模型在生成過程中應該遵循人類提供的指令，這將讓生成結果符合要求、實際有用。針對這一點，該研究對 Claude 2、Claude 1.3 和 Claude Instant 1.1 進行了實驗評估，并使用經典的對弈水平評估指標 ——Elo 分數，幾個模型的評估結果如下圖 1 所示：

偏見評估 Bias Benchmark for QA（BBQ）是用于評估模型對人群偏見的常用基準。該研究在 BBQ 基準上進行實驗評估，幾種模型的實驗結果如下圖 2 所示：

下圖 3 顯示了在消除歧義的語境下幾種模型回答 BBQ 基準中問題的準確性。值得注意的是，Claude 模型的準確率會比 Helpful-Only 模型低是因為模型會拒絕回答一些存在偏見的問題。

事實性評估大模型有時會生成虛假混亂的信息，因此測試模型生成內容的事實性非常重要。TruthfulQA 是一個用于評估語言模型在對抗性環境中輸出的準確性和真實性的基準，幾種模型的測試結果如下圖 4 所示：

總的來說，Claude 2 在 HHH（在有用性（helpfulness）、無害性（harmlessness）、事實性（honesty）、）評估上的總體表現如下圖 6 所示：

在能力評估方面，該研究針對多語言翻譯任務、上下文窗口、標準基準評估、資格水平考試幾個方面對 Claude 2 展開評估實驗。多語言翻譯該研究選擇涵蓋 200 多種語言的翻譯基準 Flores 200 來評估 Claude 2 的多語言翻譯能力，其中包括低資源語言。Claude 2、Claude 1.3 和 Claude Instant 1.1 的評估結果如下圖 7 所示：

上下文窗口今年早些時候，研究團隊將 Claude 的上下文窗口從 9K token 擴展到了 100K token，現在 Claude 2 進一步擴展了上下文窗口，達到 200K token，相當于約 150000 個單詞。為了證明 Claude 2 會實際使用完整的上下文，該研究測量了每個 token 位置的損失，平均超過 1000 個長文檔，如下圖 8 所示：

不過，研究團隊表示目前發布的版本僅支持 100K token 的上下文窗口，完整的上下文窗口將會集成到他們的產品中。標準基準評估該研究在幾個標準基準上評估測試了 Claude 2、Claude Instant 1.1 和 Claude 1.3，包括用于 python 函數合成的 Codex HumanEval、用于解決小學數學問題的 GSM8k、用于多學科問答的 MMLU、針對長故事問答的 QuALITY、用于科學問題的 ARC-Challenge、用于閱讀理解的 TriviaQA 和用于中學水平閱讀理解與推理的 RACE-H，具體的評估結果如下表所示：

值得注意的是，Claude 2 生成代碼的能力有了明顯的提升，在 Codex HumanEval 上的得分從 56% 上升到 71.2%。資格水平考試該研究還用幾個常見資格水平考試的題目測試了 Claude 2 的實際能力。首先，Claude 2 在美國律師資格考試（Bar Exam）的多項選擇題測試中得分率為 76.5%，高于 Claude 1.3 的 73.0%。

其次，研究團隊還用美國研究生入學考試（GRE）測試了 Claude 2 的能力水平，Claude 2 在 GRE 閱讀和寫作考試中的得分高于 90%，在定量推理方面與達到了參加 GRE 考試的考生的中位數水平。

最后，該研究還在美國醫師執照考試（USMLE）題目上測試了 Claude 2：

Anthropic 表示，人工智能寫作平臺 Jasper 和代碼導航工具 Sourcegraph 等公司已開始將 Claude 2 納入其運營中。官方示例及試用體驗我們先看 Anthropic 提供的一些官方示例。 1、編碼能力：為靜態地圖添加交互式數據。 2、文本處理能力：總結文檔、輸出表格。這里 Claude 2 用上了 100K token 文本處理功能，可以在 prompt 窗口上傳幾百頁的文檔。除了以上，機器之心也嘗試了一些文本分析、數學推理和編寫代碼方面的示例。

試用地址：http://claude.ai 首先讓 Claude 2 以目錄形式總結一下「Claude 2 技術文檔」的要點，總結得非常詳細，對我們寫這篇文章有幫助。

再來兩道數學推理題，Claude 2 只用一次就能搞定。

最后測一些代碼題，生成、檢查和補全代碼都不在話下。

不過，Claude 2 仍不具備生成圖片的多模態能力。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1776

文章
43871

瀏覽量
230624
代碼

代碼

+關注

關注
30

文章
4556

瀏覽量
66784
ChatGPT

ChatGPT

+關注

關注
27

文章
1409

瀏覽量
4757

原文標題：ChatGPT 最強競品 Claude2 來了：代碼、GRE 成績超越 GPT-4，免費可用

文章出處：【微信號：DBDevs，微信公眾號：數據分析與開發】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

Anthropic Claude 3大模型重磅來襲！微美全息（WIMI.US）全力沖刺加入GPT革命！

在AI邏輯基準測試中超過了ChatGPT-4。 Claude 3 Opus 超越 GPT-4 ? Anthropic聲稱，Claude 3也

的頭像

發表于 03-27 10:59 ?132次閱讀

Anthropic <b class='flag-5'>Claude</b> 3大模型重磅來襲！微美全息（WIMI.US）全力沖刺加入<b class='flag-5'>GPT</b>革命！

Anthropic 發布 Claude 3 系列大模型和 AI 助手

中的表現超越了 GPT-4/3.5 和 Gemini 1.0 Ultra/Pro。 ? 目前Opus 和 Sonnet 已可通過 claude網站和 Claude API 使用,而 H

的頭像

發表于 03-08 12:29 ?203次閱讀

新火種AI|秒殺GPT-4，狙殺GPT-5，橫空出世的Claude 3振奮人心！

的GPT-4被拉下神壇， Claude 3很可能對GPT-4實現全方位的碾壓。 Anthropic發布3個模型，全方位實現

的頭像

發表于 03-06 22:22 ?325次閱讀

新火種AI|秒殺<b class='flag-5'>GPT-4</b>，狙殺<b class='flag-5'>GPT</b>-5，橫空出世的<b class='flag-5'>Claude</b> 3振奮人心！

全球最強大模型易主，Claude 3全面超越GPT-4

由谷歌和亞馬遜支持的AI初創公司Anthropic近日發布了其全新的Claude 3模型家族，該家族包含三個重要成員：Claude 3 Opus、Sonnet和Haiku。每個模型的名字都寓意著它們獨特的能力與特點。

的頭像

發表于 03-06 10:44 ?328次閱讀

OpenAI推出ChatGPT新功能：朗讀，支持37種語言，兼容GPT-4和GPT-3

據悉，“朗讀”功能支持37種語言，且能夠自主識別文本類型并對應相應的發音。值得關注的是，該功能對GPT-4以及GPT-3.5版本的ChatGPT均適用。此舉彰顯了OpenAI致力于“多模態交互”（multimodal capab

的頭像

發表于 03-05 15:48 ?280次閱讀

全球最強大模型易主，GPT-4被超越

近日，AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型，其中包括最強版Claude 3 Opus。據該公司稱，Claude 3系列在推理、數學、編碼、多語言理

的頭像

發表于 03-05 09:58 ?272次閱讀

Anthropic發布Claude 3系列，超越GPT-4和Gemini Ultra

人工智能領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型，包括Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku。據該公司稱

的頭像

發表于 03-05 09:43 ?213次閱讀

全球最強大模型易主：GPT-4被超越，Claude 3系列嶄露頭角

近日，人工智能領域迎來了一場革命性的突破。Anthropic公司發布了全新的Claude 3系列模型，該系列模型在多模態和語言能力等關鍵指標上展現出卓越性能，成功超越了此前被廣泛認為是全球最強

發表于 03-05 09:42 ?247次閱讀

Gemini和ChatGPT有什么不同，Gemini將超越ChatGPT？

Gemini Ultra是首個在MMLU測評上超過人類專家的大模型，取得90.0%的成績。作為對比，人類專家的成績為89.8%，GPT-4為86.4%。

發表于 12-20 11:45 ?250次閱讀

ChatGPT plus有什么功能？OpenAI 發布 GPT-4 Turbo 目前我們所知道的功能

截止、擴展的上下文窗口、預算友好的定價等。什么是GPT-4 Turbo？ GPT-4 Turbo是現有GPT-4大語言模型的更新。它帶來了一些改進，

發表于 12-13 09:19 ?605次閱讀

OpenAI發布的GPT-4 Turbo版本ChatGPT plus有什么功能？

GPT-4的最新版本。OpenAI憑借承諾增強功能和成本效率的模型實現了巨大飛躍，為人工智能行業樹立了新標準。我們來看看OpenAI帶來了什么：文本和圖像理解 GPT-4 Turbo憑借兩個獨特的版本脫穎而出：以文本為中心的

發表于 12-05 17:57 ?1463次閱讀

ChatGPT重磅更新　OpenAI發布GPT-4 Turbo模型價格大降2/3

ChatGPT重磅更新 OpenAI發布GPT-4 Turbo模型價格大降2/3 目前OpenAI算是全球大模型的引領者，一舉一動都牽動著大家的關注，現在ChatGPT迎來重磅更新。 OpenAI

發表于 11-07 18:20 ?2163次閱讀

GPT-4沒有推理能力嗎？

今年三月，OpenAI 重磅發布了 GPT-4 大模型，帶來了比 ChatGPT 背后 GPT-3.5 更強的推理、計算、邏輯能力，也引發了全民使用的熱潮。在各行各領域研究人員、開發者

發表于 08-11 14:20 ?671次閱讀

GPT-3.5 vs GPT-4：ChatGPT Plus 值得訂閱費嗎國內怎么付費？

GPT-3.5 vs GPT-4：ChatGPT Plus值得訂閱費嗎？ChatGPT Plus國內如何付費？? ChatGPT-3.5一切

發表于 08-02 12:09 ?3021次閱讀

GPT-4處于一個什么樣的編碼地位

? 面試環節第一步——回答問題，寫軟件需求面試環節第二步——上手寫代碼測試用例 ? 比 ChatGPT 背后 GPT-3.5 更為強大的模型 GPT-4，已正式對外發布。在 Ope

發表于 06-16 10:42 ?437次閱讀

數據分析與開發
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot ADC在電路中扮演的作用衡量ADC性能的幾個重要指標
Hot MySQL 5.7與MySQL 8.0 性能對比

New 數據脫敏的3種常見方案，好用到爆！
New 查詢SQL在mysql內部是如何執行？

精選推薦
更多

文章

資料

帖子

電動汽車應用—OBC, DC/DC, PDU多合一產品方案

力特奧維斯Littelfuse
5小時前

320 閱讀

HarmonyOS開發案例：【Web組件實戰】

jf_46214456
6小時前

223 閱讀

有源晶振四個腳是如何定義的？

揚興科技
8小時前

180 閱讀

鴻蒙OpenHarmony【小型系統燒錄】（基于Hi3516開發板）

jf_46214456
8小時前

201 閱讀

雷達傳感器增強ADAS安全性，實現駕駛員便利功能

eeDesign
9小時前

242 閱讀

基于LTC3410-1.875_Typical Application直流到直流單輸出電源的參考設計

王麗
232.59KB

免費

6下載

check_pgbackrest監控工具

Arvinhw
0.33 MB

免費

0下載

NoGit Visual Studio擴展

劉偉
0.02 MB

免費

4下載

Clock Signal 16-bit游戲模擬器

馬祥
45.09 MB

免費

3下載

tinyserver C++編寫的輕量服務器框架

李勇俊
4.66 MB

免費

0下載

【紫光同創盤古PGX-Nano教程】——（盤古PGX-Nano開發板/PG2L50H_MBG324第二章）按鍵消抖實驗例程

yonglong11
23小時前

145 閱讀

Buck電路的原理及器件選型指南

久醉不醒
23小時前

204 閱讀

有關LM3914N和LM3914N-1應用的疑問

西北風2012
23小時前

202 閱讀

【開源項目】用ESP32做一個數字沙漏

醉清歌
23小時前

199 閱讀

4月全志芯片開源項目分享合輯

文小二
23小時前

239 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看