大模型心高氣傲，沒有AI Agents生死難料-電子發燒友網

AI Agent，正在接棒大語言模型LLM，成為AI圈最火的話題。

目前，AI創投圈的眾生相，大概是這樣的：

大廠俱樂部：OpenAI內部員工聲稱，AI Agent是OpenAI的新方向；微軟嘗試推動copilot，讓AI以助理的角色落地，這是一種典型的AI Agent場景；英偉達推出了Voyager，這個AI Agent可以自主寫代碼，獨霸游戲《我的世界》；國內商湯也推出了通才AI智能體；阿里推出了數字員工……

學術圈：今年四月，斯坦福創建了一個西部世界小鎮，讓25個AI Agents在虛擬小鎮的沙盒環境中模擬人類，與其他AI Agents戀愛、派對、協作、約會等。另外，也有學者開始利用AI Agents設計復雜科學實驗，包括自動上網閱讀論文、研究抗癌藥物……這些前沿探索讓人大開腦洞。

創業圈：AI Agent并不只是頂級科學家的游戲，目前已經涌現出了Camel、AutoGPT、BabyAGI、AgentGPT等非常多的項目，并有一大批開源社區開發者和創業者，利用這些開源項目打造一些實用工具。比如aomni，就是一個幫助用戶抓取網絡信息并郵件發送的AI Agent應用程序。

投資圈：AI Agent被認為是“通往通用人工智能（AGI）時代的開始”，其爆發是“鐵板釘釘”，有硅谷創業者表示，跟投資人聊到Generative Agents ，大家都特別期待，并希望多了解、靠的更近，在后續爆發時反應更快。

從這些判斷來說，說“AI Agent開啟大模型下半場”，還為時尚早，但“AI Agent是大模型的商業化標配”，應該是清晰的了。

所以，接下來我們應該會看到，更多大廠和創業公司，都在AI Agent上有更多動作。

那么，AI Agent究竟是什么？為什么說它是大模型商業化的必要條件？

大模型心高氣傲，用戶仍不買單

這里我們先把AI Agent放在一邊，來看看大模型究竟是一個什么狀況。

相信大多數讀者都認可，大模型是一個高愿景、高投入、高門檻的東西，往情懷說，可能實現通用人工智能，徹底改變社會；往世俗說，可以重構業務/產品，讓科技企業業績狂飆。

但這些都有建立在，大模型能夠真正商業化落地，回收研發成本，良性可持續發展的基礎上。

幾個月下來，大模型的兩個商業模式，是比較有效的：一個是各類行業政企對大模型的私有化本地部署；一個是通過云、AI服務器等售賣大模型所需要的算力。

目前，已經有國內廠商發布了相應的業務報告，已經從行業私有化部署的需求中獲得了千萬級收入。

但是，僅靠ToB業務，顯然不能支撐起一個大模型的商業模式。

一場技術革命，核心技術一定要流淌出去，讓幾十億普通用戶用起來，才能創造出經濟價值。家用PC、互聯網、智能手機，都是在大眾普及之后，諸多科技企業的市值一飛沖天。

現在，巨頭們都為訓大模型投入了大量資源，尤其是基礎模型，動輒千億、萬億的參數規模，必須讓大眾用戶用起來。

那么，實際應用體驗怎么樣呢？

閑聊、畫圖、創意之類的場景容錯率高，就算AI答錯了用戶還覺得“萌萌噠”，這部分應用已經很卷了，比如“AI證件照”。而絕大多數場景，都是需要AI來自動幫助自己處理較為嚴肅的任務，與其他環境條件進行協作，應對長線條、連續性的業務，不要出現太多錯誤，不然人還得大量參與，并不能真的提高生產力。

這類場景，顯然目前，一個龐大且復雜的通用大模型，是不能很好地解決的。

就拿我這種撰稿來說，讓大模型幫我寫稿子，它可能有幻覺，提到的事件/新聞/論文我都得再次復查確認一下，比我自己找資料還費事，不夠精準，想一個創意還得我用提示詞啟發半天，都不一定有能用的，又慢又累，還不如自己寫。

不能一步到位，自動化地完成任務，需要大量人類參與干預review，是目前大模型在嚴肅場景中應用的一大難點，也直接影響到了大模型落地和商業化的進展。

怎么辦呢？大模型想要表現出色，急需一群幫手，那就是AI Agents。

真·解放生產力，AI Agent為什么神奇？

試想一下，如果大模型能自己全天7*24小時工作，還不需要人工參與，自己就能完成各種任務，人只要偶爾回到電腦前、辦公室看看它做的咋樣，這才是大模型的正確打開方式啊。

OpenAI在GPT-4發布會上，確實也展現了一些自動化完成任務的能力，比如讓GPT4識別草圖生成網頁，step by step一步步修改自己代碼中錯誤。

但是，這種能力怎么被開發者和普通用戶用到呢？很多開發者都反應，直接使用GPT4寫代碼還是得自己debug，并不能看圖生成直接用的代碼，有時候不如不用。

大模型廠商也為難啊，我已經開放了API，要更專業精準精細化的能力，還得有人來進一步開發，這就把接力棒交給了AI Agent。

AI Agent（智能體），是AI在環境中的自動化實體，有四個核心特征：

1. 通過傳感器感知周圍的環境。這個環境，既可以是虛擬的，比如沙盒游戲、模擬訓練系統、自動駕駛模擬器等，也可以是物理的，比如馬路、房間、流水線等。

2. 可以自主做出決定。

3. 由執行器/效應器一起來采取行動。

4.基于績效最大化和結果最優化來學習進步。

從這個角度看，其實人類自己也是一種“智能代理”AI Agent，我們可以通過眼睛、耳朵、皮膚等感知外界環境的變化，再通過大腦做出決策，用嘴說、用腿走來做出行動，并且根據獎勵反饋來不斷調整適應外界環境。

其實，Agents in AI也是一樣的邏輯。就拿自動駕駛場景的AI Agent來說，就需要傳感器來采集信息，感知道路車輛行人等環境因素，再由系統自動決策，驅動油門、制動器等設備做出相應的反應。

這也被稱為AI Agent的PEAS模型。我們給大家簡單做個表，感受一下：

那么，具體在大模型上，AI Agent可以帶來什么影響了？主要有以下幾個關鍵的作用：

第一，拆解任務。

大模型要和某個具體領域結合，面對的用戶需求是比較籠統的，過程往往會涉及到多個步驟。就好比用戶說“要有光”，孤立的大模型既不知道所在的環境有什么燈具，也不知道怎么控制，所以有了大模型也不能搞定這個看似簡單其實復雜的任務。

而AI Agent具有任務規劃能力，可以自動理解并決定，如何規劃步驟、分配資源、優化決策，進而完成指令，提升了大模型處理任務的效率和精度。

谷歌大腦研究團隊的一篇論文中，就讓大語言模型把任務步驟分解的推理過程，也就是“內心獨白”都說出來，再去做相應的動作，一下子就提高了大模型答案的準確性，在多個數據集上都取得了SOTA 效果，讓大模型胡說八道的情況有所改善。

第二，自動執行。

AI Agent被設計為獨立思考和行動，用戶只需要給它一個任務，讓它做事就可以了。AutoGPT的典型案例就是點披薩，不需要用戶自己輸入地址、選擇口味，AI Agent將所有點餐步驟都大包大攬，自動執行，人在一邊看著，發現出錯及時糾正就好了。

AI Agent不止能使用互聯網，還可以在物理環境中工作，控制機器人拿快遞、無人車、自動駕駛等。

有了AI Agent，用戶和大模型之間的交互，會更加自然、簡單、快速，減少人工參與，真正提質增效。比如游戲世界中，AI Agent可以自動跟玩家展開對話，提供開放式的交互，根據玩家的反饋來設計無限故事線，真正讓游戲做到千人千面；物理世界中，AI Agent自動生成指令和操作，驅動機械身體，為人類提供家政服務，在工廠里自動化作業，不依賴人類的指導就能完成。

第三，節約資源。

AI Agent像人一樣，能夠使用工具，也就是調用API，來處理更加復雜的任務，這就很好地擴展了大模型的能力，減少了對資源的浪費和過度消耗。

比如AutoGPT寫代碼，要對專有信息源數據、算力資源等進行訪問，這個過程中AI Agent可以自動找到合適的API來進行調用，這樣就可以避免浪費其他API token。還能夠自主學習，對結果進行優化，如果不滿意就重新調用 API。

一般來說，要真正完成一項不明確的用戶指令，比如旅行規劃，需要模型調用多個API才能解決問題，自動化強的AI Agent無疑能夠很好地節省資源，進而為用戶節省成本，讓AI應用更有吸引力和競爭力。

第四，吸引開發者。

對大模型的商業化來說，API模式需要盡可能多的開發者群體參與，行業模式也需要ISV集成商、軟件服務商等。大家都知道，和大廠卷基礎模型是很難有勝算的，更希望在細分的上層應用上找到機會。而AI Agent能夠解決具體問題、提高模型效果，驅動數字系統和物理實體，就非常適合來構建超級應用。

如果說AI Agent就像是一個最小單位的AI生命，那么大模型廠商就是孕育生命的工廠，而開發者、軟件商等就像是技能培訓班，教會它們一些實用而有差別的技能，到行業和用戶身邊努力工作。

所以，哪個大模型能夠更好地構建AI Agent，能吸引的開發生態就會更龐大，對商業B端用戶的粘性更強，形成一個AI平臺級的巨大機會。

總結一下，AI Agent直接影響到大模型的模型效果、服務質量、落地成本、生態能力，將是接下來各個大模型的競爭關鍵。

AI Agent做得好，模型少不了

那你可能會問了，那怎么才能產生好的AI Agent呢？這對大模型提出了哪些挑戰？

我們認為，AI Agent想要落地，需要大模型做好以下工作，這也是接下來的競爭焦點：

1.基礎模型。

AI Agent的能力和效果，是由底層基礎模型的能力決定的?；A模型有的能力，AI Agent不一定能用上，但基礎模型沒有的能力，AI Agent一定沒有。

就拿語言任務來說，GPT-4提供了很強的自然語言理解能力，但目前真正部署到AI Agent和產品中的很少，一些游戲中的智能體NPC還是沒有自主決策的行為能力的。

再比如，GPT-4雖然有多模態，但只開放了語言API，所以開發者想要用GPT4的多模態能力來構建AI Agent，還做不到，而缺失了圖像、音頻等其他模態的信息，AI Agent對環境的理解和效果還有待提升。

所以，無論是開源模型，還是閉源模型，想要通過API經濟來商業化，基礎模型的能力會直接關系到AI Agent的質量，且都還有提升的空間。

2.數據知識。

想要做好一個AI Agent，采集和使用數據是基本前提。對于開發者來說，數字任務的數據量已經不成問題，但開發物理世界的AI Agent，數據成本就非常高了。機器人的控制數據，一般只能自己采集，通過模擬器或者實體機器人現場采集。但模擬器畢竟不是真實的環境，訓練的效果不一定好，而購買幾百臺機器人、無人機真正上路進廠去收集數據，無論是采購成本、政策限制、實際執行等，都有不小的困難。

這一點上，擁有數據優勢的大模型廠商，比如谷歌、百度的自動駕駛優勢，微軟、谷歌、搜狗、百度等搜索業務的數據優勢，或許能夠為開發者的AI Agents探索減少一些門檻，也會為這些廠商的大模型建立壁壘。

3.產品支持。

必須承認，AI Agent所代表的大模型應用機會，還只是非常早期，技術上尚未完全成熟，商業化探索更是剛剛邁出了一點點步伐。對于開發者、軟件服務商等來說，比起代碼上怎么實現AI Agent，更關鍵也更早一步要考慮的，是想象一個AI Agent所應該的去向：

它應該是什么樣子？叫什么名字？有性別嗎？以什么性格跟用戶對話？有哪些用例？會遇到哪些具體的困難？如何評價一個AI Agent的成功？

這些更多是產品層面、商業層面的“無人區”，要讓開發者釋放想象力，在各種環境和任務中嘗試創建AI Agents，需要大模型廠商開放自身的商業生態和更豐富便捷的功能，來減少開發人員的試錯風險，增加與商業用戶對接的強度，去催生更多商業選擇和落地案例。

總而言之，這個領域仍然很新，目前AI Agent還沒有明確給大模型產業帶來沖擊，但AI Agent會消除人與AI系統的大量繁瑣交互已經板上釘釘，正在發生。

更多AI Agents在被推向社區、推向用戶，它們學習，它們改變，它們進化?；蛟S幾個月之后，我們就會看到AI Agents的成熟和爆發，這必然會引發大模型領域的又一次洗牌。

審核編輯黃宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴