AI 智能體解釋(智能體的 3 個級別)
這是有關 AI 智能體的大型系列中的第一篇文章。盡管 2025 年被稱為“AI 智能體之年?”,但對許多人來說,是什么使 AI 系統(tǒng)成為“?智能體?”以及我們?yōu)槭裁磻撽P心仍然不清楚。在這篇文章中,我將描述這些系統(tǒng)的主要特征以及 3 個智能體級別的具體示例。
公司正在 AI 智能體上下大賭注。OpenAI 正在提供 Operator 和 DeepResearch 等模型。YC 表示,垂直 AI 智能體可能比 SaaS 大 10 倍 。Cursor 和 Windsurf 等 AI 應用程序已經用智能體界面取代了他們的聊天界面。
這讓智能體商們興奮不已,甚至超越了 AI 公司。但是,對于外行來說,可能不清楚 AI 智能體(實際上)是什么。
什么是 AI 智能體?
造成混淆的原因之一是,沒有人對 AI 智能體的單一定義達成一致。為了證明這一點,以下是一些來自領先組織的案例。
- OpenAI:一個大型語言模型 (LLM),配置了指令和工具;
- Hugging Face:大型語言模型 LLM 可以通過規(guī)劃和使用工具執(zhí)行更復雜的任務的系統(tǒng);
- Anthropic:LLMs 動態(tài)指導自己的流程和工具使用,保持對完成任務方式的控制;
雖然我不會通過提出另一個定義來使事情變得更糟,但我將討論跨越所有這些定義的幾個關鍵特征。
- LLM— 大型語言模型在智能體系統(tǒng)中起著核心作用;
- 工具使用— 這些允許智能體超越 LLM 的基本文本生成并與外部世界交互(例如代碼解釋器、API 調用、RAG、內存);
- 自主性— 智能體(在不同程度上)決定如何完成給定的任務,這可能涉及計劃、推理或帶有某些停止標準的反饋循環(huán);
為什么選擇 Agents?
LLMs與傳統(tǒng)方法相比,允許我們構建更靈活、更強大的軟件。這有兩個主要原因。首先,他們可以處理請求并以自然語言生成響應,從而實現(xiàn)直觀的用戶界面。其次,LLMs 能夠進行 0-shot 學習,即在沒有明確訓練的情況下執(zhí)行任意任務。
但是,僅靠這些功能對于大多數(shù)應用程序來說是不夠的。這是因為 LLMs(開箱即用的)缺乏為我們解決問題所需的上下文和對現(xiàn)實世界系統(tǒng)的訪問權限。為了克服這個問題,我們通常會手動為模型提供上下文,并自己執(zhí)行其建議的作。
智能體可以利用測試時計算擴展定律來執(zhí)行比普通 LLM API 調用更好的任務。這只是一種花哨的說法,LLM 即生成的 Token 越多,其響應就越好。我們將在下面的 3 級智能體示例中了解如何利用這個想法。
AI 智能體的 3 個級別
由于人們無法就AI 智能體的單一定義達成一致,因此大多數(shù)從業(yè)者都談論智能體系統(tǒng)。換句話說,與其將系統(tǒng)視為 AI 智能體或不作為 AI 智能體,不如將它們視為一個智能體范圍,從無智能體(例如基于規(guī)則的系統(tǒng))到人類級別的智能體。
為了證明這一點,我將分享 3 個智能體系統(tǒng)在智能體程度增加的具體例子。雖然這些方法都是不同的,但它們并不是相互排斥的。例如,級別 3(LLM 在循環(huán)中)可以是級別 2(LLM 工作流)的組件,而級別 1 (+LLM 工具)通常用于級別 3。
第 1 級:+ LLM 工具
如今,人們可能認為智能體的最簡單的 AI 系統(tǒng)是LLM帶有工具的增強系統(tǒng)。工具是任何 AI 智能體的關鍵組件,因為它們使系統(tǒng)能夠與現(xiàn)實世界進行交互。
以下是智能體系統(tǒng)中使用的常用工具的示例。
- 網絡搜索= 通過 Google 搜索或 DuckDuckGo 訪問實時信息;
- 代碼解釋器= 執(zhí)行代碼并處理其輸出的能力;
- API 調用= 與程序接口(例如 YouTube、Gmail、Notion)交互以執(zhí)行作;
- 計算機使用= 使視覺對象LLM能夠通過鼠標單擊和鍵盤敲擊與 GUI 交互;
- 另一個模型= 調用另一個LLM或多模態(tài)模型來執(zhí)行特定任務;
- 文件讀取器= 從.pdf和.csv等文件格式中提取文本;
此類智能體最流行的示例是 ChatGPT,它可以訪問網絡搜索、Python 解釋器和文本到圖像模型。這些簡單的工具將 ChatGPT 從人們在社交媒體上分享的新奇事物(首次發(fā)布時)轉變?yōu)閷嵱玫娜粘9ぞ摺?/p>
盡管這些工具對 進行了LLM重大改進,但這些系統(tǒng)仍然受到根本限制。也就是說,他們依賴于單個LLM調用,這對于更復雜的任務來說可能不足,例如研究博客創(chuàng)意、選擇最好的創(chuàng)意和編寫初稿。
第 2 級:LLM 工作流程
工作流是一個圖形,用于定義執(zhí)行特定任務所涉及的步驟。在這里,圖形在數(shù)學意義上使用,其中節(jié)點(即工作流中的步驟)通過有向鏈接(即步驟的順序)連接。下面顯示了一個示例。
將系統(tǒng)設計為LLM工作流有兩個主要好處。首先,這些系統(tǒng)可以通過將復雜任務拆分為子任務并使用專用模塊執(zhí)行它們來處理復雜任務。其次,模塊化設計允許更好地控制中間輸出,使調試和避免不良系統(tǒng)輸出變得更加容易。
雖然設計這些系統(tǒng)的方法無窮無盡,有些常見的設計模式,這些總結如下:
- 鏈接= 將任務分解為一系列步驟,其中前一步的輸出被輸入到后面的步驟中,例如 A → B → C
- 路由= 對輸入進行分類并將其定向到專用模塊,例如 A → B 或 A → C
- 并行化= 通過分段(即將任務分成更小的步驟并并行運行以提高速度)或投票(即多次運行同一任務并對最終輸出進行性能投票)同時運行 LLMs,例如 A → B 和 A → C
- 編排器將任務分解為子任務,并將其委托給工作器模塊,例如 A → B 和 A → C
- 評估者-優(yōu)化器= 一個LLM生成響應,而另一個在循環(huán)中提供評估和反饋,例如 A → B → A
最后一種模式與列出的其他模式有著根本的不同,后者本質上是封閉式的,因為它們以有限的順序執(zhí)行步驟。然而,評估者-優(yōu)化器為開放式任務打開了大門,這些任務可以(原則上)無限期地持續(xù)下去,這將我們帶到了智能體的下一個層次。
第 3 級:LLM 循環(huán)中
盡管我們可以使用 Level 1 和 Level 2 描述的系統(tǒng)走得很遠,但并非所有任務都可以一次性完成或由預定義的工作流程完成。相反,有些問題需要LLM探索和反思可能的解決方案。
這利用了 OpenAI 的 o1 和 DeepSeek-R1 等模型所展示的測試時計算擴展定律。然而,與這些模型不同的是,智能體系統(tǒng)不僅限于代幣生成——它們可以使用工具與現(xiàn)實世界的系統(tǒng)交互并反映他們的反饋。
實現(xiàn)這種系統(tǒng)的一種常見方法是通過一個動作 + 反饋循環(huán),重復直到滿足特定任務。
構建此類系統(tǒng)的更復雜的方法是端到端強化學習。在這里,一個 LLM + 工具被賦予一個封閉式任務,并根據(jù)其響應接收訓練信號(即 的權重LLM被更新)。一個例子是 OpenAI 的 DeepResearch 功能,它使 ChatGPT 能夠將研究查詢分解為行動計劃,并迭代探索和優(yōu)化搜索結果。
下一步是什么?
AI 智能體建立在靈活性之上 LLMs,以創(chuàng)建能夠解決現(xiàn)實世界中復雜任務的系統(tǒng)。在這里,我們討論了不同級別的智能體系統(tǒng)的三個例子。
本文由 @來學習一下 原創(chuàng)發(fā)布于人人都是產品經理。未經作者許可,禁止轉載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務
- 目前還沒評論,等你發(fā)揮!