Agent(智能體):通往AGI的必經(jīng)之路

0 評(píng)論 8598 瀏覽 33 收藏 8 分鐘

Agent被看作是通往通用人工智能(AGI)的必經(jīng)之路。那么不同于傳統(tǒng)的人工智能,Agent的獨(dú)特之處在于哪里?怎么理解Agent這一概念?本文作者對(duì)其關(guān)鍵組成、特點(diǎn)和局限性等方面做了分析,一起來(lái)看一下。

上文介紹了AI大模型連接外部世界的重大意義,今天我們來(lái)了解一下Agent(智能體)。

Agent可以更好地理解和應(yīng)對(duì)復(fù)雜多變的現(xiàn)實(shí)世界場(chǎng)景,具備更強(qiáng)的智能和自適應(yīng)能力,因此被認(rèn)為是通往通用人工智能(AGI)的必經(jīng)之路。

一、基本概念

Agent(智能體)是一種能夠感知環(huán)境、進(jìn)行決策和執(zhí)行動(dòng)作的智能實(shí)體。不同于傳統(tǒng)的人工智能,Agent 具備通過(guò)主動(dòng)思考、調(diào)用工具去逐步完成給定目標(biāo)的能力。

我們知道,大模型與人類之間的交互是基于prompt實(shí)現(xiàn)的,用戶prompt是否清晰明確會(huì)影響大模型回答的效果,在此過(guò)程中,人類主動(dòng)提問(wèn),而大模型是“被動(dòng)”回答。而Agent的工作僅需給定一個(gè)目標(biāo),它就能夠針對(duì)目標(biāo)獨(dú)立思考并做出行動(dòng)。

從大模型的角度來(lái)看,Agent其實(shí)就是基于大模型的語(yǔ)義理解和推理能力,讓大模型擁有解決復(fù)雜問(wèn)題時(shí)的任務(wù)規(guī)劃能力,并調(diào)用外部工具來(lái)執(zhí)行各種任務(wù),利用向量數(shù)據(jù)庫(kù)保留“記憶”的一個(gè)智能體。

Agent = 大模型 + 任務(wù)規(guī)劃(Planning) + 使用外部工具執(zhí)行任務(wù)(Tools&Action) + 記憶(Memory)

把Agent比作一個(gè)人的話,他應(yīng)該有大腦(語(yǔ)義理解、存儲(chǔ)記憶、推理規(guī)劃、專業(yè)知識(shí))、五官(接收文本、視覺(jué)輸入、聽(tīng)覺(jué)輸入等)、四肢(使用工具完成各種具體任務(wù))等主要部件。

其實(shí)我們?cè)?a href="http://m.codemsi.com/ai/5996879.html" target="_blank" rel="noopener">上文中舉的例子,就是Agent的極簡(jiǎn)版工作模式:

我們還是參照該示例,從大模型的角度來(lái)看一下Agent的組成。

二、Agent的關(guān)鍵組成部分

Agent最核心的組成部分就是 任務(wù)規(guī)劃(Planning):

  • Agent需要提前將一項(xiàng)復(fù)雜任務(wù)拆解為多個(gè)更小、更易于處理的子任務(wù),從而實(shí)現(xiàn)對(duì)復(fù)雜任務(wù)的高效處理。
  • Agent可以從錯(cuò)誤中吸取教訓(xùn),并通過(guò)自我反思來(lái)優(yōu)化結(jié)果,提高最終結(jié)果的質(zhì)量。
  • 任務(wù)規(guī)劃能力是通過(guò)提示工程來(lái)引導(dǎo)大模型實(shí)現(xiàn)的,可以去翻閱《提示工程(Prompt Engineering):指導(dǎo)AI大模型完成任務(wù)的藝術(shù)》,里面那段自動(dòng)優(yōu)化提示詞的“咒語(yǔ)”,其實(shí)就是Planning的體現(xiàn)。

Agent還要擁有長(zhǎng)短期記憶(Memory):

  • 短期記憶:短期記憶一般也是通過(guò)提示工程來(lái)實(shí)現(xiàn),最常見(jiàn)的短期記憶可能是聊天上下文,在Agent中,思考過(guò)程、任務(wù)規(guī)劃內(nèi)容、子任務(wù)返回的結(jié)果也都屬于短期記憶。
  • 長(zhǎng)期記憶:長(zhǎng)期記憶一般通過(guò)向量數(shù)據(jù)庫(kù)進(jìn)行外部向量存儲(chǔ)和快速檢索來(lái)實(shí)現(xiàn),可以長(zhǎng)期保留和回憶信息。最常見(jiàn)的長(zhǎng)期記憶可能是私有知識(shí)庫(kù)和私人信息(家庭住址等),也可以把大模型的所有記錄存儲(chǔ)起來(lái),讓Agent擁有長(zhǎng)期記憶。RAG相關(guān)內(nèi)容可參考《檢索增強(qiáng)生成(RAG):如何讓AI大模型更懂我?》。
  • 壓縮記憶:通過(guò)對(duì)記憶進(jìn)行壓縮,以提高記憶檢索效率。

工具&執(zhí)行(Tools&Action):

Agent會(huì)根據(jù)拆分好的子任務(wù),調(diào)用外部提供好的專業(yè)API解決專業(yè)問(wèn)題,完成一個(gè)個(gè)具體的子任務(wù),并把處理結(jié)果返回給大模型。詳情可參考上文《AI大模型如何連接外部世界:深入解析GPTs、Assistant API和Function Calling》。

三、Agent vs 大模型 vs 傳統(tǒng)軟件

傳統(tǒng)軟件的特點(diǎn):

  • 非常穩(wěn)定,極具確定性。
  • 不適合解決靈活的問(wèn)題,必須提前預(yù)設(shè)好情境才行,略顯死板。

大模型的特點(diǎn):

  • 強(qiáng)大的語(yǔ)義理解能力。
  • 強(qiáng)大的推理能力。
  • 高效的數(shù)據(jù)處理。
  • 更舒適的交互方式(自然語(yǔ)言交互)。
  • 輸出結(jié)果不穩(wěn)定,缺乏確定性。

Agent的特點(diǎn):

  • 比傳統(tǒng)軟件更靈活,同時(shí)比大模型更可靠。
  • 具備大模型的良好體驗(yàn),并盡可能解決其可靠性問(wèn)題。
  • 但無(wú)論怎么優(yōu)化,它的穩(wěn)定性和可靠性短期內(nèi)是無(wú)法和傳統(tǒng)軟件相比的。

總之,Agent目前會(huì)損失一定的可靠性,換來(lái)可觀的創(chuàng)造力,這種情況大概率會(huì)持續(xù)較長(zhǎng)時(shí)間,但是一旦取得突破性進(jìn)展,可能會(huì)徹底顛覆現(xiàn)有的交互方式,從GUI進(jìn)入到自然語(yǔ)言交互的時(shí)代,到時(shí)候就可以真正用上那句“所有系統(tǒng)都值得用AI重做一遍”了。

四、局限性

雖然Agent讓我們看到了AGI的曙光,但目前它依然有很大的局限性:

  • 嚴(yán)重依賴大模型的核心能力,所以大模型底座必須足夠強(qiáng)
  • Agent多次與外界交互,效率不高,資源消耗大,成本較高
  • 執(zhí)行鏈路過(guò)長(zhǎng),某一中間環(huán)節(jié)出錯(cuò),就會(huì)導(dǎo)致前功盡棄

五、總結(jié)

本文主要介紹了AI Agent的基本概念,Agent讓我們看到通用人工智能(AGI)的曙光。

雖然目前依然有很多局限性,導(dǎo)致Agent無(wú)法大面積應(yīng)用,但隨著技術(shù)底座快速升級(jí),Agent的規(guī)劃能力會(huì)越來(lái)越強(qiáng),成本會(huì)快速降低,很可能會(huì)徹底顛覆現(xiàn)有的交互方式,并最終實(shí)現(xiàn)AGI。

本文由 @AI小當(dāng)家 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!