創(chuàng)業(yè)公司在AI agent競賽中加大賭注
Genspark 成功發(fā)布 “超級(jí)代理”,它能夠自主規(guī)劃旅行、制作動(dòng)畫劇集,甚至能以清晰邏輯展示思考過程,這將給企業(yè)和科技行業(yè)帶來怎樣的沖擊?
通用人工智能代理領(lǐng)域突然變得更加擁擠和雄心勃勃。
本周,總部位于加利福尼亞州帕洛阿爾托的初創(chuàng)公司Genspark發(fā)布了其所謂的“超級(jí)代理”(Super Agent),這是一個(gè)快速移動(dòng)的自主系統(tǒng),旨在處理跨多個(gè)領(lǐng)域的現(xiàn)實(shí)世界任務(wù)包括一些令人驚訝的任務(wù),比如使用逼真的合成語音給餐廳打電話。
這一發(fā)布為人工智能競爭中的一個(gè)重要新戰(zhàn)線增添了動(dòng)力:誰能率先打造出第一個(gè)可靠、靈活且真正有用的通用代理?或許更緊迫的問題是,這對(duì)企業(yè)意味著什么?
Genspark推出“超級(jí)代理”僅在三周前,另一家由中國創(chuàng)立的初創(chuàng)公司Manus因其能夠協(xié)調(diào)工具和數(shù)據(jù)源以完成異步云任務(wù)(如旅行預(yù)訂、簡歷篩選和股票分析)而受到關(guān)注——所有這些任務(wù)都不需要大多數(shù)當(dāng)前代理所需的“手把手”指導(dǎo)。
Genspark現(xiàn)在聲稱走得更遠(yuǎn)。據(jù)聯(lián)合創(chuàng)始人埃里克·景(Eric Jing)稱,“超級(jí)代理”建立在三個(gè)支柱上:九種不同的大型語言模型(LLM)、80多個(gè)工具和超過10個(gè)專有數(shù)據(jù)集——所有這些都在一個(gè)協(xié)調(diào)的流程中協(xié)同工作。它遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)的聊天機(jī)器人,能夠處理復(fù)雜的工作流程并返回完全執(zhí)行的結(jié)果。
在一個(gè)演示中,Genspark的代理規(guī)劃了一次完整的圣地亞哥五天之旅,計(jì)算了景點(diǎn)之間的步行距離,繪制了公共交通選項(xiàng),并使用語音呼叫代理預(yù)訂餐廳,包括處理食物過敏和座位偏好。另一個(gè)演示展示了該代理通過生成食譜步驟、視頻場景和音頻覆蓋來創(chuàng)建烹飪視頻。在第三個(gè)演示中,它編寫并制作了一集《南方公園》風(fēng)格的動(dòng)畫劇集,內(nèi)容涉及最近的“信號(hào)門”政治丑聞,該丑聞涉及與政治記者分享戰(zhàn)爭計(jì)劃。
這些聽起來像是面向消費(fèi)者的應(yīng)用,但它們展示了技術(shù)的發(fā)展方向朝著多模態(tài)、多步驟任務(wù)自動(dòng)化的方向發(fā)展,模糊了創(chuàng)意生成與執(zhí)行之間的界限。
“解決這些現(xiàn)實(shí)世界的問題比我們想象的要困難得多,”景在視頻中說,“但我們對(duì)我們?nèi)〉玫倪M(jìn)展感到興奮?!?/p>
一個(gè)引人注目的特點(diǎn)是:“超級(jí)代理”清晰地可視化了其思考過程,追溯了它是如何推理每一步的,它調(diào)用了哪些工具以及原因。實(shí)時(shí)觀看這種邏輯展開,使系統(tǒng)感覺更像是一個(gè)協(xié)作伙伴,而不是一個(gè)黑箱。這也可能激勵(lì)企業(yè)開發(fā)人員在自己的人工智能系統(tǒng)中構(gòu)建類似的可追溯推理路徑,使應(yīng)用程序更加透明和值得信賴。
“超級(jí)代理”的另一個(gè)令人印象深刻的特點(diǎn)是其易于嘗試。該界面在瀏覽器中平穩(wěn)啟動(dòng),無需技術(shù)設(shè)置。Genspark允許用戶無需提供個(gè)人憑據(jù)即可開始測(cè)試。相比之下,Manus仍要求申請(qǐng)人加入等待名單并披露社交媒體賬戶和其他私人信息,這增加了實(shí)驗(yàn)的摩擦。
我們?cè)缭?1月首次報(bào)道了Genspark,當(dāng)時(shí)它推出了由Claude驅(qū)動(dòng)的財(cái)務(wù)報(bào)告。該公司已在兩輪融資中至少籌集了1.6億美元,并得到了美國和新加坡投資者的支持。
01 Genspark是如何做到的?
Genspark的方法之所以脫穎而出,是因?yàn)樗鉀Q了人工智能工程中長期存在的一個(gè)挑戰(zhàn):大規(guī)模的工具編排。
大多數(shù)當(dāng)前的代理在同時(shí)處理超過幾個(gè)外部API或工具時(shí)就會(huì)崩潰。Genspark的“超級(jí)代理”似乎在這方面表現(xiàn)得更好,可能是因?yàn)樗褂昧四P吐酚珊突跈z索的選擇,根據(jù)任務(wù)動(dòng)態(tài)選擇工具和子模型。
這種策略呼應(yīng)了中國蘇州大學(xué)提出的CoTools框架這一新興研究,該框架增強(qiáng)了大型語言模型(LLM)使用廣泛且不斷發(fā)展的工具集的方式。與依賴大量提示工程或僵化微調(diào)的舊方法不同,CoTools保持基礎(chǔ)模型“凍結(jié)”,同時(shí)訓(xùn)練較小的組件以高效地判斷、檢索和調(diào)用工具。
另一個(gè)促成因素是模型上下文協(xié)議(Model Context Protocol,MCP),這是一個(gè)鮮為人知但越來越被采用的標(biāo)準(zhǔn),允許代理在各個(gè)步驟中攜帶更豐富的工具和記憶上下文。結(jié)合Genspark的專有數(shù)據(jù)集,MCP可能是其代理看起來比其他替代方案更具“可操控性”的原因之一。
02 與Manus相比如何?
Genspark并不是第一個(gè)推廣通用代理的初創(chuàng)公司。由中國公司Monica上月推出的Manus憑借其多代理系統(tǒng)引起了轟動(dòng),該系統(tǒng)可以自主運(yùn)行諸如網(wǎng)絡(luò)瀏覽器、代碼編輯器或電子表格引擎等工具,以完成多步驟任務(wù)。
Manus高效整合了開源組件,包括網(wǎng)絡(luò)工具和像Anthropic的Claude這樣的大型語言模型(LLM),令人驚訝。盡管沒有構(gòu)建專有模型堆棧,它在GAIA基準(zhǔn)測(cè)試中的表現(xiàn)仍超過了OpenAI——GAIA是一個(gè)旨在評(píng)估代理現(xiàn)實(shí)世界任務(wù)自動(dòng)化的合成測(cè)試。
然而,Genspark聲稱已經(jīng)超越了Manus,在GAIA測(cè)試中得分為87.8%,高于Manus報(bào)告的86%,并且是通過包含專有組件和更廣泛的工具覆蓋的架構(gòu)實(shí)現(xiàn)的。
03 大型科技公司:仍在謹(jǐn)慎行事?
與此同時(shí),美國最大的人工智能公司一直保持謹(jǐn)慎。
微軟的主要人工智能代理產(chǎn)品Copilot Studio專注于與企業(yè)應(yīng)用程序(如Excel和Outlook)緊密對(duì)齊的微調(diào)垂直代理。OpenAI的Agent SDK提供了構(gòu)建模塊,但尚未推出自己的全功能通用代理。亞馬遜最近宣布的Nova Act采用以開發(fā)人員為中心的方法,通過SDK提供基于瀏覽器的原子級(jí)操作,但與Nova LLM和云基礎(chǔ)設(shè)施緊密綁定。
這些方法更具模塊化、更安全,并且明確針對(duì)企業(yè)使用。但它們?nèi)狈enspark演示中所展示的雄心壯志或自主性。
其中一個(gè)原因可能是規(guī)避風(fēng)險(xiǎn)。如果谷歌或微軟的通用代理預(yù)訂了錯(cuò)誤的航班,或者在語音通話中說了一些奇怪的話,聲譽(yù)成本可能會(huì)很高。這些公司也被鎖定在自己的模型生態(tài)系統(tǒng)中,限制了它們?cè)诙嗄P途幣欧矫鎸?shí)驗(yàn)的靈活性。
相比之下,像Genspark這樣的初創(chuàng)公司有自由混合和匹配大型語言模型,并且能夠快速行動(dòng)。
04 企業(yè)應(yīng)該關(guān)心嗎?
這是戰(zhàn)略問題。大多數(shù)企業(yè)不需要通用代理來預(yù)訂晚餐或制作諷刺漫畫。但他們可能很快需要能夠處理特定領(lǐng)域的多步驟任務(wù)的代理,例如挖掘和格式化合規(guī)數(shù)據(jù)、協(xié)調(diào)客戶入職或在多種格式中生成內(nèi)容。
在這種情況下,Genspark的工作變得更加相關(guān)。通用代理變得越無縫和自主,并且越能整合語音、記憶和外部工具,它們就越有可能開始與傳統(tǒng)的SaaS應(yīng)用程序和RPA平臺(tái)競爭。
而且它們正在以更輕的基礎(chǔ)設(shè)施實(shí)現(xiàn)這一點(diǎn)。例如,Genspark聲稱其代理“超級(jí)可操控”,并且可以被營銷人員、教師、招聘人員、設(shè)計(jì)師和分析師使用所有這些都只需要很少的設(shè)置。
通用代理時(shí)代不再是假設(shè)性的。它已經(jīng)到來并且正在迅速發(fā)展。(Venture Beat)
本文由人人都是產(chǎn)品經(jīng)理作者【AI新智能】,微信公眾號(hào):【AI新智能】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!