大佬們都在關(guān)注的AI Agent,到底是什么?用5W1H分析框架拆解AI Agent(上篇)

0 評(píng)論 6719 瀏覽 55 收藏 35 分鐘

前幾個(gè)月各大廠商還在為大模型大打價(jià)格戰(zhàn),而后開(kāi)始的是AI Agent的爭(zhēng)奪——大家突然關(guān)心起AI的應(yīng)用場(chǎng)景,開(kāi)始做瀏覽器插件,做APP搶奪市場(chǎng)。為什么會(huì)這樣?在這個(gè)系列文章里,作者嘗試高速我們答案。

大模型的橫空出世,重新點(diǎn)燃了市場(chǎng)對(duì)AI的熱情。AI Agent的概念,更是將AI的熱潮推向了新的高度。從去年開(kāi)始,AI Agent就成為了炙手可熱的名詞,其熱度絲毫不亞于對(duì)大模型的討論,甚至一眾大佬都紛紛為AI Agent站臺(tái)。

2023年下半年,OpenAI聯(lián)合創(chuàng)始人,前TeslaAI總監(jiān)Andrej Karpathy說(shuō)道:

“如果一篇論文提出了某種不同的訓(xùn)練方法,OpenAI內(nèi)部會(huì)嗤之以鼻,認(rèn)為都是我們玩剩下的。但是當(dāng)新的AI Agents論文出來(lái)的時(shí)候,我們會(huì)十分認(rèn)真且興奮地討論。普通人、創(chuàng)業(yè)者和極客在構(gòu)建AI Agents方面相比OpenAI這樣的公司更有優(yōu)勢(shì)?!?/p>

在AI Ascent 2024大會(huì)上,斯坦福大學(xué)教授、前谷歌大腦項(xiàng)目創(chuàng)始人,吳恩達(dá)分享了關(guān)于AI Agent的最新趨勢(shì)與洞察

AI Agent(AI智能體)工作流將在今年推動(dòng)人工智能取得巨大進(jìn)步——甚至可能超過(guò)下一代基礎(chǔ)模型。這是一個(gè)重要的、令人興奮的趨勢(shì),我呼吁所有人工智能從業(yè)者都關(guān)注它。

微軟創(chuàng)始人比爾蓋茨,也通過(guò)個(gè)人網(wǎng)站發(fā)表了對(duì)AI Agent的看法:

AI Agent將成為下一個(gè)平臺(tái),簡(jiǎn)而言之,AI Agent幾乎將在任何活動(dòng)和生活領(lǐng)域提供幫助,對(duì)軟件行業(yè)和社會(huì)產(chǎn)生深遠(yuǎn)的影響。

與此同時(shí),趁著這波浪潮,在短短的一年時(shí)間內(nèi),AI Agent(AI智能體)領(lǐng)域的創(chuàng)業(yè)公司和獨(dú)角獸也實(shí)現(xiàn)了爆發(fā)式的增長(zhǎng)。早在去年3月份,AutoGPT就在GitHub上獲得了7.4萬(wàn)星,并快速成為史上Star數(shù)量增長(zhǎng)最快的開(kāi)源項(xiàng)目,如今已經(jīng)獲得超過(guò)16萬(wàn)星。后續(xù)發(fā)布的BabyAGI、AgentGPT也如雨后春筍般涌現(xiàn),調(diào)研報(bào)告、訂購(gòu)披薩、發(fā)送郵件、旅行攻略,無(wú)數(shù)的Agent應(yīng)用場(chǎng)景紛紛開(kāi)始落地。

在國(guó)內(nèi),AI Agents相關(guān)的產(chǎn)品也相繼誕生。早在去年7月,阿里云就發(fā)布了旗下第一個(gè)智能體——ModelScopeGPT,面向開(kāi)發(fā)者群體。隨后百度文心智能體平臺(tái)、字節(jié)Coze、騰訊元器,各大廠商的AI智能體平臺(tái)也紛至沓來(lái)。

面對(duì)如此巨大的熱潮,相信很多讀者在心潮澎湃的同時(shí),也會(huì)心存疑慮。AI Agent到底是什么?是真正的科技突破還是科技泡沫?對(duì)企業(yè)和個(gè)人能帶來(lái)什么影響?

接下來(lái),風(fēng)叔將使用5W1H分析框架來(lái)詳細(xì)拆解AI Agent,一步步帶著大家了解AI Agent的全貌。由于內(nèi)容比較多,風(fēng)叔將通過(guò)三篇文章來(lái)逐步闡述全部?jī)?nèi)容。

上篇:介紹What + Why,主要解答以下問(wèn)題。

What:AI Agent是什么?有哪些組成部分?AI Agent的原理是什么?AI Agent是怎么分類的?

Why:為什么會(huì)產(chǎn)生AI Agent?AI Agent的優(yōu)勢(shì)和劣勢(shì)是什么?為什么企業(yè)和個(gè)人都要關(guān)注AI Agent?

中篇:介紹When + Where + Who,主要解答以下問(wèn)題。

When:AI Agent的發(fā)展歷程是怎樣的?AI Agent未來(lái)的發(fā)展趨勢(shì)是怎樣的?

Where:AI Agent有哪些應(yīng)用場(chǎng)景?

Who:AI Agent領(lǐng)域的玩家有哪些?AI Agent領(lǐng)域的行業(yè)價(jià)值鏈?zhǔn)窃鯓拥模?/p>

下篇:介紹 How,主要解答以下問(wèn)題。

How:如何實(shí)現(xiàn)AI Agent?AI Agent包括哪些系統(tǒng)模塊?如何開(kāi)始學(xué)習(xí)AI Agent?

下面正式開(kāi)始5W1H框架對(duì)AI Agent的拆解之旅!

一、5W1H分析框架之What

1.1 AI Agent到底是什么?

從概念上來(lái)說(shuō),AI Agent(智能體)是一種不需要持續(xù)人類干預(yù)的AI系統(tǒng),可以基于環(huán)境和背景信息,自主分析各種問(wèn)題,做出邏輯決策,并且在沒(méi)有持續(xù)人類輸入的情況下處理多種任務(wù)。

AlphaGo就是一個(gè)典型的AI Agent,它可以在和人類對(duì)弈圍棋的過(guò)程中,根據(jù)當(dāng)前的棋局和對(duì)手的行動(dòng),自主決策下一步的動(dòng)作。AI助手也是AI Agent,比如你只需要給AI助手下達(dá)一個(gè)指令,“幫我預(yù)訂明早10點(diǎn)上海飛深圳的機(jī)票”,AI助手就能自動(dòng)幫你完成從機(jī)票搜索、查詢、下單、確認(rèn)的全部動(dòng)作。

從結(jié)構(gòu)上來(lái)說(shuō),一個(gè)AI Agent包括三個(gè)部分,如下圖所示:

Perception(輸入):AI Agent通過(guò)文字輸入、傳感器、攝像頭、麥克風(fēng)等等,建立起對(duì)外部世界或環(huán)境的感知。

Brain(大腦):大腦是AI Agent最重要的部分,包括信息存儲(chǔ)、記憶、知識(shí)庫(kù)、規(guī)劃決策系統(tǒng)。

Action(行動(dòng)):基于Brain給出的決策進(jìn)行下一步行動(dòng),對(duì)于AI Agent來(lái)說(shuō),行動(dòng)主要包括對(duì)外部工具的API 調(diào)用,或者對(duì)物理控制組件的信號(hào)輸出。

目前在大模型熱潮的背景下,媒體上所講的AI Agent,更嚴(yán)格意義上來(lái)說(shuō)應(yīng)該叫做LLM Agent,因?yàn)檎麄€(gè)Agent最重要的控制中樞Brain,其底層是LLM大模型。如果未來(lái)產(chǎn)生了比LLM更強(qiáng)大更智能的AI技術(shù)基座,那同樣也會(huì)產(chǎn)生基于新的AI基座的Agent。下文所介紹的AI Agent,如無(wú)特殊說(shuō)明,都指代LLM Agent。

那么Agent和LLM大語(yǔ)言模型到底是什么關(guān)系呢?可以這樣進(jìn)行簡(jiǎn)單類比,如果把LLM(比如GPT)比作大腦中的一堆神經(jīng)元,具有記憶、常識(shí)和推理等能力,那么AI Agent就是獨(dú)立的人,除了擁有大腦之外,還擁有視覺(jué)、聽(tīng)覺(jué)、味覺(jué)等多種感官,以及擁有手和腳操作外部的工具。

因此從本質(zhì)來(lái)講,AI Agent = 大語(yǔ)言模型+記憶+規(guī)劃+工具使用。

接下來(lái),我們逐步拆解AI Agent的組成部分。

1.2 詳細(xì)拆解AI Agent的構(gòu)成

1.2.1 構(gòu)成一,規(guī)劃Planning

Planning是整個(gè)AI Agent中最核心最關(guān)鍵的部分,Agent會(huì)把大型任務(wù)分解為子任務(wù),并規(guī)劃執(zhí)行任務(wù)的流程。同時(shí)Agent還會(huì)對(duì)任務(wù)執(zhí)行的過(guò)程進(jìn)行思考和反思,從而決定是繼續(xù)執(zhí)行任務(wù),還是判斷任務(wù)完結(jié)并終止運(yùn)行。

整個(gè)Planning模塊包括兩個(gè)步驟:子任務(wù)分解,反思和完善。

步驟一,子任務(wù)分解

Agent 將大型任務(wù)分解為更小、更易于管理的子目標(biāo),從而高效處理復(fù)雜任務(wù)。主要的子任務(wù)分解方式包括:思維鏈COT(Chain of thought)、思維樹(shù)TOT(Tree of thought)、思維圖GOT(Graph of thought)、規(guī)劃器LLM+P。

a. 思維鏈COT

思維鏈COT的全稱是Chain of Thought,當(dāng)我們對(duì)LLM這樣要求「think step by step」,會(huì)發(fā)現(xiàn)LLM會(huì)把問(wèn)題分解成多個(gè)步驟,一步一步思考和解決,能使得輸出的結(jié)果更加準(zhǔn)確。這就是思維鏈,一種線性思維方式。

b. COT-SC

一個(gè)CoT出現(xiàn)錯(cuò)誤的概率比較大,我們可以讓Agent進(jìn)行發(fā)散,嘗試通過(guò)多種思路來(lái)解決問(wèn)題,然后投票選擇出最佳答案,這就是CoT-SC。

c. 思維樹(shù)TOT

思維樹(shù)TOT是對(duì)思維鏈CoT的進(jìn)一步擴(kuò)展,在思維鏈的每一步,推理出多個(gè)分支,拓?fù)湔归_(kāi)成一棵思維樹(shù)。使用啟發(fā)式方法評(píng)估每個(gè)推理分支對(duì)問(wèn)題解決的貢獻(xiàn)。選擇搜索算法,使用廣度優(yōu)先搜索(BFS)或深度優(yōu)先搜索(DFS)等算法來(lái)探索思維樹(shù),并進(jìn)行前瞻和回溯。

d. 思維圖GOT

思維樹(shù)ToT 的方式也存在一些缺陷,對(duì)于需要分解后再整合的問(wèn)題,比如排序問(wèn)題,排序我們可能需要分解和排序,然后再merge。這種情況下TOT就不行了,可以引入思維圖GOT來(lái)解決。

e. LLM+P

其原理是依靠外部傳統(tǒng)規(guī)劃器來(lái)進(jìn)行長(zhǎng)視野規(guī)劃,利用規(guī)劃域定義語(yǔ)言(PDDL)作為中間接口來(lái)描述規(guī)劃問(wèn)題。在此過(guò)程中,LLM先將問(wèn)題轉(zhuǎn)化為成”Problem PDDL”形式,然后請(qǐng)求經(jīng)典規(guī)劃器根據(jù)現(xiàn)有的 “Domain PDDL “生成 PDDL 計(jì)劃,最后將 PDDL 計(jì)劃翻譯回自然語(yǔ)言。

步驟二,反思和完善

反思和完善機(jī)制在Agent 應(yīng)用中發(fā)揮著重要的作用,Agent 通過(guò)完善過(guò)去的行動(dòng)決策和糾正以前的錯(cuò)誤來(lái)不斷改進(jìn)。尤其是在現(xiàn)實(shí)世界的任務(wù)中,不可能在規(guī)劃環(huán)節(jié)就能做出萬(wàn)無(wú)一失的計(jì)劃和策略,試錯(cuò)是不可避免的,只有通過(guò)自我反思和逐步完善,才能一步步逼近最佳結(jié)果。

反思和完善機(jī)制的實(shí)現(xiàn),主要有以下幾種方式。

a. ReAct

ReACT的全稱是Reasoning-Action,這種模式是讓大模型先進(jìn)行思考,思考完再進(jìn)行行動(dòng),然后根據(jù)行動(dòng)的結(jié)果再進(jìn)行觀察,再進(jìn)行思考,這樣一步一步循環(huán)下去。

和ReAct相對(duì)應(yīng)的是Reasoning-Only和Action-Only。在Reasoning-Only的模式下,大模型會(huì)基于任務(wù)進(jìn)行逐步思考,并且不管有沒(méi)有獲得結(jié)果,都會(huì)把思考的每一步都執(zhí)行一遍。在Action-Only的模式下,大模型就會(huì)處于完全沒(méi)有規(guī)劃的狀態(tài)下,先進(jìn)行行動(dòng)再進(jìn)行觀察,基于觀察再調(diào)整行動(dòng),導(dǎo)致最終結(jié)果不可控。

在實(shí)際的測(cè)試觀察中,ReAct模式的效果要好于Reasoning-Only和Action-Only。

b. Reflexion

Reflecxion是一個(gè)為 Agent 配備了動(dòng)態(tài)記憶和自我反思能力的框架,能夠提高 Agent 的推理能力。Reflexion 具有標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)機(jī)制,其獎(jiǎng)勵(lì)模型提供了一個(gè)簡(jiǎn)單的二進(jìn)制獎(jiǎng)勵(lì)機(jī)制,執(zhí)行空間則遵循 ReAct 中的設(shè)置。每次行動(dòng),Agent 都會(huì)計(jì)算一個(gè)啟發(fā)式 ht,并根據(jù)自我反思的結(jié)果決定環(huán)境重置以開(kāi)始新的試驗(yàn)。

c.Basic Reflection

還有一種反思和完善的方式,其本質(zhì)是利用左右互搏來(lái)實(shí)現(xiàn)協(xié)同進(jìn)化。比如設(shè)計(jì)一個(gè)幫助用戶完成市場(chǎng)調(diào)研報(bào)告的Agent系統(tǒng),其中Generator負(fù)責(zé)輸出,Reflector負(fù)責(zé)檢查,通過(guò)兩個(gè)角色之間不斷的協(xié)同,來(lái)實(shí)現(xiàn)整個(gè)任務(wù)的反思和完善。

1.2.2 構(gòu)成二,記憶Memory

記憶是Agent用于獲取、存儲(chǔ)、保留和隨后檢索信息的過(guò)程,我們先用人腦的記憶做個(gè)類比,人腦中有多種記憶類型:

感官記憶:這是記憶的最早階段,能夠在原始刺激結(jié)束后保留對(duì)感官信息(視覺(jué)、聽(tīng)覺(jué)等)的印象,通常只能持續(xù)幾秒鐘。包括圖標(biāo)記憶、回聲記憶和觸覺(jué)記憶三種類型。

短時(shí)記憶(STM)或工作記憶:指的是我們當(dāng)前意識(shí)到的信息,或者在學(xué)習(xí)和推理等復(fù)雜認(rèn)知任務(wù)中所需要的信息。人類的短時(shí)記憶容量約為 7 items(Miller, 1956)、持續(xù)時(shí)長(zhǎng)為 20-30 秒。

長(zhǎng)時(shí)記憶(LTM):長(zhǎng)時(shí)記憶指的是能夠存儲(chǔ)很長(zhǎng)時(shí)間,從幾天到幾十年不等的信息,它的存儲(chǔ)容量基本上是無(wú)限的。長(zhǎng)時(shí)記憶又包括顯性記憶和隱性記憶,顯性記憶是可以有意識(shí)地回憶起來(lái)的事實(shí),比如事件經(jīng)歷和語(yǔ)義記憶;隱性記憶是內(nèi)化后無(wú)意識(shí)的行為,比如騎自行車。

了解了人類的記憶模式,我們?cè)賮?lái)看如何將其映射到AI Agent。

感官記憶是對(duì)原始輸入的嵌入表征的理解,包括文本、圖像或其他模式,比如圖片的紋理和風(fēng)格。短時(shí)記憶即上下文學(xué)習(xí),由于受到Transformer上下文窗口長(zhǎng)度的限制,它是短暫的和有限的。長(zhǎng)期記憶則可對(duì)應(yīng)為外部的向量數(shù)據(jù)存儲(chǔ),Agent 可在查詢時(shí)引用,并可通過(guò)快速檢索進(jìn)行訪問(wèn)。

還有一個(gè)非常關(guān)鍵的因素,大模型知識(shí)的更新。由于大模型是用海量的通用數(shù)據(jù)訓(xùn)練的,基礎(chǔ)的大模型可以理解為是一個(gè)及格的通才,什么話題都知道一些,但是存在胡言亂語(yǔ)和幻覺(jué)現(xiàn)象。尤其是在面向企業(yè)端的場(chǎng)景,一個(gè)及格的通才是無(wú)法使用的,需要利用企業(yè)的專屬數(shù)據(jù)進(jìn)行喂養(yǎng)和訓(xùn)練。這個(gè)時(shí)候,就可以通過(guò)RAG【檢索增強(qiáng)生成】技術(shù),在基礎(chǔ)大模型的基礎(chǔ)上掛載企業(yè)專屬的知識(shí)庫(kù),以向量數(shù)據(jù)庫(kù)的方式存儲(chǔ),將Agent訓(xùn)練為一個(gè)優(yōu)秀的專才。

RAG技術(shù)在AI Agent的應(yīng)用中非常關(guān)鍵,大家可以提前標(biāo)記一下這個(gè)概念。在后續(xù)文章中,風(fēng)叔還將重點(diǎn)介紹RAG技術(shù)的原理和使用方法。

1.2.3 構(gòu)成三,工具Tooling

為AI Agent配備工具API,比如計(jì)算器、搜索工具、代碼執(zhí)行器、數(shù)據(jù)庫(kù)查詢等工具,AI Agent就可以和物理世界交互,來(lái)解決更加實(shí)際的問(wèn)題。

Agent使用工具的方式主要有以下幾種:

a. TALM & ToolFormer

TALM和ToolFormer都是對(duì) LLM 進(jìn)行微調(diào),以學(xué)習(xí)使用外部工具API。該數(shù)據(jù)集根據(jù)新增的 API 調(diào)用注釋是否能夠提高模型輸出的質(zhì)量而進(jìn)行擴(kuò)展。

b.HuggingGPT

HuggingGPT =ChatGPT+HuggingFace,HuggingFace是大模型領(lǐng)域的Github,來(lái)自全球的開(kāi)發(fā)人員、企業(yè)和機(jī)構(gòu)在huggingFace社區(qū)進(jìn)行模型的上傳、分享和部署。

從本質(zhì)上來(lái)說(shuō),HuggingGPT是一個(gè)使用ChatGPT作為任務(wù)規(guī)劃器的框架,ChatGPT 可根據(jù)模型的描述選擇 HuggingFace 平臺(tái)中可用的模型,并根據(jù)執(zhí)行結(jié)果總結(jié)響應(yīng)結(jié)果。

c. API-Bank

它包含 53 種常用的 API 工具、完整的工具增強(qiáng)的 LLM 工作流程。API 的選擇相當(dāng)多樣化,包括搜索引擎、計(jì)算器、日歷查詢、智能家居控制、日程管理、健康數(shù)據(jù)管理、賬戶認(rèn)證工作流程等。由于 API 數(shù)量眾多,LLM 首先可以訪問(wèn) API 搜索引擎,找到要調(diào)用的 API,然后使用相應(yīng)的文檔進(jìn)行調(diào)用

d. Function Calling

是一種實(shí)現(xiàn)大型語(yǔ)言模型連接外部工具的機(jī)制。通過(guò)API調(diào)用LLM時(shí),調(diào)用方可以描述函數(shù),包括函數(shù)的功能描述、請(qǐng)求參數(shù)說(shuō)明、響應(yīng)參數(shù)說(shuō)明,讓LLM根據(jù)用戶的輸入,合適地選擇調(diào)用哪個(gè)函數(shù),同時(shí)理解用戶的自然語(yǔ)言,并轉(zhuǎn)換為調(diào)用函數(shù)的請(qǐng)求參數(shù)。

前面的內(nèi)容中,風(fēng)叔拋出了非常多較為晦澀的概念和專業(yè)名詞,大家先初步了解一下這些概念,風(fēng)叔會(huì)在后續(xù)文章中對(duì)這些概念和原理進(jìn)行詳細(xì)介紹。

規(guī)劃Planning、記憶Memory和工具Tooling,就是AI Agent系統(tǒng)最核心的三個(gè)模塊。接下來(lái),我們?cè)賮?lái)看看AI Agent的分類。

1.3 AI Agent的分類

從去年開(kāi)始,各類AI Agent層出不窮。面對(duì)形形色色的AI Agent,合理的分類有助于我們進(jìn)一步了解AI Agent的原理和模式。

我們可以從三個(gè)角度來(lái)給AI Agent進(jìn)行分類,分別是工作模式、決策方式和應(yīng)用場(chǎng)景。在本篇文章中,風(fēng)叔先介紹前兩種分類方式,在下一篇文章介紹”Where”的時(shí)候,再詳細(xì)介紹AI Agent的應(yīng)用場(chǎng)景。

1.3.1 按工作模式分類

從工作模式來(lái)看,AI智能體可以分為單Agent、多Agent和混合Agent。

單Agent:即通過(guò)單一的Agent來(lái)解決問(wèn)題,不需要與其他Agent進(jìn)行交互。單Agent可以根據(jù)任務(wù)執(zhí)行不同的操作,如需求分析、項(xiàng)目讀取、代碼生成等。比如專門用于進(jìn)行市場(chǎng)分析調(diào)研的Agent就是單Agent系統(tǒng),只能處理市場(chǎng)分析這個(gè)單一任務(wù)。

多Agent:這種模式側(cè)重于多個(gè)Agent之間的互動(dòng)和信息共享,多個(gè)Agent協(xié)同工作,相互交流信息,共同完成更復(fù)雜的任務(wù)或目標(biāo)。多agent應(yīng)用場(chǎng)景在軟件行業(yè)開(kāi)發(fā)、智能生產(chǎn)、企業(yè)管理等高度協(xié)同的工作中非常有幫助。比如有一家公司就創(chuàng)建了一個(gè)多Agent系統(tǒng),由Agent來(lái)扮演產(chǎn)品經(jīng)理、UI設(shè)計(jì)師、研發(fā)工程師、測(cè)試人員、項(xiàng)目經(jīng)理等角色,甚至可以接一些實(shí)際的軟件開(kāi)發(fā)任務(wù)。

混合Agent:這種模式中,Agent系統(tǒng)和人類共同參與決策過(guò)程,交互合作完成任務(wù),強(qiáng)調(diào)的是人機(jī)協(xié)作的重要性和互補(bǔ)性。智慧醫(yī)療、智慧城市等專業(yè)領(lǐng)域可以使用混合Agent來(lái)完成復(fù)雜的專業(yè)工作。比如醫(yī)生和AI Agent可以共同進(jìn)行病情診斷,AI Agent負(fù)責(zé)快速分析病人的醫(yī)療記錄、影像資料等,提供初步的診斷建議;而醫(yī)生則可以基于AI Agent的分析結(jié)果和自己的專業(yè)知識(shí)和經(jīng)驗(yàn),做出最終的診斷決定。

1.3.2 按決策制定方式分類

簡(jiǎn)單反射型Agent:基于“如果-那么”規(guī)則直接響應(yīng)當(dāng)前的環(huán)境狀態(tài),不存儲(chǔ)任何歷史數(shù)據(jù)或狀態(tài)。這種Agent設(shè)計(jì)簡(jiǎn)單,反應(yīng)迅速,但適用范圍有限。比如當(dāng)軟件系統(tǒng)發(fā)生告警時(shí),就自動(dòng)向系統(tǒng)維護(hù)人員打電話,就是一個(gè)簡(jiǎn)單反射型Agent。

基于模型的反射型Agent:擁有環(huán)境的內(nèi)部模型,能夠基于對(duì)環(huán)境的理解和過(guò)去的經(jīng)驗(yàn)做出更復(fù)雜的決策。它能夠適應(yīng)環(huán)境變化,處理更復(fù)雜的任務(wù)。比如Nest的智能溫控器,不僅能根據(jù)當(dāng)前溫度調(diào)節(jié)室內(nèi)氣溫,還能學(xué)習(xí)用戶的偏好,就是一個(gè)基于模型的反射型Agent。

基于目標(biāo)的Agent:這類Agent的決策方式,從根本上不同于前面描述的條件-動(dòng)作規(guī)則,因?yàn)樗婕皩?duì)未來(lái)的考慮。比如智能導(dǎo)航軟件,根據(jù)用戶的起點(diǎn)和目標(biāo),結(jié)合交通擁堵?tīng)顩r和用戶的偏好,輸出最佳導(dǎo)航路線。

基于效用的Agent:基于效用的Agent旨在最大化效用功能或價(jià)值,精心挑選具有最高預(yù)期效用的行動(dòng),以衡量結(jié)果的有利程度。比如同樣是導(dǎo)航到達(dá)目標(biāo),有的用戶需要用時(shí)最短,有的用戶需要路費(fèi)最少,那么基于不同的效用,系統(tǒng)就會(huì)給出不同的導(dǎo)航結(jié)果。

學(xué)習(xí)型Agent:這些Agent設(shè)計(jì)用于在未知環(huán)境中運(yùn)行,從自己的經(jīng)歷中學(xué)習(xí),并隨著時(shí)間的推移調(diào)整自己的行動(dòng)。比如AlphaGo就是學(xué)習(xí)型Agent,從不斷的對(duì)弈中進(jìn)行策略調(diào)整。

基于邏輯的Agent:通?;谝幌盗羞壿嬕?guī)則,通過(guò)推理來(lái)解決問(wèn)題,適合需要高度邏輯判斷的場(chǎng)景,例如法律咨詢聊天機(jī)器人。

LLM大模型和這些Agent的關(guān)系就在于,LLM大模型為Agent的后續(xù)行動(dòng)提供了輸入和推理。比如LLM大模型上面接了一個(gè)基于目標(biāo)的Agent,那么這個(gè)Agent就會(huì)從用戶的輸入中,提取用戶的目標(biāo)和要求,再結(jié)合上文提到的子任務(wù)分解、反思和完善等動(dòng)作,逐步完成最終目標(biāo)。

二、5W1H分析框架之Why

2.1 為什么會(huì)產(chǎn)生AI Agent?

為什么會(huì)產(chǎn)生AI Agent(特指LLM Agent)?我們從兩個(gè)方面來(lái)回答這個(gè)問(wèn)題,技術(shù)發(fā)展的局限性,以及人和AI的交互性。

從技術(shù)發(fā)展的局限性來(lái)考慮

在LLM大語(yǔ)言模型出現(xiàn)以前,一般通過(guò)規(guī)則和強(qiáng)化學(xué)習(xí)的方法來(lái)讓機(jī)器智能化的完成一些任務(wù),但是這兩種方法各有弊端。

規(guī)則的方法是指把復(fù)雜的自然語(yǔ)言問(wèn)題轉(zhuǎn)化為規(guī)則符號(hào),往往需要行業(yè)專家的介入,缺乏容錯(cuò)能力,一個(gè)小的錯(cuò)誤就可能導(dǎo)致整個(gè)系統(tǒng)的失敗。

而強(qiáng)化學(xué)習(xí)一般是構(gòu)建策略網(wǎng)絡(luò)或獎(jiǎng)勵(lì)模型,需要大量樣本進(jìn)行訓(xùn)練,但是收集數(shù)據(jù)往往成本很高,所以這種方法可行性不大,很難推廣開(kāi)來(lái)。

LLM大語(yǔ)言模型出現(xiàn)之后,人們發(fā)現(xiàn)LLM大語(yǔ)言模型在邏輯推理、工具應(yīng)用、策略規(guī)劃、指令遵循等方面都有非常不錯(cuò)的表現(xiàn),工程師們開(kāi)始意識(shí)到,將大語(yǔ)言模型作為Agent應(yīng)用的核心認(rèn)知系統(tǒng),可以極大的提高Agent的規(guī)劃能力。

但是LLM大模型畢竟還無(wú)法像人類一樣,擁有更深度的規(guī)劃思考能力、運(yùn)用各種工具與物理世界互動(dòng),以及擁有人類的長(zhǎng)期記憶能力。

在這樣的背景下,出現(xiàn)了非常多的研究方向,來(lái)讓Agent逐漸逼近人類,比如前文提到的COT/TOT/GOT、ReAct、Reflexion等技術(shù),提升Agent的Planning能力;比如通過(guò)RAG增強(qiáng)檢索生成技術(shù),提升Agent的記憶能力;以及ToolFormer、Function Calling等技術(shù),提升Agent的工具使用能力。

從人和AI互動(dòng)的角度來(lái)考慮

從人和AI互動(dòng)的角度,主要經(jīng)歷了三種模式。

最早出現(xiàn)的是Embedding模式,即人類完成大多數(shù)工作,AI只是作為某些單點(diǎn)能力,嵌入在人類完成工作的某些節(jié)點(diǎn)。比如很典型的SaaS+AI模式,像OCR、人臉識(shí)別、語(yǔ)義分析等能力,作為一些提升效率的點(diǎn),嵌入在SaaS軟件里。大多數(shù)的工作,還是通過(guò)人工操作SaaS軟件完成的。

隨著大模型的出現(xiàn),在部分場(chǎng)景下,人類和AI的協(xié)同進(jìn)化到了Copilot模式,即AI作為人類的堅(jiān)實(shí)助手,隨時(shí)輔助人類的工作。比如Notion AI和微軟Copilot,人類在AI的幫助下進(jìn)行寫作,AI隨時(shí)可以進(jìn)行內(nèi)容提示、擴(kuò)充、修改。

而AI Agent模式,則是將人類與AI的協(xié)同進(jìn)化到了新的高度,人類只是提出任務(wù)和目標(biāo),然后由AI自主完成大多數(shù)工作。所以從人和AI互動(dòng)的角度來(lái)看,AI Agent也是AGI發(fā)展過(guò)程中的必經(jīng)之路。

2.2 AI Agent有哪些優(yōu)勢(shì)和局限?

對(duì)于用戶來(lái)講,AI Agent的主要優(yōu)勢(shì)包括:

第一,以任務(wù)為導(dǎo)向。AI Agent脫離了傳統(tǒng)Chatbot那種閑聊的交互模式,能夠彌合語(yǔ)言理解與采取行動(dòng)之間的鴻溝。直接基于用戶輸入中所體現(xiàn)出來(lái)的意圖,自動(dòng)進(jìn)行后續(xù)的推理和行動(dòng),可以大幅提升工作效率。

第二,自然的交互方式。由于AI Agent本身以LLM大語(yǔ)言模型為底座,固有的語(yǔ)言理解和語(yǔ)言生成能力,確保了自然無(wú)縫的用戶交互。

第三,進(jìn)化的決策能力。AI Agent的決策能力依賴于背后的LLM大模型,雖然目前LLM大模型的決策能力還遠(yuǎn)遠(yuǎn)不如人類,但這項(xiàng)能力在持續(xù)不斷的進(jìn)化。

第四,靈活的適應(yīng)性。在RAG和Function Calling等技術(shù)的支撐下,AI Agent可以快速適應(yīng)各種不同的行業(yè)和應(yīng)用場(chǎng)景,并通過(guò)API調(diào)用和外部環(huán)境產(chǎn)生交互。

但是由于LLM大模型本身固有的局限,這種局限也同樣影響了AI Agent。

第一,可靠性不足。眾所周知,LLM大模型容易出現(xiàn)幻覺(jué)和不一致性,將多個(gè)步驟連起來(lái)會(huì)進(jìn)一步加劇可靠性問(wèn)題,從而難以獲得用戶信任。舉個(gè)例子,假設(shè)每個(gè)步驟LLM的可靠性是95%,如果一個(gè)任務(wù)需要被分解到5步以上,那么最終的可靠性將不到80%,這會(huì)大大限制AI Agent在一些Critical場(chǎng)景下的應(yīng)用。

第二,法律問(wèn)題。對(duì)于企業(yè)對(duì)外輸出的AI Agent,企業(yè)可能要對(duì)其產(chǎn)生的錯(cuò)誤負(fù)責(zé)。比如,最近一位客戶因?yàn)楸患幽么蠛娇展镜牧奶鞕C(jī)器人誤導(dǎo)而延誤航班,最終由加拿大航空予以賠償。

第三,性能和成本。GPT-4、Gemini-1.5在推理和function calling的表現(xiàn)不錯(cuò),但仍然較慢且成本高,特別是需要進(jìn)行循環(huán)調(diào)用和自動(dòng)重試時(shí)。

對(duì)于AI Agent可靠性的問(wèn)題,其中一個(gè)解決方案是Agentic Workflow,即借助人工經(jīng)驗(yàn)進(jìn)行任務(wù)分解、配置執(zhí)行任務(wù)。AI Agent在整個(gè)workflow中,更多起到意圖識(shí)別、檢索、歸納、分類的作用。

比如通過(guò)workflow創(chuàng)建一個(gè)輸出財(cái)務(wù)分析報(bào)表的AI Agent,由人類告訴AI Agent,當(dāng)接收到分析某家公司的財(cái)務(wù)報(bào)表時(shí),先去某財(cái)務(wù)網(wǎng)站搜索該公司的財(cái)務(wù)報(bào)表,然后下載報(bào)表數(shù)據(jù)進(jìn)行本地化存儲(chǔ),再提取特定字段的數(shù)據(jù)進(jìn)行計(jì)算和同比,最后再以自然語(yǔ)言的方式輸出財(cái)務(wù)分析報(bào)告。

對(duì)于Agentic Workflow,后面風(fēng)叔將專門用一篇文章進(jìn)行介紹。

2.3 企業(yè)和個(gè)人為什么要關(guān)注AI Agent?

企業(yè)用戶通常面臨更加復(fù)雜的業(yè)務(wù)需求,有更明確的業(yè)務(wù)場(chǎng)景、業(yè)務(wù)邏輯以及更多行業(yè)數(shù)據(jù)和行業(yè)知識(shí)的積累,非常適配 Agent 自主性、決策與執(zhí)行、工具使用等特點(diǎn),這讓企業(yè)端領(lǐng)域成為 Agent 施展能力的絕佳舞臺(tái)。

同時(shí),AI Agent可以用工程化的思想對(duì)抗個(gè)體工作的不確定性,過(guò)往的SOP、PDCA、OKR等管理方法可以與AI Agent進(jìn)行適配,完成管理工作的科學(xué)升級(jí)。

因此,企業(yè)需要關(guān)注AI Agent,結(jié)合企業(yè)所在的行業(yè)特點(diǎn)以及自身的業(yè)務(wù)屬性,通過(guò)AI Agent提升業(yè)務(wù)效率。在企業(yè)的供應(yīng)鏈、產(chǎn)品研發(fā)、市場(chǎng)營(yíng)銷、內(nèi)部辦公等環(huán)節(jié),AI Agent都有非常多的應(yīng)用場(chǎng)景。

比如在供應(yīng)鏈環(huán)節(jié),AI Agent可以應(yīng)用在智能配補(bǔ)貨、原料自動(dòng)下單、庫(kù)存優(yōu)化、供應(yīng)商協(xié)同、合同自動(dòng)審查等場(chǎng)景。在產(chǎn)品研發(fā)環(huán)節(jié),AI Agent可以應(yīng)用在產(chǎn)品成分分析、新品研發(fā)建議、產(chǎn)品設(shè)計(jì)出圖等場(chǎng)景。在市場(chǎng)營(yíng)銷環(huán)節(jié),AI Agent可以用于智能客服、精準(zhǔn)推薦、營(yíng)銷創(chuàng)意制作、廣告智能投放等場(chǎng)景。

我們?cè)賮?lái)看AI Agent對(duì)于個(gè)人的影響。雖然到目前為止,面向C端用戶,市場(chǎng)上還沒(méi)有出現(xiàn)killer級(jí)的C端應(yīng)用,包括 OpenAI 的 GPTs,其實(shí)只是用于特定知識(shí)庫(kù)或數(shù)據(jù)的 Chatbot。但是從AI的長(zhǎng)期發(fā)展趨勢(shì)來(lái)看,AI Agent一定會(huì)在越來(lái)越多的場(chǎng)景進(jìn)行滲透。

同時(shí),個(gè)人作為企業(yè)端的工作者,AIAgent對(duì)個(gè)人在工作效率上帶來(lái)的提升,也是顯而易見(jiàn)的。利用AI Agent武裝自己,讓工作和學(xué)習(xí)效率更上一級(jí)臺(tái)階。

對(duì)于個(gè)人來(lái)講,未來(lái)可能只有兩種人,驅(qū)動(dòng)Agent的人,和被Agent驅(qū)動(dòng)的人。

總結(jié)

本篇文章是使用5W1H分析框架拆解AI Agent的上篇,圍繞What和Why,詳細(xì)闡述了AI Agent的概念、構(gòu)成、分類、產(chǎn)生原因、優(yōu)勢(shì)劣勢(shì)、以及對(duì)企業(yè)和個(gè)人的影響。

在下一篇文章中,風(fēng)叔將圍繞When、Who和Where,詳細(xì)介紹AI Agent的發(fā)展歷程、行業(yè)玩家和具體應(yīng)用場(chǎng)景。

作者:風(fēng)叔,微信公眾號(hào):風(fēng)叔云

本文由@風(fēng)叔 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!