智能體:第二波浪潮已至

0 評論 1148 瀏覽 1 收藏 10 分鐘

隨著人工智能技術的飛速發(fā)展,我們正迎來智能體的第二波浪潮。這些新一代的智能體,由大型語言模型(LLM)驅動,不僅在理解力和自主性上遠超早期的語音助手如Siri和Alexa,而且能夠執(zhí)行更復雜的任務,展現出前所未有的能力。本文將探討智能體的演變,從早期的規(guī)則驅動聊天機器人到如今能夠進行推理、決策并調動工具完成任務的LLM-based Agent,以及這些進步如何預示著AI領域的新飛躍。

大型語言模型 (LLM) 正在催生新一代的智能體,它們遠比 Siri 或 Alexa 更強大、更自主。

大模型猶如電力般賦能企業(yè),并開始成為每個人的新助手。

但是和電力不同的是,燈泡才是真正讓電力被普通人所接受的“殺手級應用”,那么,大模型的殺手級應用在哪里?許多人都認為是“智能體(Agent)”。

這里,我們說的智能體就是一個能感知環(huán)境,基于需求進行推理、決策,進而調動各類工具來完成特定任務的系統(tǒng)——最直接能想到的,可能就是《鋼鐵俠》中的管家“賈維斯(Jarvis)”。

智能體的第一波浪潮

智能體這個詞早在計算機科學(Computer Science)領域出現很多年了,但是,它真正出現在普羅大眾面前,其實是各類“聊天機器人”(Chatbot),比如蘋果的 Siri、亞馬遜的 Alexa 等等。

這類聊天機器人最大的特點就是常常被稱為“人工智障”。原因很簡單:它們是規(guī)則(rule-based)或命令驅動的,如果它沒接收過某個規(guī)則/命令,就無能為力了。

因此,此類智能體的能力通常僅限于特定的、明確的任務,比如設定鬧鐘、播放音樂、開啟窗簾等等。

它們看似能聽懂你的命令,其實理解依然是淺層的。對于復雜、多步驟的命令,或者需要特定背景知識、甚至需要推理的任務,基本就無能為力了。

因此,這一代智能體幾乎沒有自主性,完全是被動接受用戶指令,根本不可能主動為用戶進行規(guī)劃、制定策略,或者執(zhí)行超過其預設功能范圍的復雜任務。貳

智能體的第二波浪潮:大語言模型

轉折點出現在 2022 年 11 月,OpenAI 推出了 GPT-3.5。這是一種可以和人類進行對話的大語言模型,盡管其內容有時可能充滿幻覺。

這些大語言模型在理解和生成類似人類的文本方面表現出了非凡的能力。它們不僅能處理語言,還能進行一定程度的推理、總結信息、翻譯,甚至編寫代碼——這就為智能體的第二波浪潮奠定了基礎。

因此,這一代智能體被稱作“基于大語言模型的智能體(LLM-based Agent)”。

所以,不同點到底在哪?

兩代智能體之間的天差地別首先來自大模型本身:

大模型可以更好地進行用戶意圖識別,接受更復雜的指令(例如,“幫我規(guī)劃一個十一假期去五臺山的行程”),并將其拆分為一系列子任務。

更重要的是,在拆分后,大模型可以調用相關的工具、API 來完成對應任務,例如閱讀網頁、總結攻略、查閱航班信息、預訂酒店機票等。

換句話說,智能體出現了自主性,可以在僅需人類少量干預的情況下完成任務。比如Auto-GPT、BabyAGI 等框架都展現了相關的潛力——雖然它們各有各的問題。

此外,一些 Agent 甚至可以基于用戶的反饋和既往交流歷史(即“記憶”)來學習用戶的偏好,并隨著交互的增加而展現出更強大的能力。

由此,我們會發(fā)現,基于大模型的智能體真正有可能帶來效率和生產力的提升,去處理復雜的、多步驟的任務:例如一位外貿企業(yè)的外經理需要尋找潛在客戶企業(yè),找到關鍵聯系人的聯系方式(通常是郵箱或社交媒體),撰寫開發(fā)信,甚至進行詢盤與商務談判。這一過程正在一步步被智能體替代。叁智能體的第二波浪潮:兩大方向

從實踐來看,當前的第二波智能體主要有兩種模式:第一類是基于工作流(Workflow)的,這也是最常見的模式;第二類是有自主決策能力的智能體,常常被稱為“Agentic”。

對于工作流型的智能體,其背后本質上是人類明確的先驗知識。例如,對于企業(yè)中簽署合同的場景,存在明確的審核流程,只要我們將既有流程嵌入智能體,讓每個步驟根據需求(主要考量包括模型能力、成本和響應速度等)去調用不同的大模型,并與不同的節(jié)點進行連接。

本質上,這是一個典型的 AI 工程(AI Engineering)問題,可以視為傳統(tǒng) RPA 的升級版。而且,這類智能體非常擅長特定的工作,即在特定場景下為人類減負甚至替代人工——但是,通常而言,需要加強人類和 AI 之間的協作來保證最終結果。

對于 Agentic 型的智能體,它們也會有一定的工作流作為背景知識,并且調用各類工具、API。但是,它們常??梢蕴幚砀鼮閺碗s的問題:不僅能自動化任務,還能自主規(guī)劃并采取行動以實現更廣泛目標的系統(tǒng),比如可以將沒見過的問題直接拆解為各個步驟,然后調用工具或進一步分解子問題來解決每一個步驟。

現在,國外 OpenAI 的ChatGPT、Google 的 Gemini、xAI 的 Grok,以及國內的Genspark、Manus等推出的深度研究(Deep Research)功能,本質上就是一種 Agentic 模式。它根據用戶的指令,與用戶進行對話以明確相關細節(jié)后,對問題進行拆分、檢索信息(如閱讀網頁),最終總結生成深度報告——其工作流本質是“發(fā)現→決策→執(zhí)行→學習→發(fā)現”的無限循環(huán),大模型的推理能力背后的核心能力。

目前,這種具備自主決策能力的智能體也已經開始出現在創(chuàng)業(yè)公司的服務中:

總部位于美國舊金山的 HappyRobot 是一家專注于物流行業(yè)溝通自動化的 AI 創(chuàng)業(yè)公司。作為 Y Combinator S23 批次畢業(yè)的項目并獲得 Andreessen Horowitz 領投的 A 輪融資,HappyRobot 開發(fā)了“Agentic AI”平臺,通過 AI 虛擬工作者來替代人工完成大量物流溝通任務。

在 HappyRobot 的應用場景中,這些智能體不僅能進行對話響應,還能根據預設目標自動采取行動。例如,當 AI 座席致電一位承運商詢問報價時,如果對方報價高于標準,AI 可以自主依據規(guī)則進行二次議價,或者決定聯系另一家承運商獲取報價。再如,AI 在與司機溝通過程中得知貨物延遲,它可以觸發(fā)通知,讓收貨倉庫重新安排卸貨時間。

這些功能要求 AI 具備一定的規(guī)劃和執(zhí)行能力,而非純粹的被動問答。

結語

毫無疑問,我們正處在一個激動人心的時刻。由大型語言模型驅動的第二波智能體代表著 AI 領域的新飛躍:它們遠超第一代語音助手的有限能力,已經開始展現前所未有的自主性、理解力和問題解決能力。智能體的第二波浪潮才剛剛拍打海岸,這一切才剛剛開始。

本文由人人都是產品經理作者【零售威觀察】,微信公眾號:【零售威觀察】,原創(chuàng)/授權 發(fā)布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!