你需要的不是智能體,而是工作流
在AI技術(shù)飛速發(fā)展的今天,智能體(AI Agent)的概念備受關(guān)注,被一些人視為解決復(fù)雜問(wèn)題的萬(wàn)能鑰匙。然而,智能體并非萬(wàn)能,其應(yīng)用需要結(jié)合實(shí)際問(wèn)題和工作流程設(shè)計(jì)。本文深入探討了智能體的實(shí)質(zhì)和如何設(shè)計(jì)適合AI的工作流,以實(shí)現(xiàn)問(wèn)題的有效解決。
現(xiàn)在 AI 智能體(AI Agent)的概念很火,似乎智能體是用 AI 解決問(wèn)題的銀彈,有了智能體就可以解決很多問(wèn)題。但也有很多人有不同意見(jiàn),認(rèn)為智能體不過(guò)是噱頭,并沒(méi)有看到靠譜的應(yīng)用場(chǎng)景。
一個(gè)被提及很多的是吳恩達(dá)老師寫(xiě)的多智能體翻譯的例子,簡(jiǎn)單來(lái)說(shuō)就是用三個(gè)智能體:一個(gè)直譯智能體、一個(gè)審查智能體、一個(gè)意譯潤(rùn)色智能體,確實(shí)可以大幅提升翻譯質(zhì)量。但并非一定要三個(gè)智能體才能提升翻譯質(zhì)量,我以前也提出過(guò)基于 Prompt 的翻譯方法,讓 LLM 在翻譯時(shí),使用直譯 + 反思 + 意譯三個(gè)步驟輸出,也可以得到高質(zhì)量的翻譯結(jié)果。
本質(zhì)上,使用大語(yǔ)言模型(LLM)來(lái)解決問(wèn)題,思維鏈(COT, Chain of Thought)是一種有效提升生成質(zhì)量的方法,也就是說(shuō),之所以翻譯質(zhì)量能提升,不是因?yàn)橛辛酥悄荏w,而是因?yàn)橛辛怂季S鏈。至于思維鏈的每個(gè)環(huán)節(jié)是用一個(gè)獨(dú)立的智能體,還是輸出的一個(gè)步驟,并沒(méi)有太本質(zhì)的差別。
其實(shí)大部分 AI 應(yīng)用場(chǎng)景都類(lèi)似:要用 AI 解決問(wèn)題,核心不在于智能體,而在于設(shè)計(jì)出一個(gè)適合 AI 的工作流。
那么怎么才能設(shè)計(jì)一個(gè)適合 AI 的工作流呢?我認(rèn)為有幾個(gè)因素需要考慮:
一、不要局限于人類(lèi)現(xiàn)有方案
有時(shí)候我們過(guò)于將 AI 擬人化,會(huì)不自覺(jué)的用人類(lèi)解決問(wèn)題的方式來(lái)套用在 AI 上,有時(shí)候確實(shí)有效,但很多時(shí)候并不一定是最優(yōu)解。就像專(zhuān)業(yè)的翻譯員,他們并不需要直譯反思意譯三個(gè)步驟,他們可以一步到位,直接輸出高質(zhì)量的翻譯結(jié)果,所以最開(kāi)始讓 AI 翻譯,Prompt 都是直接一步輸出翻譯結(jié)果,而不是分步驟輸出,結(jié)果翻譯出來(lái)的比較生硬。而當(dāng)我們發(fā)現(xiàn)思維鏈?zhǔn)谴笳Z(yǔ)言模型的一種有效提升方法后,就可以設(shè)計(jì)出更適合 AI 的工作流,分成幾步來(lái)解決問(wèn)題。
包括我看到一些智能體項(xiàng)目,嘗試模擬人類(lèi)軟件開(kāi)發(fā)的分工,使用項(xiàng)目經(jīng)理、產(chǎn)品經(jīng)理、架構(gòu)師、程序員、測(cè)試等等智能體角色去嘗試解決復(fù)雜的軟件項(xiàng)目,同樣也是一個(gè)過(guò)于擬人化而不一定適合 AI 解決問(wèn)題的思路,所以也只能出現(xiàn)在論文中,而無(wú)法在實(shí)際項(xiàng)目中落地。相反像 GitHub Copilot 這樣輔助生成代碼的工具倒是真正適合當(dāng)前 AI 編程的工作流,能實(shí)實(shí)在在提升開(kāi)發(fā)效率。
二、不必完全依賴(lài) AI 做決策
去年有一個(gè)超級(jí)火爆的項(xiàng)目叫 AutoGPT,就是你輸入一個(gè)任務(wù),GPT-4 會(huì)將任務(wù)分解,制定計(jì)劃,調(diào)用外部工具,比如 Google 搜索,甚至執(zhí)行代碼,最終完成任務(wù)。這也算是 AI 智能體的先驅(qū)項(xiàng)目之一,但現(xiàn)在已經(jīng)很少有人提及了,因?yàn)橐袁F(xiàn)在 AI 的智能程度,還不足以對(duì)開(kāi)放性的任務(wù)做出靠譜的決策,最終除了幫 OpenAI 賣(mài)了大量的 Token 外,并沒(méi)有解決什么實(shí)際問(wèn)題。所以現(xiàn)在 AI 應(yīng)用的主流是把 AI 當(dāng)“副駕駛(Copilot)”,只是讓 AI 輔助人類(lèi)完成任務(wù),主要還是人在做決策。
另外就是自己設(shè)計(jì)工作流,讓 AI 在工作流中完成一部分工作,并不過(guò)于依賴(lài) AI 做決策,或者只需要做簡(jiǎn)單的決策。比如說(shuō)商家借助 AI 處理差評(píng)的工作流:
- 程序抓取評(píng)論信息
- AI 分析每一條評(píng)論的情感,篩選出差評(píng)
- AI 生成回復(fù)(可能需要人工審核)
這是一個(gè)典型的設(shè)計(jì)好流程的適合 AI 的工作流,AI 只需要做簡(jiǎn)單的情感分析和回復(fù)生成,而不需要做復(fù)雜的決策,這樣的工作流可以很好的提升效率,并且結(jié)果也相對(duì)靠譜。
三、可以結(jié)合多種 AI或工具
去年起 AI 大熱,一個(gè)很重要的原因是大語(yǔ)言模型的出現(xiàn),這些模型一方面確實(shí)能力強(qiáng)大,有一定的通用性,有簡(jiǎn)單的推理能力,另一方面使用也簡(jiǎn)單,無(wú)論是通過(guò)聊天機(jī)器人,還是通過(guò) API 調(diào)用,都能很方便的使用。即使像我這樣不是人工智能專(zhuān)業(yè)的人,也能很容易的使用這些模型。而在以前,人工智能相對(duì)來(lái)說(shuō)是個(gè)高門(mén)檻的領(lǐng)域,需要篩選數(shù)據(jù)、需要訓(xùn)練,還需要調(diào)參,對(duì)于非專(zhuān)業(yè)人士來(lái)說(shuō)是很難使用的。
但這也導(dǎo)致一個(gè)問(wèn)題,就是很多解決方案過(guò)于依賴(lài)大語(yǔ)言模型,而不知道或者不會(huì)使用其他領(lǐng)域的 AI 模型,但當(dāng)你能夠根據(jù)任務(wù),將不同領(lǐng)域的 AI 模型或者工具結(jié)合起來(lái),設(shè)計(jì)出合適的工作流,就能夠得到更好的解決方案。
四、回歸問(wèn)題本質(zhì),AI 只是錘子
上面提的幾點(diǎn)都是容易犯的一些錯(cuò)誤,之所以容易犯這些錯(cuò)誤,恰恰是因?yàn)槲覀冇袝r(shí)候過(guò)于關(guān)注一些流行的概念或技術(shù),而忽略了要解決的根本問(wèn)題是什么,將 AI 變成了目的而不是手段。如果你有了解馬斯克的第一性原理思維,其強(qiáng)調(diào)的就是回歸事物最基本的條件,把其解構(gòu)成各種要素進(jìn)行分析,從而找到實(shí)現(xiàn)目標(biāo)最優(yōu)路徑的方法。
而運(yùn)用第一性原理通常有三個(gè)步驟:
第 1 步:定義清楚你要解決的根本問(wèn)題。
第 2 步:拆解問(wèn)題。
第 3 步:從頭開(kāi)始創(chuàng)建解決方案。
而這也個(gè)思路也適用于我們?nèi)ソ柚?AI 解決問(wèn)題,設(shè)計(jì)出適合 AI 的工作流。
舉兩個(gè)設(shè)計(jì)合適 AI 工作流解決問(wèn)題的例子
一個(gè)例子是 PDF 轉(zhuǎn) Markdown。
做過(guò) PDF 翻譯的有經(jīng)驗(yàn),要得到好的翻譯結(jié)果,將 PDF 的內(nèi)容整理成 Markdown,再讓大語(yǔ)言翻譯,效果是相當(dāng)好的。但這個(gè)不好做,因?yàn)?PDF 是用來(lái)打印的格式,并不是結(jié)構(gòu)化的數(shù)據(jù),很難直接提取成 Markdown,再加上各種圖表、表格等,更是復(fù)雜。
最近看到一個(gè)項(xiàng)目叫 PDFGPT,它就做的很巧秒,本質(zhì)上是基于 GPT-4o 和 PyMuPDF 設(shè)計(jì)了一個(gè)工作流:
用一個(gè) PDF 操作庫(kù) PyMuPDF 檢測(cè) PDF 中的圖片、圖表、表格等,提取成圖片并保存
每一頁(yè) PDF 生成一張圖片,將圖片、圖表、表格等位置用紅框標(biāo)記出來(lái),并附上對(duì)應(yīng)的圖片名稱(chēng)
借助 GPT-4o 的視覺(jué)能力,解析標(biāo)注后的圖片,生成對(duì)應(yīng)的 Markdown
如果你純粹依賴(lài)大語(yǔ)言模型,恐怕無(wú)法完成這樣的任務(wù),一方面受限于上下文窗口的長(zhǎng)度限制,一次無(wú)法處理多頁(yè) PDF,另一方面對(duì)于圖片、圖表、表格等內(nèi)容無(wú)法嵌入 Markdown 中。如果結(jié)合 PyMuPDF 這樣的庫(kù)和一個(gè)簡(jiǎn)單的工作流,就可以方便的實(shí)現(xiàn) PDF 轉(zhuǎn) Markdown,生成的結(jié)果也挺不錯(cuò)。
另一個(gè)例子是漫畫(huà)的翻譯。
有很多那種氣泡文字的漫畫(huà),如果要翻譯成其他語(yǔ)言,就需要將氣泡文字提取出來(lái),翻譯后再放回去。漫畫(huà)翻譯的難點(diǎn)在于:
因?yàn)槁?huà)的氣泡文字位置不固定,有時(shí)候還會(huì)有重疊,不好提??;
翻譯的時(shí)候,如果只是把提取出來(lái)的文字按字面翻譯,但不知道當(dāng)前畫(huà)面的內(nèi)容,翻譯的結(jié)果可能會(huì)不通順;
翻譯后要對(duì)圖片進(jìn)行處理,抹掉原來(lái)的文字,將翻譯后的文字放回到原來(lái)的位置。
如果人工做會(huì)怎么做?可能是讀懂漫畫(huà),翻譯,然后用 Photoshop 這個(gè)樣的工具抹掉原來(lái)的文字,再放上翻譯后的文字??梢韵胂筮@樣的工作量還是不小的。
有一個(gè)開(kāi)源項(xiàng)目 comic-translate,就做的很好,它也是設(shè)計(jì)了一個(gè)適合漫畫(huà)翻譯的工作流:
用一個(gè)專(zhuān)業(yè)模型做氣泡檢測(cè),找出文字氣泡的位置
用 OCR 做氣泡內(nèi)文字的提取
用一個(gè)專(zhuān)業(yè)模型移除氣泡內(nèi)的文字
借助 GPT-4o 的視覺(jué)能力,根據(jù)漫畫(huà)內(nèi)容,翻譯氣泡內(nèi)的文字
用程序?qū)⒎g后的文字繪制到原來(lái)的氣泡位置
如果不考慮翻譯質(zhì)量的話,這幾乎是一個(gè)全自動(dòng)的工作流,效率相當(dāng)高,成本也很低,最貴的部分是 GPT-4o 的 API,一頁(yè)也才 $0.02 左右。就算加上人工審核對(duì)翻譯結(jié)果和圖片生成結(jié)果的處理,也是能比以前的人工翻譯效率高很多。
從上面的例子可以看出,真正要用好 AI,讓 AI 發(fā)揮最大效能,核心是還是要基于你要解決的問(wèn)題,重新設(shè)計(jì)一個(gè)適合 AI 的工作流,讓 AI 在工作流中完成它最擅長(zhǎng)的工作,至于是不是智能體,是不是大語(yǔ)言模型,是不是 AI 幫你決策,都不是最重要的。
本文由人人都是產(chǎn)品經(jīng)理作者【賽博禪心】,微信公眾號(hào):【賽博禪心】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!