掀起人工智能新浪潮的OpenAI,看上了ChatGPT之外另一條賽道
在科幻劇《西部世界》中,在龐大的高科技主題樂園中,模擬真人設(shè)計(jì)的機(jī)器人可以像人類一樣行事、擁有記憶、可以和其他機(jī)器人交互……在8月份,斯坦福開源了一個(gè)名為Smallville 的“虛擬小鎮(zhèn)”,25個(gè) AI Agents(AI智能體)在小鎮(zhèn)上工作生活,每個(gè)“人”有自己的性格,也能和其他“人”交談、并能結(jié)識(shí)新朋友。
斯坦福小鎮(zhèn)中的AI Agents并不是一個(gè)新鮮的研究課題,只是之前該領(lǐng)域的研究通常集中在孤立環(huán)境中、通過有限的知識(shí)來進(jìn)行訓(xùn)練,這與人類的學(xué)習(xí)過程有了很大的差異。然而,大語言模型(LLM)的出現(xiàn),給這個(gè)領(lǐng)域的研究帶來了新的曙光,這也重新掀起了基于LLM的自主AI Agents的研究熱潮。
OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy在一場(chǎng)開發(fā)者線下活動(dòng)中表示,如果一篇論文提出了某種不同的模型訓(xùn)練方法,OpenAI內(nèi)部都會(huì)嗤之以鼻,但是當(dāng)新的AI Agents論文出來的時(shí)候,他們會(huì)認(rèn)真興奮地討論。
OpenAI AI的應(yīng)用研究主管Lilian Weng發(fā)布了一篇關(guān)于AI Agents的萬字長(zhǎng)文:《大語言模型(LLM)支持的自主代理》引起了行業(yè)的熱議,在文章中,她清晰地定義了基于LLM構(gòu)建AI Agents的應(yīng)用框架:Agent=LLM(大型語言模型)+記憶(Memory)+規(guī)劃技能(Planning)+工具使用(Tool Use),其中,LLM是智能體的大腦,而其它幾個(gè)部分,是關(guān)鍵的組件。
以上被熱議的這種智能體,可以被稱為Autonomous AI Agent(完全自主的智能體),它就像是擁有“記憶”一樣,能夠記住在訓(xùn)練中學(xué)習(xí)到的東西。此外,LLM可自主學(xué)習(xí)調(diào)用外部API來獲取模型權(quán)重中缺失的額外信息,包括當(dāng)前信息、代碼執(zhí)行能力、對(duì)專有信息源的訪問等。
它可以將大型任務(wù)分解為更小的、可管理的子目標(biāo),從而能夠有效處理復(fù)雜的任務(wù)。它還可以對(duì)過去的行為進(jìn)行自我批評(píng)和自我反思,從錯(cuò)誤中吸取教訓(xùn),并針對(duì)未來的步驟進(jìn)行完善,從而提高最終結(jié)果的質(zhì)量。
但是,這類智能體在目前存在致命缺陷,比如,由于以LLM作為“大腦”,智能體依賴自然語言作為L(zhǎng)LM和記憶、工具等關(guān)鍵組件的接口,模型輸出的可靠性是有問題的,大語言模型存在的“幻覺”,也都會(huì)在自主AI智能體存在。另外還有一些技術(shù)實(shí)現(xiàn)方向的困難:比如上下文長(zhǎng)度受限制;很難完成長(zhǎng)期規(guī)劃和復(fù)雜任務(wù)的分解等。
這就造成了雖然Autonomous AI Agents被寄予厚望,但是在實(shí)際應(yīng)用中,有很多硬傷,這也造成大火的Agents,在很多場(chǎng)景中,是完全不能被使用的。究竟應(yīng)該如何看待AI Agents的前景,騰訊科技深度對(duì)談了兩位深度實(shí)踐AI Agents的創(chuàng)始人:MRS.ai 創(chuàng)始人/CEO Mingke,他在AI Agents領(lǐng)域有五年以上的研發(fā)經(jīng)驗(yàn),目前所進(jìn)行的項(xiàng)目也是以AI Agents為核心,項(xiàng)目正處于保密階段;另外一位是MoPaas魔泊云創(chuàng)始人/CEO 魯為民博士,在AI技術(shù)和工程領(lǐng)域有超過二十年的經(jīng)驗(yàn)。
AI Agents似乎正在成為ChatGPT之后的又一個(gè)關(guān)注焦點(diǎn),從行業(yè)實(shí)踐來看,實(shí)用意義何在?未來應(yīng)用前景何在?到底是一場(chǎng)正在進(jìn)行的人類通往AGI的美好夢(mèng)境,還是已經(jīng)在重塑某些行業(yè)??jī)晌恍袠I(yè)老兵提出了自己的冷靜思考,除了最讓人激動(dòng)的Autonomous AI Agents,另外一種Autopilot AI Agents的潛力,可能正在被市場(chǎng)低估。
核心觀點(diǎn)
●AI Agents不是新鮮事兒,今天我們看到的新鮮部分主要是如斯坦福小鎮(zhèn)中所看到的Autonomous AI Agent(全自主行動(dòng)的人工智能體)。但是以大語言模型為底座的Autonomous AI Agent有很多目前無法避免的缺陷,讓這種智能體的應(yīng)用受到很大限制。
●LLM可被理解為通用邏輯模擬器,即用概率對(duì)邏輯推理的結(jié)果用低維表達(dá),而非真正(人類習(xí)慣的符號(hào)化)邏輯推理過程的執(zhí)行。任何由LLM做核心驅(qū)動(dòng)的Agent,都無法承載復(fù)實(shí)際雜業(yè)務(wù)邏輯的設(shè)計(jì)與執(zhí)行。
●除了Autonomous Agent,還有Non-Autonomous Agent, 其中包括AutoPilot Agent 和Copilot Agent。LLM對(duì)后兩類的幫助很大,但僅靠LLM也遠(yuǎn)不夠完成企業(yè)級(jí)服務(wù)。
●光靠語言模型的改進(jìn)可能不足以通過大模型驅(qū)動(dòng)這條路徑來實(shí)現(xiàn)理想的自主智能體(Autonomous Agents),智能體引擎的反饋控制邏輯設(shè)計(jì)可能同樣重要,甚至更為關(guān)鍵。
●我們可以參考自動(dòng)駕駛中的分級(jí)策略,循序漸進(jìn)從簡(jiǎn)單到復(fù)雜逐步實(shí)現(xiàn)高級(jí)別的 AI Agents,不斷逼近Autonomous Agents的理想目標(biāo);另外分級(jí)科學(xué)管理AI Agents,也可以更好應(yīng)對(duì)其潛在風(fēng)險(xiǎn),充分發(fā)揮它的應(yīng)用潛力。
以下為對(duì)話全文(全文較長(zhǎng),但是信息量很大,建議收藏閱讀):
騰訊科技:究竟如何定義AI Agents?
Mingke:Agents并不是一個(gè)新鮮的概念,以我自己為例,在5年前我們就用小模型來做Agent框架的商用落地了。所謂Agent框架的起源在更早期還可以追溯到六七十年代,來自更早一批做認(rèn)知科學(xué)和人工智能交叉學(xué)科領(lǐng)域的前沿的研究者,像明斯基(Marvin Lee Minsky )。他們?cè)谀莻€(gè)年代就已經(jīng)對(duì)Agent的框架提出了關(guān)鍵的module,包括感知、計(jì)劃、行為等。
在我看來,可以把Agents分成兩類,一類是Autonomous,它具備完全自治的能力也就是目標(biāo)理解,規(guī)劃、執(zhí)行和反饋迭代都自主完成;另一類是Non-Autonomous Agent, 它不具備完全自治能力,而這些非自治的Agent又可以分為Autopilot Agent(人做規(guī)劃,Agent做執(zhí)行) 和Copilot Agent(基于特定的軟件,人做指令,Agent做面向軟件的操作),這些Agent追求的是高可控的自動(dòng)執(zhí)行既定邏輯。
目前比較火的,主要還是由LLM的火爆而衍生出來的能夠“自治”的Autonomous Agent。它讓人感覺很神奇在于:你只需要給出一個(gè)目標(biāo),它就可以自己解析目標(biāo),并分角色執(zhí)行計(jì)劃,最后可能帶來一個(gè)看起來完整的結(jié)果。
這些不同的Agents之間可能形成的互動(dòng),其實(shí)也是跟1986年左右明斯基提出的理論:“Society of mind, 即人的大腦里面是有多個(gè)不同的Agents在互相討論”,是同源的道理。只是現(xiàn)在因?yàn)長(zhǎng)LM(大語言模型)的出現(xiàn),它賦予了當(dāng)前開發(fā)者更多的能力,可以用更低成本對(duì)Agent框架進(jìn)行實(shí)現(xiàn)。
LLM根據(jù)常識(shí),對(duì)不同的角色的理解產(chǎn)生不同的分工,然后根據(jù)LLM對(duì)這些角色的理解來生成不同的計(jì)劃,然后再由LLM去執(zhí)行,最后由LLM去表征這些Agent互動(dòng)之后的結(jié)果,于是我們就看見斯坦福小鎮(zhèn)這樣的效果。
魯為民:剛剛Mingke是從認(rèn)知科學(xué)角度來看智能體。但是從其他角度來看,Agents的概念早在四十年代就開始討論。馮·諾依曼在1944年提出了博弈論,主要解決的是智能體之間的策略學(xué)習(xí)的問題,這里的關(guān)鍵概念是“學(xué)習(xí)”,而“智能體是具有智能的生命體”,像人一樣。
到了1948年,維納開創(chuàng)了控制論這個(gè)學(xué)科,主要討論動(dòng)物智能和機(jī)器智能之間的通信和控制問題??刂普摰年P(guān)鍵概念是“反饋”,智能體是通過動(dòng)態(tài)反饋來學(xué)習(xí)環(huán)境及其變化,以及智能體怎么與環(huán)境相互適應(yīng)?,F(xiàn)在我們聽得比較多的強(qiáng)化學(xué)習(xí),實(shí)際也起源于控制論——它是智能體的控制系統(tǒng),強(qiáng)化學(xué)習(xí)通過反饋來學(xué)習(xí)智能體的策略并作用于環(huán)境。另外,維納當(dāng)時(shí)提出控制論的時(shí)候,也指出語言是人和機(jī)器共有的東西,這也闡明智能與語言的緊密關(guān)系,也可解釋為什么當(dāng)今大模型AI應(yīng)用很自然地從語言模型切入。
我們可以狹義地定義智能體為根據(jù)設(shè)定的目標(biāo)來自主達(dá)成目標(biāo)的代理,因?yàn)橹悄荏w這個(gè)詞本身,有動(dòng)作執(zhí)行的概念,它通過對(duì)環(huán)境的作用來影響環(huán)境,使得智能體自己和環(huán)境相互適應(yīng)。另外,智能體現(xiàn)在有各種各樣地定義,大多數(shù)人討論的實(shí)際上是所謂自主智能體(Autonomous Agents),即任意給出一個(gè)目標(biāo),智能體自主去學(xué)習(xí)執(zhí)行完成。這個(gè)要求是比較高的,因?yàn)檫@里強(qiáng)調(diào)目標(biāo)可以任意給定,讓智能體自主學(xué)習(xí)理解執(zhí)行。最后強(qiáng)調(diào)一點(diǎn),智能體除了本身以外,是離不開它的工作環(huán)境的,智能體動(dòng)作執(zhí)行都是與環(huán)境交互來進(jìn)行的,這一點(diǎn)在我們接下來討論時(shí)候會(huì)涉及到。
騰訊科技:從兩位剛才的介紹中,我們知道AI智能體這個(gè)概念其實(shí)并不是一個(gè)新概念,LLM(大語言模型)對(duì)AI智能體的發(fā)展到底起到了什么樣的推動(dòng)的作用?
魯為民:最近智能體的火爆,確實(shí)得益于大模型的爆發(fā)。在討論這個(gè)問題之前,我覺有必要先看看大模型和智能體的關(guān)系,究竟大模型給智能體賦予了哪方面的能力?我們前面提到,智能體離不開智能體本身的環(huán)境,所以我們的討論可以從智能體本身和其環(huán)境兩方面來進(jìn)行。
首先,大模型作為智能體。大模型本身已經(jīng)呈現(xiàn)出色的智能和自主性,也具備相應(yīng)的理解、推理、規(guī)劃、決策和行動(dòng)能力,所以大模型本身也可以作為智能體,代替人類處理某些工作,與關(guān)心的環(huán)境交互實(shí)現(xiàn)人類的目標(biāo)。
第二,大模型作為智能體的一個(gè)部分。比如大模型作為智能體引擎的一些組件,用于規(guī)劃某些任務(wù),控制智能體和環(huán)境的交互,或調(diào)用工具等等;或大模型為智能體提供具身智能,比如具身機(jī)器人,用于智能規(guī)劃和執(zhí)行任務(wù),擴(kuò)展智能體的能力;此外大模型也可以作為多個(gè)子智能體共同形成一個(gè)超強(qiáng)的大智能體;
第三,大模型作為環(huán)境,供智能體訪問和交互,使得智能體獲得必要的資源。因?yàn)榇竽P屯ㄟ^基于大量互聯(lián)網(wǎng)、代碼、書籍等語料數(shù)據(jù)的訓(xùn)練,具備了強(qiáng)大的世界知識(shí)能力和一定的推理能力。智能體可以訪問大模型環(huán)境來獲得它需要的信息或相關(guān)知識(shí),同時(shí)生成可執(zhí)行的行動(dòng)計(jì)劃。
最后,大模型還可以作為上述一些功能的組合,如它成為智能體的一部分,或者是環(huán)境的一部分,或者兼有兩者等等。
大語言模型 (LLM) 如何影響AI Agents?智能體(AI Agents)顧名思義是由AI來驅(qū)動(dòng)的,大語言模型驅(qū)動(dòng)的智能體也為其賦予新的超強(qiáng)能力。比如可以通過LLM代碼能力生成邏輯調(diào)用其他工具或者API來實(shí)現(xiàn)和環(huán)境的交互;還可以利用LLM天然的自然語言接口更靈活地讓智能體與人類和環(huán)境交互。所以在大語言模型的驅(qū)動(dòng)下,智能體更接近實(shí)現(xiàn)自動(dòng)理解、規(guī)劃、實(shí)現(xiàn)復(fù)雜任務(wù)的自主智能體系統(tǒng)。
另外,大模型作為智能體的基座模型,其能力決定了智能體的能力,它的某些行為和能力,比如涌現(xiàn)和泛化,也可以遷移到智能體上,從而正面地影響智能體的結(jié)果。像Smallville(斯坦福小鎮(zhèn)),我們可以看到,其中的Agents的某些行為是沒有被事先設(shè)計(jì)的,比如智能體之間的擴(kuò)散信息,關(guān)系的記憶——智能體之間有過的互動(dòng),以及它之前的一些事件,它都可以記憶下來;智能體獲得協(xié)調(diào)能力,比如參加情人節(jié)的派對(duì)。另外像英偉達(dá)的Voyager 這樣的智能體,作為Minecraft(我的世界)游戲的NPC,同樣也繼承并顯現(xiàn)出驚人的涌現(xiàn)能力。
但是另一方面,大模型的問題和缺陷也可能會(huì)遷移到智能體上,比如幻覺 (Hallucination)。大模型幻覺對(duì)智能體的負(fù)面影響包括提供錯(cuò)誤的信息,規(guī)劃的任務(wù)讓智能體無法完成,調(diào)用一些無效或者低效的工具,或者錯(cuò)誤使用工具和使用錯(cuò)誤的工具。比如,在執(zhí)行生成的代碼時(shí),如果用它調(diào)用API的時(shí)候,可能由于調(diào)用的錯(cuò)誤,導(dǎo)致代碼執(zhí)行時(shí)出現(xiàn)錯(cuò)誤。
綜合來看,大模型驅(qū)動(dòng)的AI Agents目前適用場(chǎng)景就比較清晰了。首先對(duì)于開放域問題或者不確定的目標(biāo)的場(chǎng)景:需要大模型生成能力發(fā)揮創(chuàng)意性,以及任何決策不存在嚴(yán)重后果,即幻覺不是bug而是feature,比如智能體應(yīng)用在游戲(如前面提到的Smallvile 和 Voyager)和寫作等場(chǎng)景。在這種情況下大模型的涌現(xiàn)能力對(duì)于智能體的應(yīng)用往往會(huì)有一些意想不到的驚喜。另外智能體適用的場(chǎng)景還包括目標(biāo)雖然明確,但正負(fù)面結(jié)果都是可接受的情形,而且大模型可以更可能地產(chǎn)生正面結(jié)果,比如 AlphaGo。但如果對(duì)目標(biāo)的結(jié)果有確定性和精確性要求,或存在約束紅線的場(chǎng)景,任何失誤可能會(huì)帶來不可接受的后果,使用基于 LLM 的智能體需要謹(jǐn)慎,人工作為天然的智能體干預(yù)往往是必要的,比如自動(dòng)駕駛。
騰訊科技:大語言模型是否幫助AI Agents突破了某些瓶頸?未來發(fā)展中,還有哪些可以預(yù)見的難題?
Mingke:在大語言模型出來之前我們都是用小的專用模型來做Agent,而一個(gè)模型只能干一種類型的工作。如果要讓基于小模型的Agent具備很多能力,就需要訓(xùn)練很多不同的模型再組裝起來。有點(diǎn)像現(xiàn)在還流行MOE(Mixture of Experts),一堆模型其中一些模型負(fù)責(zé)視覺,一些模型負(fù)責(zé)語言,而負(fù)責(zé)語言的模型,有些要按照domain去拆分,有些按照流程去拆分,都是人為的設(shè)計(jì)和拆分。
目前我觀察到的當(dāng)前比較主流的,偏向應(yīng)用Agent框架,都是以LLM(大語言模型)為中心,由它來管理和使用其他的工具,包括去爬網(wǎng)頁讀PDF,然后call接口,最后用LLM把返回的數(shù)據(jù)用自然語言回給用戶,這些內(nèi)容結(jié)合在一起,形成一個(gè)Agent。
這些基于LLM的處理范式,是由LLM基于常識(shí)自己自動(dòng)去對(duì)大的目標(biāo)做拆解,這是過去做不到的。所以當(dāng)我們?cè)诳催^去,拆小模型、訓(xùn)練小模型、維護(hù)小模型、都是一個(gè)很重的工作,而且當(dāng)業(yè)務(wù)變化的時(shí)候,你要不斷的去迭代這些模型,并且要處理這些模型之間的關(guān)系,所以Agent開發(fā)成本很高,通常只有比較大型的企業(yè),才能支撐起來這種成本。
但是盡管它現(xiàn)在有這個(gè)自治計(jì)劃的能力,并不表示這就是面對(duì)實(shí)際業(yè)務(wù)場(chǎng)景的最優(yōu)方法。我們跟很多大型跨國企業(yè)打交道,他們要真實(shí)落地一些場(chǎng)景,對(duì)合規(guī)和流程管理要求非常強(qiáng)。大語言模型完全自主拆解出來的過程,就不太會(huì)被這些企業(yè)所接受。
舉一個(gè)比較極端的例子,假設(shè)一家銀行開發(fā)的一個(gè) Agent,用戶給它一個(gè)指令“給我的賬戶增加十萬塊錢”。這個(gè)Autonomous Agent就會(huì)自主地按照模型認(rèn)為的常識(shí)去拆解這個(gè)目標(biāo),“接下來應(yīng)該怎么辦?應(yīng)該做什么任務(wù)可以讓這個(gè)用戶的賬號(hào)上面多十萬塊錢?”如果你不去限制它,它可以計(jì)劃出很多種可能的任務(wù),也可能去攻擊銀行系統(tǒng)。無論怎樣你都不希望這樣的事情發(fā)生。
關(guān)于LLM和Agent的關(guān)系,目前主流的想法是由LLM去使用工具,比如說LangChain,比如說AutoGPT。而我作為關(guān)心實(shí)際落地的Agent Framework的從業(yè)人員,我們更偏向的是由Agent Framework里的組件在不同情況下去使用不同的LLM,然后共同來實(shí)現(xiàn)一個(gè)Agent的各種能力。
騰訊科技:您能不能再進(jìn)一步去解釋一下Agent Framework,是不是這個(gè)框架可以調(diào)用不同特點(diǎn)的LLM,在特定應(yīng)用場(chǎng)景下實(shí)現(xiàn)所預(yù)期的效果。這和MultiAgents是一樣的道理嗎?
Mingke:你剛才描述的是從一個(gè)視角來看整個(gè)這一套框架,它是成立的,但它不是整體完善的角度,當(dāng)然我們今天的對(duì)話時(shí)長(zhǎng)有限,肯定是無法完全展開Agent Framework是怎么樣的,但是我可以給大家提供一些我們認(rèn)為的支柱型要點(diǎn)。從剛才講的Society of Mind框架來理解,它一定是分角色的,然后是按什么分的問題,以及怎么協(xié)調(diào)的問題。至于為什么要分角色?如果有朋友去試過你把很多Prompt塞到一個(gè)模型里面去,然后讓模型去理解,模型就會(huì)要么在可控制性,要么在精準(zhǔn)性,要么在穩(wěn)定性(也就是每次執(zhí)行出來都不是同樣的效果),這幾個(gè)角度它總有妥協(xié)。如果你要實(shí)現(xiàn)一個(gè)企業(yè)級(jí)的復(fù)雜業(yè)務(wù)邏輯,必然需要很長(zhǎng)的Prompt去表達(dá)各種條件和,無論是哪一個(gè)LLM都無法同時(shí)達(dá)到可控性、穩(wěn)定性、精準(zhǔn)性。
這個(gè)問題其實(shí)是深度學(xué)習(xí)本身,作為概率模型,無論是小模型還是大模型都會(huì)遇到的問題,大模型的本質(zhì)運(yùn)行機(jī)理都是預(yù)測(cè)下一個(gè)Token,而不是真的執(zhí)行符號(hào)化的推理過程。在這種情況下,要使用大模型最行之有效的一個(gè)方面就是分而治之,在同一時(shí)刻不要讓一個(gè)統(tǒng)計(jì)模型去同時(shí)處理那么多的提示語(Prompt)。
魯為民:不管是大模型還是小模型驅(qū)動(dòng)的智能體,目前還不能承載人類很高的“期望”。實(shí)際上Agent最終的效果,很大程度上往往處決于它的工程上的實(shí)現(xiàn)。
首先,我們其實(shí)不用對(duì)Agent有過高的期待。雖然有大模型的加持,但是其發(fā)展水平還不足以讓我們實(shí)現(xiàn)完全的自主智能體。我們打造Agent,就是為了讓我們關(guān)心的工作更加簡(jiǎn)單和方便。我們需要循序漸進(jìn)地發(fā)展智能體應(yīng)用,不能期待一蹴而就。所以我們不必要拘泥定義和理論,可適當(dāng)?shù)姆潘芍悄荏w的定義,根據(jù)使用者設(shè)定的目標(biāo),結(jié)合目標(biāo)的復(fù)雜度和約束來匹配合適的 AI 模型的能力,設(shè)計(jì)Agents 的邏輯,以便Agents安全可靠地承擔(dān)相關(guān)任務(wù)并達(dá)成目標(biāo)。實(shí)際上,我們完全可以參照自動(dòng)駕駛的實(shí)踐,像它分為L(zhǎng)0到L5幾個(gè)層級(jí),Agent也可以根據(jù)它目標(biāo)復(fù)雜性、約束和人工的參與度,從易到難去考慮并對(duì)Agent能力分為不同地層級(jí)。另外,智能體的分級(jí)有助于對(duì)智能體應(yīng)用的風(fēng)險(xiǎn)管理。這樣的處理便于我們打造一個(gè)有合理期待的智能體應(yīng)用,因?yàn)槲覀兛梢灶A(yù)先設(shè)定智能體的目標(biāo)范圍,了解Agents運(yùn)行受到哪些約束,再看看需要做什么工作來打造智能體,在滿足約束的情況下安全地達(dá)成這些目標(biāo),從而實(shí)現(xiàn)相關(guān)的能力。
一個(gè)通用的AI Agent,可以自主安全可信地完成任何被賦予合理的目標(biāo)。
在實(shí)踐當(dāng)中,我們看到基于大語言模型的AI Agents的實(shí)現(xiàn)還需要考慮更多的問題。實(shí)際上,除了LLM本身的問題外,如果要讓智能體能夠有效自主的運(yùn)行,還需要定義好大模型之外的邏輯。特別是設(shè)計(jì)以動(dòng)態(tài)反饋?zhàn)鳛楹诵牡目刂七壿嬁蚣?,它通過對(duì)環(huán)境的觀察,記憶、理解,規(guī)劃,反饋來使得智能體產(chǎn)生學(xué)習(xí)和執(zhí)行能力。特別是它能夠?qū)⑾嚓P(guān)的記憶、規(guī)劃、執(zhí)行等能力有機(jī)地串結(jié)起來,安全地控制智能體與環(huán)境的交互達(dá)到人類設(shè)定的目標(biāo)。
反饋控制邏輯設(shè)計(jì)的關(guān)鍵點(diǎn)在于,首先要保證反饋的質(zhì)量,反饋的信息必須能夠足夠的反映真實(shí)環(huán)境;其次是反饋的數(shù)量,反饋?zhàn)屩悄荏w本身必須獲得足夠的環(huán)境知識(shí);另外是反饋的頻率,讓智能體及時(shí)了解環(huán)境的變化;在很多情況下,智能體往往不能及時(shí)地去把握環(huán)境的變化,往往提供的一些信息都是過時(shí)的信息。
騰訊科技:AI Agents會(huì)是未來的一個(gè)風(fēng)口嗎?還有我們究竟如何去看待AI Agents?它到底是一種新的應(yīng)用還是新的技術(shù)?
Mingke:我再強(qiáng)調(diào)一下剛剛Agent和LLM之間的關(guān)系這件事兒,這樣會(huì)有利于我們理解后面的問題。我引用文因互聯(lián)的鮑捷老師講的一個(gè)比喻,LLM更像是一個(gè)發(fā)動(dòng)機(jī)引擎,而你要用發(fā)動(dòng)機(jī)來做什么?你有可能把它做成一輛拖拉機(jī),有可能把它做成一輛乘用車,有可能把它做成一個(gè)飛機(jī)。
在我們現(xiàn)在的語境下,所謂的AI Agent,就像是一輛車,車?yán)锏囊婢褪荓LM,Agent framework更像是一個(gè)造車的范式,這就是Agent 和 LLM之間的關(guān)系。所以從某種角度上講,可以把車?yán)斫鉃槭且娴囊环N應(yīng)用;另一個(gè)角度,也可以說是做車的選擇了發(fā)動(dòng)機(jī)來做引擎。
當(dāng)然也可以用LLM來做別的事情,最近我寫了一篇文章來分析,大語言模型已經(jīng)火了八、九個(gè)月,為什么我們還沒有看到超級(jí)APP?在當(dāng)前除了大家ChatGPT本身以外,并沒有出現(xiàn)用了就回不去了的產(chǎn)品。其實(shí)在我看來,僅僅給消費(fèi)者一個(gè)引擎是沒用的。需要有一個(gè)更好的、更有效的一種產(chǎn)品形態(tài)來封裝這個(gè)引擎,使它能在更具體的方面發(fā)揮更直接的作用。這里說“有效”,主要是強(qiáng)調(diào)兩個(gè)點(diǎn):第一個(gè)點(diǎn),在合理的設(shè)計(jì)的前提下,它的效果是比過去基于小模型的Agent更好的;第二,比起過去要?jiǎng)?chuàng)建維護(hù)很多小模型的成本,基于大語言模型的通用能力,會(huì)讓Agent的制作成本大幅下降。
另外,因?yàn)長(zhǎng)LM對(duì)語言的能力大幅提高,還可以創(chuàng)造過去實(shí)現(xiàn)不了的場(chǎng)景。比如從增效的角度上來講,比如過去每一種對(duì)業(yè)務(wù)狀態(tài)的改變,用小模型的時(shí)候都需要設(shè)計(jì)對(duì)話回復(fù)模板(因?yàn)榛貜?fù)需要精準(zhǔn)表達(dá)各種業(yè)務(wù)狀態(tài)),開發(fā)者要做很多設(shè)計(jì),背后可能幾千上萬條表達(dá)的組合。
但是現(xiàn)在,在有好的Agent Framework的前提下,Agent開發(fā)變得平民化。Agent可以被更多終端用戶使用,中小企業(yè)也可以開發(fā)它,甚至個(gè)人也可以去使用agent。這是我們所謂的Agent is the new web:可以把AI Agent理解為一種產(chǎn)品形態(tài),就像網(wǎng)頁,一方面用網(wǎng)頁來實(shí)現(xiàn)的功能可以做的很全,也可以走得很深,對(duì)業(yè)務(wù)邏輯的承載的天花板可以很高;另一方面開發(fā)的門檻也可以像網(wǎng)頁一樣做的很低。這樣就可以讓更多的開發(fā)者開發(fā)LLM的應(yīng)用,給更多的用戶使用,像網(wǎng)頁一樣普及。
在這個(gè)語境下,我們就可以把AI Agent當(dāng)成是一種可能的熱點(diǎn)。未來Agent有可能會(huì)像網(wǎng)站一樣,承載大量的業(yè)務(wù)邏輯,以一個(gè)用戶容易接受、不需要怎么學(xué)習(xí)的方式,變成一種新的有效的產(chǎn)品形態(tài)。但是我指的不是Autonomous Agents,我指的都是Autopilot Agents,也就是需要人為用先驗(yàn)知識(shí)來描述業(yè)務(wù)邏輯是什么,再去驅(qū)動(dòng)模型,然后讓Agents來做Autopilot,讓它自動(dòng)去重復(fù)實(shí)現(xiàn)目標(biāo),按照被人認(rèn)同的邏輯過程。
這樣一來,就去掉了Autonomous Agent需要對(duì)環(huán)境的模擬這件事。但Autopilot Agent也有新的挑戰(zhàn),開發(fā)者必須要把結(jié)構(gòu)化的東西當(dāng)成環(huán)境的一部分來處理。比如說業(yè)務(wù)數(shù)據(jù)就得被視為是Agent所處的環(huán)境的一部分。所以我個(gè)人是認(rèn)為Agent的價(jià)值很高,過去做一個(gè)企業(yè)級(jí)的Agent很貴,特別是要做出能有效地去操作和改變環(huán)境的,也就是能操作業(yè)務(wù)的Agent的成本很高。但是將來在LLM的加持下,一個(gè)好的Agent Framework可以讓Agent的開發(fā)和使用變得非常的普及。
騰訊科技:Autopilot比Autonomus Agents在目前的情況下,是不是應(yīng)用潛力更大?
Mingke:Autopilot Agent作為一個(gè)產(chǎn)品形態(tài),可以承載幾乎所有當(dāng)前已經(jīng)存在的業(yè)務(wù)邏輯,那就意味著基圖形化界面做過的軟件,如果不是像地圖那樣非常依賴視覺進(jìn)行交互的軟件,或者基本上所有的承載傳統(tǒng)商業(yè)業(yè)務(wù)邏輯的軟件,都有可能增加一種新的產(chǎn)品形態(tài)。
比如說一個(gè)企業(yè),可能過去做網(wǎng)站,后面做APP,將來可能做Agent。但這種Agent指的是Autopilot Agent,因?yàn)樗臉I(yè)務(wù)邏輯得跟至少跟網(wǎng)站一樣。銀行辦什么事兒,要有什么過程得跟企業(yè)的網(wǎng)站一樣,業(yè)務(wù)邏輯不能隨便改,只是增加了一種交互方式去覆蓋過去數(shù)字化產(chǎn)品形態(tài)可能沒有很好覆蓋的地方,以及一些新的場(chǎng)景不適合過去圖形化界面的產(chǎn)品形態(tài)來交互的。
這并不是說Agent會(huì)完全代替APP,或者代替web。比如移動(dòng)互聯(lián)網(wǎng)時(shí)代的APP,它并沒有完全代替網(wǎng)頁端,而是代替掉一些更適合移動(dòng)的場(chǎng)景,但是更多的創(chuàng)造了新的場(chǎng)景。很多業(yè)務(wù)都可以借助一個(gè)好的Agent Framework去發(fā)揮新的想象。比如用Agent的形態(tài)做交友軟件,用戶的Agent跟另外一個(gè)Agent交流替用戶交流來找合適的朋友,一天交完一堆朋友之后,再回過頭來跟用戶講,我今天給你推薦三個(gè)朋友,值得交往,他們分別是怎樣的。
魯博士:我基本上同意Mingke的看法。這里的Autopilot實(shí)際上定義了一個(gè)功能目標(biāo)比較清楚且集中的智能體,它有明確的業(yè)務(wù)邏輯的數(shù)字化實(shí)現(xiàn),像飛機(jī)的自動(dòng)駕駛Autopilot一樣。而理想的自主智能體(Autonomous Agents)則是需要根據(jù)人類的場(chǎng)景需要自主的定義任務(wù)和目標(biāo),然后它就通過本身的邏輯引擎根據(jù)目標(biāo)來分析、學(xué)習(xí)、理解、分解、最后執(zhí)行任務(wù),并通過反饋迭代不斷的學(xué)習(xí)改進(jìn)。這種理想的智能體的打造對(duì)智能體本身的引擎包括AI模型有相適應(yīng)的要求,這些往往超出目前的AI模型能力;目前可行的智能體的設(shè)計(jì)目標(biāo)更接近所謂的 Autopilot。
Mingke:我可以補(bǔ)充一點(diǎn),Autonomous Agents和 Autopilot Agents的區(qū)別就有點(diǎn)像自動(dòng)駕駛飛機(jī)。如果我們讓Autopilot開飛機(jī),它的航線是需要在起飛前做先做人為設(shè)計(jì)的,你從A點(diǎn)到B點(diǎn),你的航線要怎么飛?這個(gè)事情是需要人提前設(shè)計(jì)的,把人納入整體系統(tǒng)來看,人是作為一個(gè)感知器,對(duì)于現(xiàn)在的真實(shí)世界在發(fā)生什么,做了人為感知了之后,再把航線計(jì)劃設(shè)計(jì)出來,最后讓飛機(jī)去執(zhí)行。
如果是Autonomous Agent,那用戶希望就設(shè)定一個(gè)起飛地點(diǎn)和落地地點(diǎn),然后讓LLM自己根據(jù)常識(shí)去設(shè)計(jì)中國到歐洲的航線就會(huì)有問題,特別是因?yàn)長(zhǎng)LM是靜態(tài)邏輯的表達(dá),而不是動(dòng)態(tài)的數(shù)據(jù),放在當(dāng)前那就會(huì)出現(xiàn)一個(gè)情況,LLM有可能給你設(shè)計(jì)的航線是穿過烏克蘭的,因?yàn)樵?021年之前航線都可以穿過烏克蘭,它有可能覺得這是最省油的最優(yōu)解。這種情況下所生成的計(jì)劃,就明顯跟當(dāng)前的現(xiàn)實(shí)世界是脫節(jié)的。
另外在當(dāng)前Autonomous Agents框架當(dāng)中,需要對(duì)一個(gè)虛擬環(huán)境的模擬,而非是對(duì)現(xiàn)實(shí)環(huán)境的重現(xiàn)。而且這個(gè)環(huán)境模擬往往是用LLM來實(shí)現(xiàn)的構(gòu)建,這就再次會(huì)受到LLM本身的局限:LLM本身是世界模型的一個(gè)靜態(tài)投影,沒有動(dòng)態(tài)的數(shù)據(jù),還是一個(gè)降維的模擬,所以在這種情況下,它并不是一個(gè)真實(shí)的、或者說并不是一個(gè)人類所感知的及時(shí)有效的世界模型。那Autonomous Agent 基于這個(gè)有問題的環(huán)境,去做感知再所生成的計(jì)劃是會(huì)有很多問題的,而且不管如何反饋和迭代,都和真實(shí)世界相差很大。
但這也并不代表LLM的特性,對(duì)我們就沒用。我們用剛才的例子,如果不期望Autonomous Agent去端到端地,又設(shè)計(jì)航線,又執(zhí)行飛行任務(wù)這些所有任務(wù),那么在人把航線設(shè)定完了之后, 再交給AI去嘗試應(yīng)對(duì)各種飛行過程中的顛簸。
還有一種可能性,是用LLM來制作基于常識(shí)的業(yè)務(wù)邏輯設(shè)計(jì)工具,但并不扮演業(yè)務(wù)邏輯的執(zhí)行者,這可以減掉很大的邏輯設(shè)計(jì)者的負(fù)擔(dān)。可以讓Agent幫你設(shè)計(jì)業(yè)務(wù)邏輯,然后你通過人去不斷地優(yōu)化,在確定了計(jì)劃之后,然后再交給系統(tǒng)去執(zhí)行。這樣的系統(tǒng)可能是混合的,有可能是既包括符號(hào)系統(tǒng)又包括了概率系統(tǒng)。所以有一種可能方向,是用Autonomous Agent去設(shè)計(jì)一個(gè)Autopilot Agent。然后用符號(hào)系統(tǒng)來穩(wěn)定概率系統(tǒng),再去確定哪些部分該由符號(hào)系統(tǒng)執(zhí)行,哪些東西該由概率系統(tǒng)去執(zhí)行,這是我當(dāng)前在研究的開放框架的思路,感興趣參與的小伙伴歡迎跟我聯(lián)系(mingke.luo@mrs.ai)。
騰訊科技:Autopilot和Autonomous AI Agents,好像是完全不同的應(yīng)用場(chǎng)景。未來Autopilot會(huì)進(jìn)化為Autonomous AI Agents,還是說他們兩個(gè)永遠(yuǎn)都是平行的兩條發(fā)展路線?
魯博士:我覺得沒有什么矛盾。我們還是回到原點(diǎn),首先要看智能體目標(biāo)。Autopilot的目標(biāo),如我剛剛談到,它的任務(wù)是人類預(yù)先設(shè)定的,目標(biāo)比較集中和單一,實(shí)現(xiàn)起來不確定性會(huì)少一些。
當(dāng)然,我們追求的長(zhǎng)遠(yuǎn)目標(biāo)可能是實(shí)現(xiàn)自主智能體,以及所謂的AGI。在這種情況下,任務(wù)是任意給定的,即智能體之前沒有遇到過,或者智能體可以根據(jù)人類的需求,自主定義相應(yīng)的目標(biāo)。智能體能夠去自主分析理解這些任務(wù),通過反饋學(xué)習(xí)理解執(zhí)行相關(guān)的任務(wù)。這樣的一個(gè)自主智能體場(chǎng)景是大家希望擁有的,但這個(gè)目標(biāo)目前可能難以實(shí)現(xiàn)。
但是隨著大模型的不斷改進(jìn)和完善,我們也確實(shí)在一步步試圖逼近這個(gè)自主智能體的目標(biāo)。但因?yàn)榇竽P偷母怕市院徒铺幚?,使得大模型和相?yīng)的智能體設(shè)計(jì)存在本質(zhì)上的缺陷。我們目前還不清楚大模型是否的確是實(shí)現(xiàn) AGI 或理想的智能體的途徑;可能根本就不是。但另一方面實(shí)現(xiàn)理想的自主智能體的障礙可能不僅僅在于AI模型本身,智能體引擎的邏輯設(shè)計(jì)更為關(guān)鍵,也可能是另外一個(gè)突破點(diǎn),比如采用合適的反饋機(jī)制,通過持續(xù)迭代學(xué)習(xí)可能可以彌補(bǔ)大模型的缺陷。
當(dāng)然更現(xiàn)實(shí)一點(diǎn)的處理方法是我們不必拘泥自主智能體的概念來一步到位實(shí)現(xiàn)自主智能體的目標(biāo)。我們可以借助于智能體分級(jí)處理,通過循序漸進(jìn),明確設(shè)計(jì)目標(biāo)。不同的智能體提供不同的能力服務(wù)相應(yīng)的目標(biāo)和業(yè)務(wù)約束。這樣,通過像Autopilot這樣的智能體應(yīng)用做準(zhǔn)備,我們可以從簡(jiǎn)單到復(fù)雜逐步實(shí)現(xiàn)更高高級(jí)別的 AI Agent,不斷地逼近理想的自主智能體的目標(biāo)。
Mingke:大語言模型作為一種驅(qū)動(dòng)在可能并不是一個(gè)終極方案。盡管它確實(shí)是一個(gè)重要的組成部分,但是它可能不是一個(gè)充分的決定性的組成部分。要實(shí)現(xiàn)Autonomous Agents,還有很多挑戰(zhàn),在我看來至少要解決兩個(gè)問題吧:第一是對(duì)環(huán)境的模擬。因?yàn)橐岩粋€(gè)在虛擬環(huán)境里面訓(xùn)練出來的一個(gè)Agent拿到真實(shí)環(huán)境里面去使用,就有很多問題。而如果要讓虛擬環(huán)境跟真實(shí)環(huán)境一樣,就相當(dāng)于重新創(chuàng)造了一個(gè)真實(shí)世界,這基本上是不可能的事情。所以要讓Agent對(duì)真實(shí)環(huán)境做感知而不是做一個(gè)虛擬環(huán)境出來,讓Agent去感知。
從具身認(rèn)知角度上來講,直接使用真實(shí)環(huán)境來訓(xùn)練Agent是一種可能性。這就涉及到各種不同模態(tài)的大模型,來替單純語言的模型。僅把語言模型看做是靜態(tài)常識(shí)的模擬器,來解決概念之間的關(guān)系問題。對(duì)真實(shí)環(huán)境做感知,就可能需要造物理的感知器,而不是由軟件來模擬。
第二個(gè)問題是基于反饋的迭代,這也需要有新的方法。因?yàn)榛趥鹘y(tǒng)的強(qiáng)化學(xué)習(xí)的反饋系統(tǒng)也是有局限性的,特別是面向開放域問題。比如一個(gè)創(chuàng)業(yè)者要成功,可能需要同時(shí)滿足ABC三個(gè)條件,但是一次隨機(jī)嘗試命中了A和B兩個(gè)條件,但缺少了條件C,整體就失敗了。那么強(qiáng)化學(xué)習(xí)可能會(huì)給AB這兩個(gè)必要的條件,都打上負(fù)分,繼而再生成的方案,就可能離AB更遠(yuǎn),最終也離成功更遠(yuǎn)。如果通過人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)像chatgpt這樣,就不是autonomous了。如何結(jié)合多模態(tài)大模型,讓AI像人一樣批判性地(critical)的考慮問題的強(qiáng)化學(xué)習(xí)體系是值得期待的,但這也只是解決其中一個(gè)問題。
本文來自微信公眾號(hào)“騰訊科技”(ID:qqtech),作者:騰訊科技 郭曉靜 、MoPaas 秦昊陽,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com