人人擁有賈維斯?浙大團(tuán)隊(duì)OS Agents綜述講明白了
一文讀懂。
圖|OS Agents 領(lǐng)域在近些年的發(fā)展進(jìn)程,包括基礎(chǔ)模型、Agent 框架、基準(zhǔn)測試和產(chǎn)品等。
在過去的一年里,人工智能(AI)領(lǐng)域出現(xiàn)了一個(gè)格外引人關(guān)注的新方向——OS Agents。它指的是能夠直接在電腦、手機(jī)、瀏覽器,甚至各種設(shè)備上幫你“動手”的智能體(agent)。
例如,它可以替你點(diǎn)奶茶、填表格、訂機(jī)票,真正把指令變成行動。相比偏聊天的 Chatbot,OS Agents 讓“能干活的助手”變得越來越真實(shí)。
OS Agents 代表了 AI 行業(yè)發(fā)展的下一個(gè)趨勢:AI 不再只停留在回答層面,而是逐步走向“全能操作員”。未來,也許每個(gè)人都能擁有一個(gè)屬于自己的 AI 操作系統(tǒng),幫你跨平臺完成各種任務(wù),讓生活和工作效率都翻倍。
此前,浙江大學(xué)團(tuán)隊(duì)及其合作者發(fā)表了一篇關(guān)于 OS Agents 的綜述,近期又在預(yù)印本網(wǎng)站 arXiv 上發(fā)布。這篇綜述文章頗具價(jià)值。對于想緊跟 AI 發(fā)展趨勢的你來說,是個(gè)不錯的“入門讀物”。分享給大家。
該綜述詳細(xì)介紹了基于多模態(tài)大語言模型(MLLM)的 Agent 如何在不同平臺和任務(wù)環(huán)境中發(fā)揮其潛力,揭示了當(dāng)前面臨的技術(shù)瓶頸和未來發(fā)展方向。
論文鏈接:https://arxiv.org/abs/2508.04482
我們離JARVIS還有多遠(yuǎn)?
構(gòu)建一個(gè)類似于漫威電影《鋼鐵俠》中 J.A.R.V.I.S. 的超級智能 AI 助手——能夠協(xié)助 Tony Stark 操控各種系統(tǒng)、自動完成任務(wù)——是我們無數(shù)人的夢想。
在 AI 行業(yè),類似這樣的實(shí)體被稱為 OS Agents,它們通過操作系統(tǒng)提供的環(huán)境與界面(如圖形用戶界面 GUI),使用計(jì)算設(shè)備(如計(jì)算機(jī)和移動終端)完成任務(wù)。OS Agents 能夠自主執(zhí)行操作,或可提升全球數(shù)十億用戶的生活質(zhì)量。
試想一個(gè)由 Agents 無縫完成諸如網(wǎng)購、行程安排等日常事務(wù)的世界,這將極大提高人們的效率與生產(chǎn)力。
在過去,Siri、Google Assistant 等虛擬助手已初步展示了這類潛力,但由于模型能力受限,缺乏上下文理解能力,這些產(chǎn)品并不具備完整功能,且尚未被廣泛應(yīng)用。
幸運(yùn)的是,近年來 MLLM 的快速發(fā)展,為 OS Agents 的實(shí)現(xiàn)提供了新的可能性。這些模型具備強(qiáng)大的理解與生成能力,使 OS Agents 更加擅長理解復(fù)雜任務(wù),并能夠操控計(jì)算設(shè)備予以執(zhí)行。
OS Agents是什么?
OS Agents 能夠利用操作系統(tǒng)提供的環(huán)境、輸入和輸出接口,通常通過計(jì)算設(shè)備來響應(yīng)用戶設(shè)定的目標(biāo)。它們的核心設(shè)計(jì)目標(biāo)是自動化執(zhí)行操作系統(tǒng)內(nèi)部的任務(wù),并依靠 MLLM 的理解與生成能力,從而提升用戶體驗(yàn)感和操作效率。
為實(shí)現(xiàn)這一目標(biāo),OS Agents 構(gòu)建在三個(gè)關(guān)鍵組成部分之上:環(huán)境、觀察空間和動作空間,這三者共同支持 Agents 與操作系統(tǒng)之間的高效交互。
環(huán)境,是指OS Agents 運(yùn)行的平臺或系統(tǒng),可以是桌面操作系統(tǒng)、移動端或網(wǎng)頁端。這些環(huán)境涵蓋了各種任務(wù),要求 Agents 在多個(gè)界面之間進(jìn)行規(guī)劃和推理。
觀察空間,是指 OS Agents 能夠訪問的系統(tǒng)狀態(tài)和用戶活動信息, Agents 通過這些觀察結(jié)果來理解環(huán)境、做出明智決策,并決定如何執(zhí)行合適的行動以達(dá)成用戶設(shè)定的目標(biāo)。
動作空間,則定義了 OS Agents 通過操作系統(tǒng)輸入接口操控環(huán)境的所有交互方式。
此外,OS Agents 還需具備三項(xiàng)核心能力:理解、規(guī)劃和 grounding。這些能力使得它們能夠理解任務(wù)需求、制定行動策略,并在操作環(huán)境中有效執(zhí)行具體操作。
理解,是 OS Agents 的一項(xiàng)關(guān)鍵能力,它要求 Agents 理解復(fù)雜的操作系統(tǒng)環(huán)境。這種能力不僅對信息檢索任務(wù)至關(guān)重要,也是執(zhí)行其他各類任務(wù)的前提。
規(guī)劃,是 OS Agents 的基礎(chǔ)能力,它使 Agents 能夠?qū)?fù)雜的任務(wù)分解為可管理的子任務(wù),并制定行動序列以實(shí)現(xiàn)具體目標(biāo)。
grounding,是一種將文本指令或計(jì)劃轉(zhuǎn)化為操作環(huán)境中可執(zhí)行的具體動作的能力。
圖|OS Agents 的基礎(chǔ)原理。
構(gòu)建“能用”的OS Agents
為 OS Agents 構(gòu)建基礎(chǔ)模型主要涉及兩個(gè)關(guān)鍵方面:模型架構(gòu)與訓(xùn)練策略。模型架構(gòu)決定了模型在操作系統(tǒng)環(huán)境中如何處理輸入與輸出,而訓(xùn)練策略則賦予模型完成復(fù)雜任務(wù)的能力。
圖|在基礎(chǔ)模型構(gòu)建中應(yīng)用的訓(xùn)練策略
這些訓(xùn)練策略主要包括預(yù)訓(xùn)練、有監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。近期基礎(chǔ)模型中用于 OS Agents 的架構(gòu)和訓(xùn)練策略如下:
圖|OS Agents 基礎(chǔ)模型。Arch:架構(gòu),Exist:現(xiàn)有,Mod:修改,Concat:拼接,PT:預(yù)訓(xùn)練,SFT:監(jiān)督微調(diào),RL:強(qiáng)化學(xué)習(xí)
OS Agents 框架通常由四個(gè)核心組件構(gòu)成:感知、規(guī)劃、記憶和行動。其中,感知模塊負(fù)責(zé)收集并分析環(huán)境信息;規(guī)劃模塊負(fù)責(zé)任務(wù)分解和行動序列的生成;記憶模塊用于信息存儲和經(jīng)驗(yàn)積累;而行動模塊則負(fù)責(zé)執(zhí)行特定的操作指令。
所有這些組件共同協(xié)作,使得 OS Agents 能夠具備理解、規(guī)劃、記憶并與操作系統(tǒng)進(jìn)行有效交互的完整能力。
OS Agents 框架在這四個(gè)核心模塊的基礎(chǔ)上,具有一定的技術(shù)特征和其具體的實(shí)現(xiàn)方式。
圖|用于 OS Agents 的 Agents 框架,TD:文本描述,GS:GUI 屏幕截圖,VG:視覺定位,SG:語義定位,DG:雙重定位,GL:全局,IT:迭代,AE:自動化探索,EA:經(jīng)驗(yàn)增強(qiáng),MA:管理,IO:輸入操作,NO:導(dǎo)航操作,EO:擴(kuò)展操作。
評估在 OS Agents 的開發(fā)過程中起著至關(guān)重要的作用,因?yàn)樗兄诤饬?Agents 在不同場景中的表現(xiàn)和有效性。當(dāng)前文獻(xiàn)采用了多種評估技術(shù),這些技術(shù)根據(jù)具體環(huán)境和應(yīng)用的不同而有所變化。
OS Agents 評估的關(guān)鍵在于評估原則和評估方法。評估需要多方面和多技術(shù)的結(jié)合,以全面了解 Agents 的能力與局限性。評估過程主要分為客觀評估和主觀評估。
OS Agent 的評估過程主要考察其理解、規(guī)劃和 grounding 方面的能力。
為了全面評估 OS Agents 的性能和能力,研究人員開發(fā)了多種基準(zhǔn)測試。這些基準(zhǔn)測試基于不同的平臺和配置,構(gòu)建了多樣的評估環(huán)境,并涵蓋了各種任務(wù)類型。
圖|OS Agents 基準(zhǔn)測試
挑戰(zhàn)與未來
盡管 OS Agents 已取得了令人矚目的進(jìn)展,但該領(lǐng)域仍然面臨諸多挑戰(zhàn),需要進(jìn)一步的研究與改進(jìn)。
安全是 OS Agents 落地過程中必須慎重考慮的關(guān)鍵問題。學(xué)術(shù)界已經(jīng)開始研究針對 OS Agents 的對抗攻擊,一些研究者也著手構(gòu)建 LLM Agents 的安全框架與策略。未來的研究應(yīng)集中于為 OS Agents 開發(fā)全面且可擴(kuò)展的安全解決方案。除了安全,隱私也是不容忽視的因素。
正如電影中鋼鐵俠的 Jarvis 根據(jù) Tony Stark 的偏好提供量身定制服務(wù)一樣,開發(fā)個(gè)性化的 OS Agents 同樣是 AI 研究的一個(gè)長期目標(biāo)。目前,一些大型模型(如 OpenAI 的新功能 memory)已開始朝這個(gè)方向邁進(jìn),賦予模型“記住”的能力。然而,總體而言,多數(shù)(M)LLM 在提供個(gè)性化體驗(yàn)和在用戶交互中的自我進(jìn)化能力上仍顯不足。
此外,將記憶的模態(tài)從文本擴(kuò)展到其他形式,如圖像、語音,以及如何有效地管理和檢索這些記憶也是目前面臨的重大挑戰(zhàn)。
研究人員相信,未來如果能夠克服這些挑戰(zhàn),OS Agents 將能夠提供更加個(gè)性化、動態(tài)且具上下文感知能力的幫助。同時(shí),這些 Agents 還將具備更復(fù)雜的自我進(jìn)化機(jī)制,能夠持續(xù)適應(yīng)用戶的需求和偏好。
MLLM 的快速發(fā)展為 OS Agents 開辟了新的機(jī)會,使得“人人擁有賈維斯”的夢想離我們更近。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com