亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

人人擁有賈維斯?浙大團(tuán)隊(duì)OS Agents綜述講明白了

商界觀察
08-20 14:39

一文讀懂。

 

圖|OS Agents 領(lǐng)域在近些年的發(fā)展進(jìn)程,包括基礎(chǔ)模型、Agent 框架、基準(zhǔn)測試和產(chǎn)品等。

 

在過去的一年里,人工智能AI)領(lǐng)域出現(xiàn)了一個(gè)格外引人關(guān)注的新方向——OS Agents。它指的是能夠直接在電腦、手機(jī)、瀏覽器,甚至各種設(shè)備上幫你“動手”的智能體(agent)。

 

例如,它可以替你點(diǎn)奶茶、填表格、訂機(jī)票,真正把指令變成行動。相比偏聊天的 Chatbot,OS Agents 讓“能干活的助手”變得越來越真實(shí)。

 

OS Agents 代表了 AI 行業(yè)發(fā)展的下一個(gè)趨勢:AI 不再只停留在回答層面,而是逐步走向“全能操作員”。未來,也許每個(gè)人都能擁有一個(gè)屬于自己的 AI 操作系統(tǒng),幫你跨平臺完成各種任務(wù),讓生活和工作效率都翻倍。

 

此前,浙江大學(xué)團(tuán)隊(duì)及其合作者發(fā)表了一篇關(guān)于 OS Agents 的綜述,近期又在預(yù)印本網(wǎng)站 arXiv 上發(fā)布。這篇綜述文章頗具價(jià)值。對于想緊跟 AI 發(fā)展趨勢的你來說,是個(gè)不錯的“入門讀物”。分享給大家。

 

該綜述詳細(xì)介紹了基于多模態(tài)大語言模型(MLLM)的 Agent 如何在不同平臺和任務(wù)環(huán)境中發(fā)揮其潛力,揭示了當(dāng)前面臨的技術(shù)瓶頸和未來發(fā)展方向。

 

 

論文鏈接:https://arxiv.org/abs/2508.04482

 

我們離JARVIS還有多遠(yuǎn)?

 

構(gòu)建一個(gè)類似于漫威電影《鋼鐵俠》中 J.A.R.V.I.S. 的超級智能 AI 助手——能夠協(xié)助 Tony Stark 操控各種系統(tǒng)、自動完成任務(wù)——是我們無數(shù)人的夢想。

 

在 AI 行業(yè),類似這樣的實(shí)體被稱為 OS Agents,它們通過操作系統(tǒng)提供的環(huán)境與界面(如圖形用戶界面 GUI),使用計(jì)算設(shè)備(如計(jì)算機(jī)和移動終端)完成任務(wù)。OS Agents 能夠自主執(zhí)行操作,或可提升全球數(shù)十億用戶的生活質(zhì)量。

 

試想一個(gè)由 Agents 無縫完成諸如網(wǎng)購、行程安排等日常事務(wù)的世界,這將極大提高人們的效率與生產(chǎn)力。

 

在過去,Siri、Google Assistant 等虛擬助手已初步展示了這類潛力,但由于模型能力受限,缺乏上下文理解能力,這些產(chǎn)品并不具備完整功能,且尚未被廣泛應(yīng)用。

 

幸運(yùn)的是,近年來 MLLM 的快速發(fā)展,為 OS Agents 的實(shí)現(xiàn)提供了新的可能性。這些模型具備強(qiáng)大的理解與生成能力,使 OS Agents 更加擅長理解復(fù)雜任務(wù),并能夠操控計(jì)算設(shè)備予以執(zhí)行。

 

OS Agents是什么?

 

OS Agents 能夠利用操作系統(tǒng)提供的環(huán)境、輸入和輸出接口,通常通過計(jì)算設(shè)備來響應(yīng)用戶設(shè)定的目標(biāo)。它們的核心設(shè)計(jì)目標(biāo)是自動化執(zhí)行操作系統(tǒng)內(nèi)部的任務(wù),并依靠 MLLM 的理解與生成能力,從而提升用戶體驗(yàn)感和操作效率。

 

為實(shí)現(xiàn)這一目標(biāo),OS Agents 構(gòu)建在三個(gè)關(guān)鍵組成部分之上:環(huán)境、觀察空間和動作空間,這三者共同支持 Agents 與操作系統(tǒng)之間的高效交互。

 

環(huán)境,是指OS Agents 運(yùn)行的平臺或系統(tǒng),可以是桌面操作系統(tǒng)、移動端或網(wǎng)頁端。這些環(huán)境涵蓋了各種任務(wù),要求 Agents 在多個(gè)界面之間進(jìn)行規(guī)劃和推理。

 

觀察空間,是指 OS Agents 能夠訪問的系統(tǒng)狀態(tài)和用戶活動信息, Agents 通過這些觀察結(jié)果來理解環(huán)境、做出明智決策,并決定如何執(zhí)行合適的行動以達(dá)成用戶設(shè)定的目標(biāo)。

 

動作空間,則定義了 OS Agents 通過操作系統(tǒng)輸入接口操控環(huán)境的所有交互方式。

 

此外,OS Agents 還需具備三項(xiàng)核心能力:理解、規(guī)劃和 grounding。這些能力使得它們能夠理解任務(wù)需求、制定行動策略,并在操作環(huán)境中有效執(zhí)行具體操作。

 

理解,是 OS Agents 的一項(xiàng)關(guān)鍵能力,它要求 Agents 理解復(fù)雜的操作系統(tǒng)環(huán)境。這種能力不僅對信息檢索任務(wù)至關(guān)重要,也是執(zhí)行其他各類任務(wù)的前提。

 

規(guī)劃,是 OS Agents 的基礎(chǔ)能力,它使 Agents 能夠?qū)?fù)雜的任務(wù)分解為可管理的子任務(wù),并制定行動序列以實(shí)現(xiàn)具體目標(biāo)。

 

grounding,是一種將文本指令或計(jì)劃轉(zhuǎn)化為操作環(huán)境中可執(zhí)行的具體動作的能力。

 

 

圖|OS Agents 的基礎(chǔ)原理。

 

構(gòu)建“能用”的OS Agents

 

為 OS Agents 構(gòu)建基礎(chǔ)模型主要涉及兩個(gè)關(guān)鍵方面:模型架構(gòu)訓(xùn)練策略。模型架構(gòu)決定了模型在操作系統(tǒng)環(huán)境中如何處理輸入與輸出,而訓(xùn)練策略則賦予模型完成復(fù)雜任務(wù)的能力。

 

 

圖|在基礎(chǔ)模型構(gòu)建中應(yīng)用的訓(xùn)練策略

 

這些訓(xùn)練策略主要包括預(yù)訓(xùn)練、有監(jiān)督微調(diào)強(qiáng)化學(xué)習(xí)。近期基礎(chǔ)模型中用于 OS Agents 的架構(gòu)和訓(xùn)練策略如下:

 

 

圖|OS Agents 基礎(chǔ)模型。Arch:架構(gòu),Exist:現(xiàn)有,Mod:修改,Concat:拼接,PT:預(yù)訓(xùn)練,SFT:監(jiān)督微調(diào),RL:強(qiáng)化學(xué)習(xí)

 

OS Agents 框架通常由四個(gè)核心組件構(gòu)成:感知、規(guī)劃、記憶和行動。其中,感知模塊負(fù)責(zé)收集并分析環(huán)境信息;規(guī)劃模塊負(fù)責(zé)任務(wù)分解和行動序列的生成;記憶模塊用于信息存儲和經(jīng)驗(yàn)積累;而行動模塊則負(fù)責(zé)執(zhí)行特定的操作指令。

 

所有這些組件共同協(xié)作,使得 OS Agents 能夠具備理解、規(guī)劃、記憶并與操作系統(tǒng)進(jìn)行有效交互的完整能力。

 

 

OS Agents 框架在這四個(gè)核心模塊的基礎(chǔ)上,具有一定的技術(shù)特征和其具體的實(shí)現(xiàn)方式。

 

 

圖|用于 OS Agents 的 Agents 框架,TD:文本描述,GS:GUI 屏幕截圖,VG:視覺定位,SG:語義定位,DG:雙重定位,GL:全局,IT:迭代,AE:自動化探索,EA:經(jīng)驗(yàn)增強(qiáng),MA:管理,IO:輸入操作,NO:導(dǎo)航操作,EO:擴(kuò)展操作。

 

評估在 OS Agents 的開發(fā)過程中起著至關(guān)重要的作用,因?yàn)樗兄诤饬?Agents 在不同場景中的表現(xiàn)和有效性。當(dāng)前文獻(xiàn)采用了多種評估技術(shù),這些技術(shù)根據(jù)具體環(huán)境和應(yīng)用的不同而有所變化。

 

OS Agents 評估的關(guān)鍵在于評估原則和評估方法。評估需要多方面和多技術(shù)的結(jié)合,以全面了解 Agents 的能力與局限性。評估過程主要分為客觀評估和主觀評估。

 

OS Agent 的評估過程主要考察其理解、規(guī)劃和 grounding 方面的能力。

 

為了全面評估 OS Agents 的性能和能力,研究人員開發(fā)了多種基準(zhǔn)測試。這些基準(zhǔn)測試基于不同的平臺和配置,構(gòu)建了多樣的評估環(huán)境,并涵蓋了各種任務(wù)類型。

 

 

圖|OS Agents 基準(zhǔn)測試

 

挑戰(zhàn)與未來

 

盡管 OS Agents 已取得了令人矚目的進(jìn)展,但該領(lǐng)域仍然面臨諸多挑戰(zhàn),需要進(jìn)一步的研究與改進(jìn)。

 

安全是 OS Agents 落地過程中必須慎重考慮的關(guān)鍵問題。學(xué)術(shù)界已經(jīng)開始研究針對 OS Agents 的對抗攻擊,一些研究者也著手構(gòu)建 LLM Agents 的安全框架與策略。未來的研究應(yīng)集中于為 OS Agents 開發(fā)全面且可擴(kuò)展的安全解決方案。除了安全,隱私也是不容忽視的因素。

 

正如電影中鋼鐵俠的 Jarvis 根據(jù) Tony Stark 的偏好提供量身定制服務(wù)一樣,開發(fā)個(gè)性化的 OS Agents 同樣是 AI 研究的一個(gè)長期目標(biāo)。目前,一些大型模型(如 OpenAI 的新功能 memory)已開始朝這個(gè)方向邁進(jìn),賦予模型“記住”的能力。然而,總體而言,多數(shù)(M)LLM 在提供個(gè)性化體驗(yàn)和在用戶交互中的自我進(jìn)化能力上仍顯不足。

 

此外,將記憶的模態(tài)從文本擴(kuò)展到其他形式,如圖像、語音,以及如何有效地管理和檢索這些記憶也是目前面臨的重大挑戰(zhàn)。

 

研究人員相信,未來如果能夠克服這些挑戰(zhàn),OS Agents 將能夠提供更加個(gè)性化、動態(tài)且具上下文感知能力的幫助。同時(shí),這些 Agents 還將具備更復(fù)雜的自我進(jìn)化機(jī)制,能夠持續(xù)適應(yīng)用戶的需求和偏好。

 

MLLM 的快速發(fā)展為 OS Agents 開辟了新的機(jī)會,使得“人人擁有賈維斯”的夢想離我們更近。

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com