亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

人人擁有賈維斯？浙大團(tuán)隊(duì)OS Agents綜述講明白了

商界觀察

08-20 14:39

一文讀懂。

圖｜OS Agents 領(lǐng)域在近些年的發(fā)展進(jìn)程，包括基礎(chǔ)模型、Agent 框架、基準(zhǔn)測試和產(chǎn)品等。

在過去的一年里，人工智能（AI）領(lǐng)域出現(xiàn)了一個(gè)格外引人關(guān)注的新方向——OS Agents。它指的是能夠直接在電腦、手機(jī)、瀏覽器，甚至各種設(shè)備上幫你“動手”的智能體（agent）。

例如，它可以替你點(diǎn)奶茶、填表格、訂機(jī)票，真正把指令變成行動。相比偏聊天的 Chatbot，OS Agents 讓“能干活的助手”變得越來越真實(shí)。

OS Agents 代表了 AI 行業(yè)發(fā)展的下一個(gè)趨勢：AI 不再只停留在回答層面，而是逐步走向“全能操作員”。未來，也許每個(gè)人都能擁有一個(gè)屬于自己的 AI 操作系統(tǒng)，幫你跨平臺完成各種任務(wù)，讓生活和工作效率都翻倍。

此前，浙江大學(xué)團(tuán)隊(duì)及其合作者發(fā)表了一篇關(guān)于 OS Agents 的綜述，近期又在預(yù)印本網(wǎng)站 arXiv 上發(fā)布。這篇綜述文章頗具價(jià)值。對于想緊跟 AI 發(fā)展趨勢的你來說，是個(gè)不錯的“入門讀物”。分享給大家。

該綜述詳細(xì)介紹了基于多模態(tài)大語言模型（MLLM）的 Agent 如何在不同平臺和任務(wù)環(huán)境中發(fā)揮其潛力，揭示了當(dāng)前面臨的技術(shù)瓶頸和未來發(fā)展方向。

論文鏈接：https://arxiv.org/abs/2508.04482

我們離JARVIS還有多遠(yuǎn)？

構(gòu)建一個(gè)類似于漫威電影《鋼鐵俠》中 J.A.R.V.I.S. 的超級智能 AI 助手——能夠協(xié)助 Tony Stark 操控各種系統(tǒng)、自動完成任務(wù)——是我們無數(shù)人的夢想。

在 AI 行業(yè)，類似這樣的實(shí)體被稱為 OS Agents，它們通過操作系統(tǒng)提供的環(huán)境與界面（如圖形用戶界面 GUI），使用計(jì)算設(shè)備（如計(jì)算機(jī)和移動終端）完成任務(wù)。OS Agents 能夠自主執(zhí)行操作，或可提升全球數(shù)十億用戶的生活質(zhì)量。

試想一個(gè)由 Agents 無縫完成諸如網(wǎng)購、行程安排等日常事務(wù)的世界，這將極大提高人們的效率與生產(chǎn)力。

在過去，Siri、Google Assistant 等虛擬助手已初步展示了這類潛力，但由于模型能力受限，缺乏上下文理解能力，這些產(chǎn)品并不具備完整功能，且尚未被廣泛應(yīng)用。

幸運(yùn)的是，近年來 MLLM 的快速發(fā)展，為 OS Agents 的實(shí)現(xiàn)提供了新的可能性。這些模型具備強(qiáng)大的理解與生成能力，使 OS Agents 更加擅長理解復(fù)雜任務(wù)，并能夠操控計(jì)算設(shè)備予以執(zhí)行。

OS Agents是什么？

OS Agents 能夠利用操作系統(tǒng)提供的環(huán)境、輸入和輸出接口，通常通過計(jì)算設(shè)備來響應(yīng)用戶設(shè)定的目標(biāo)。它們的核心設(shè)計(jì)目標(biāo)是自動化執(zhí)行操作系統(tǒng)內(nèi)部的任務(wù)，并依靠 MLLM 的理解與生成能力，從而提升用戶體驗(yàn)感和操作效率。

為實(shí)現(xiàn)這一目標(biāo)，OS Agents 構(gòu)建在三個(gè)關(guān)鍵組成部分之上：環(huán)境、觀察空間和動作空間，這三者共同支持 Agents 與操作系統(tǒng)之間的高效交互。

環(huán)境，是指OS Agents 運(yùn)行的平臺或系統(tǒng)，可以是桌面操作系統(tǒng)、移動端或網(wǎng)頁端。這些環(huán)境涵蓋了各種任務(wù)，要求 Agents 在多個(gè)界面之間進(jìn)行規(guī)劃和推理。

觀察空間，是指 OS Agents 能夠訪問的系統(tǒng)狀態(tài)和用戶活動信息， Agents 通過這些觀察結(jié)果來理解環(huán)境、做出明智決策，并決定如何執(zhí)行合適的行動以達(dá)成用戶設(shè)定的目標(biāo)。

動作空間，則定義了 OS Agents 通過操作系統(tǒng)輸入接口操控環(huán)境的所有交互方式。

此外，OS Agents 還需具備三項(xiàng)核心能力：理解、規(guī)劃和 grounding。這些能力使得它們能夠理解任務(wù)需求、制定行動策略，并在操作環(huán)境中有效執(zhí)行具體操作。

理解，是 OS Agents 的一項(xiàng)關(guān)鍵能力，它要求 Agents 理解復(fù)雜的操作系統(tǒng)環(huán)境。這種能力不僅對信息檢索任務(wù)至關(guān)重要，也是執(zhí)行其他各類任務(wù)的前提。

規(guī)劃，是 OS Agents 的基礎(chǔ)能力，它使 Agents 能夠?qū)?fù)雜的任務(wù)分解為可管理的子任務(wù)，并制定行動序列以實(shí)現(xiàn)具體目標(biāo)。

grounding，是一種將文本指令或計(jì)劃轉(zhuǎn)化為操作環(huán)境中可執(zhí)行的具體動作的能力。

圖｜OS Agents 的基礎(chǔ)原理。

構(gòu)建“能用”的OS Agents

為 OS Agents 構(gòu)建基礎(chǔ)模型主要涉及兩個(gè)關(guān)鍵方面：模型架構(gòu)與訓(xùn)練策略。模型架構(gòu)決定了模型在操作系統(tǒng)環(huán)境中如何處理輸入與輸出，而訓(xùn)練策略則賦予模型完成復(fù)雜任務(wù)的能力。

圖｜在基礎(chǔ)模型構(gòu)建中應(yīng)用的訓(xùn)練策略

這些訓(xùn)練策略主要包括預(yù)訓(xùn)練、有監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。近期基礎(chǔ)模型中用于 OS Agents 的架構(gòu)和訓(xùn)練策略如下：

圖｜OS Agents 基礎(chǔ)模型。Arch：架構(gòu)，Exist：現(xiàn)有，Mod：修改，Concat：拼接，PT：預(yù)訓(xùn)練，SFT：監(jiān)督微調(diào)，RL：強(qiáng)化學(xué)習(xí)

OS Agents 框架通常由四個(gè)核心組件構(gòu)成：感知、規(guī)劃、記憶和行動。其中，感知模塊負(fù)責(zé)收集并分析環(huán)境信息；規(guī)劃模塊負(fù)責(zé)任務(wù)分解和行動序列的生成；記憶模塊用于信息存儲和經(jīng)驗(yàn)積累；而行動模塊則負(fù)責(zé)執(zhí)行特定的操作指令。

所有這些組件共同協(xié)作，使得 OS Agents 能夠具備理解、規(guī)劃、記憶并與操作系統(tǒng)進(jìn)行有效交互的完整能力。

OS Agents 框架在這四個(gè)核心模塊的基礎(chǔ)上，具有一定的技術(shù)特征和其具體的實(shí)現(xiàn)方式。

圖｜用于 OS Agents 的 Agents 框架，TD：文本描述，GS：GUI 屏幕截圖，VG：視覺定位，SG：語義定位，DG：雙重定位，GL：全局，IT：迭代，AE：自動化探索，EA：經(jīng)驗(yàn)增強(qiáng)，MA：管理，IO：輸入操作，NO：導(dǎo)航操作，EO：擴(kuò)展操作。

評估在 OS Agents 的開發(fā)過程中起著至關(guān)重要的作用，因?yàn)樗兄诤饬?Agents 在不同場景中的表現(xiàn)和有效性。當(dāng)前文獻(xiàn)采用了多種評估技術(shù)，這些技術(shù)根據(jù)具體環(huán)境和應(yīng)用的不同而有所變化。

OS Agents 評估的關(guān)鍵在于評估原則和評估方法。評估需要多方面和多技術(shù)的結(jié)合，以全面了解 Agents 的能力與局限性。評估過程主要分為客觀評估和主觀評估。

OS Agent 的評估過程主要考察其理解、規(guī)劃和 grounding 方面的能力。

為了全面評估 OS Agents 的性能和能力，研究人員開發(fā)了多種基準(zhǔn)測試。這些基準(zhǔn)測試基于不同的平臺和配置，構(gòu)建了多樣的評估環(huán)境，并涵蓋了各種任務(wù)類型。

圖｜OS Agents 基準(zhǔn)測試

挑戰(zhàn)與未來

盡管 OS Agents 已取得了令人矚目的進(jìn)展，但該領(lǐng)域仍然面臨諸多挑戰(zhàn)，需要進(jìn)一步的研究與改進(jìn)。

安全是 OS Agents 落地過程中必須慎重考慮的關(guān)鍵問題。學(xué)術(shù)界已經(jīng)開始研究針對 OS Agents 的對抗攻擊，一些研究者也著手構(gòu)建 LLM Agents 的安全框架與策略。未來的研究應(yīng)集中于為 OS Agents 開發(fā)全面且可擴(kuò)展的安全解決方案。除了安全，隱私也是不容忽視的因素。

正如電影中鋼鐵俠的 Jarvis 根據(jù) Tony Stark 的偏好提供量身定制服務(wù)一樣，開發(fā)個(gè)性化的 OS Agents 同樣是 AI 研究的一個(gè)長期目標(biāo)。目前，一些大型模型（如 OpenAI 的新功能 memory）已開始朝這個(gè)方向邁進(jìn)，賦予模型“記住”的能力。然而，總體而言，多數(shù)（M）LLM 在提供個(gè)性化體驗(yàn)和在用戶交互中的自我進(jìn)化能力上仍顯不足。

此外，將記憶的模態(tài)從文本擴(kuò)展到其他形式，如圖像、語音，以及如何有效地管理和檢索這些記憶也是目前面臨的重大挑戰(zhàn)。

研究人員相信，未來如果能夠克服這些挑戰(zhàn)，OS Agents 將能夠提供更加個(gè)性化、動態(tài)且具上下文感知能力的幫助。同時(shí)，這些 Agents 還將具備更復(fù)雜的自我進(jìn)化機(jī)制，能夠持續(xù)適應(yīng)用戶的需求和偏好。

MLLM 的快速發(fā)展為 OS Agents 開辟了新的機(jī)會，使得“人人擁有賈維斯”的夢想離我們更近。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

受市委書記會見，300億95后富四代，背后家族藏不住了！

天九老板云注冊用戶破600萬：數(shù)字中樞賦能民企，AI驅(qū)動共享生態(tài)共贏

天九老板云注冊用戶破600萬：以數(shù)字生態(tài)筑牢民企協(xié)同發(fā)展新底座

天九老板云注冊用戶破600萬：解碼中國民企數(shù)智化轉(zhuǎn)型的生態(tài)樣本

天九老板云注冊用戶突破600萬解碼共享生態(tài)賦能民企二次創(chuàng)業(yè)

項(xiàng)目推薦

迪瓜租機(jī)

愛親母嬰連鎖品牌

<i id="tzctr"></i>