亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

<table id="g1a7m"></table>^{<code id="g1a7m"><table id="g1a7m"></table></code>}

第一個AI是清華團隊領(lǐng)導(dǎo)，問世世界各地的agent系統(tǒng)基準測試

商界觀察

2023-08-09

AI 智能體，或者自主智能代理，不僅僅是賈維斯等科幻電影中的人類超級助手，更是現(xiàn)實世界中的人類超級助手。 AI 該領(lǐng)域的研究熱點。特別是 GPT-4 為代表的 AI 大型模型的出現(xiàn)，將 AI 智能體的概念推向了科技的前沿。

斯坦?！疤摂M小鎮(zhèn)”之前爆紅，25 個 AI 智能體在虛擬小鎮(zhèn)自由成長，舉辦情人節(jié)派對；英偉達等提出的具體代理模型 Voyager，還學會了《我的世界》中的各種生存能力，闖出了自己的一片天空；另外，能夠獨立實現(xiàn)目標。 AutoGPT、BabyAGI 和 AgentGPT 等，同時也引起了公眾的普遍興趣和熱烈討論。

甚至，前特斯拉 AI 總監(jiān)、重歸 OpenAI 的技術(shù)大牛 Andrej Karpathy 根據(jù)一次開發(fā)者活動，每當有新的 AI 當智能論文出現(xiàn)時，OpenAI 內(nèi)部便會非常感興趣，并認真展開討論。。

雖然當前 AI 智能體研究異常火爆，目前 AI 對行業(yè)缺乏系統(tǒng)化、規(guī)范化的評價標準。 LLMs 智能水平作為代理商。

因此，來自清華大學，俄亥俄州立大學，加州大學伯克利分校研究小組便提出了第一個系統(tǒng)的基準測試?！狝gentBench，用于評定 LLMs 在各種現(xiàn)實世界中，智能體是一種挑戰(zhàn)。 8 各種環(huán)境的表現(xiàn)(如推理和管理能力)。

研究數(shù)據(jù)顯示，頂級商業(yè)語言模型(例如 GPT-四是在復(fù)雜的環(huán)境中表現(xiàn)出色，在開源模型中具有明顯的優(yōu)勢。。所以，研究小組建議，有必要進一步努力改善開源。 LLMs 學習能力。

有關(guān)研究論文以“AgentBench: Evaluating LLMs as Agents""問題，已經(jīng)在預(yù)印本網(wǎng)站上發(fā)布了。 arXiv 上。此外，還發(fā)布了相關(guān)數(shù)據(jù)、環(huán)境和集成評估包。 GitHub 上。

01 第一次系統(tǒng)基準測試

在過去的研究和實踐中，基于文本的游戲環(huán)境已經(jīng)被用于語言代理的評價。但由于封閉的離散行動空間，通常受到限制，其重點主要集中在模型常識的基本能力上。

最近，一些關(guān)于身體代理的嘗試使用了基于游戲和圖形的用戶界面。（GUI）以及復(fù)雜的多模態(tài)模擬器的室內(nèi)場景。但是，盡管這些模擬器非常復(fù)雜，無法準確反映 LLMs 其多模態(tài)特性也給純文本帶來了實際用例中的使用情況。 LLMs 快速評估帶來障礙。

另外，大多數(shù)代理商的基準測試都集中在一個單一的環(huán)境中，這限制了它在不同的應(yīng)用領(lǐng)域進行全面的簡述。 LLMs 的能力。

在這項工作中，研究小組操作系統(tǒng)（OS）、數(shù)據(jù)庫（DB）、知識圖譜（KG）、卡牌對戰(zhàn)（DCG）、場景猜謎（LTP）、家居（Alfworld）、網(wǎng)上購物（WebShop）和網(wǎng)頁瀏覽(Mind2Web）8 使用不同的環(huán)境任務(wù)時， AgentBench 對 25 基于不同的語言模型(包括 API 對模型和開源模型進行了全面評估。

測試數(shù)據(jù)顯示，像 GPT-4 這種頂級模型可以處理各種現(xiàn)實世界的任務(wù)，大部分開源 LLMs 在 AgentBench 以上表現(xiàn)遠不及以上表現(xiàn)為基礎(chǔ) API 的 LLMs；甚至，最強大的開源模型 openchat-13b-v3.2 也和 gpt-3.5-turbo 它們之間存在著顯著的性能差距。

盡管通過廣泛的對齊訓(xùn)練，LLMs 不僅能掌握傳統(tǒng) NLP 任務(wù)，如問題答案、自然語言推理、文本摘要等，也能表現(xiàn)出理解人類意圖和執(zhí)行指令的能力，但它們在 AgentBench 在任務(wù)方面(例如行動有效性、長前后文、多輪一致性和代碼訓(xùn)練)的表現(xiàn)相對落后。

研究小組說，未來還需要更多的工作來進行更嚴格、更系統(tǒng)的評估，并提供強大的開源工具來促進這種評估。，如逐步完善 AgentBench，使之更全面、更包容，并建立更系統(tǒng)的系統(tǒng)。 LLMs 評估系統(tǒng)等。

02 在硅谷，“自主”AI代理競賽正席卷硅谷

AI 隨著大型模型的不斷進化，新助手誕生了。目前，“自主”AI 代理商的競爭激發(fā)了硅谷的熱潮。它不僅吸引了個人開發(fā)者，也吸引了微軟和谷歌等巨頭公司 Alphabet，而且很多創(chuàng)業(yè)公司也積極參與其中。

以初創(chuàng)公司 Inflection AI 舉例來說，公司的創(chuàng)始人 Reid Hoffman 和 Mustafa Suleyman 播客表示，他們正在開發(fā)一個個人助理，可以當導(dǎo)師，也可以處理類似于安排航班積分和酒店等任務(wù)的事務(wù)。

MultiOn 企業(yè)開發(fā)者 Div Garg 表示，其目標是把它發(fā)展成個體。 AI 與虛擬助手“賈維斯”相似的朋友。她們希望這位代理能與個人服務(wù)聯(lián)系起來。

Generally Intelligent CEO Kanjun Qiu 說:“對于人來說容易的事情對于電腦來說還是很難的，如果給老板安排一組重要客戶的會議。這需要非常復(fù)雜的推理能力，這涉及到獲得每個人的喜好，解決沖突，同時在與客戶合作時保持認真細致?！?/p>

Qiu 與其他四位代理開發(fā)人員預(yù)測，第一批能夠可靠執(zhí)行多步任務(wù)并具有一定獨立能力的系統(tǒng)將在一年內(nèi)上市，密切關(guān)注編碼和營銷等垂直領(lǐng)域。

微軟 CEO Satya Nadella 曾在接受《金融時報》采訪時表示：“不管是微軟自己的嗎？ Cortana，或者亞馬遜 Alexa 、谷歌助理，蘋果助理 Siri，都不夠聰明，沒有達到最初的預(yù)期。”

拋開存在的擔憂不談，AI 代理商已顯示出巨大的潛力和市場。雖然我們在實踐和應(yīng)用中可能會遇到一些挑戰(zhàn)，但隨著時間的推移，我們有望在不斷的優(yōu)化和優(yōu)化中見證這些挑戰(zhàn)，就像歷史上許多創(chuàng)新一樣。 AI 代理商對人類社會產(chǎn)生了積極而深刻的影響。

參考鏈接：

https://www.reuters.com/technology/race-towards-autonomous-ai-agents-grips-silicon-valley-2023-07-17/

本文來自微信微信官方賬號“學術(shù)頭條”（ID：SciTouTiao），作者：學術(shù)頭條，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

前三季度78家企業(yè)登陸A股，IPO融資額已超去年全年

劉強東“10年1元年薪”之約到期，律師解構(gòu)高凈值人群如何妥善處理財產(chǎn)

工信部擬推新規(guī)：劃定輔助駕駛安全紅線終結(jié)模糊營銷時代

西貝翻車事件最可怕后續(xù)！上海家長們這次是真怒了……

華為發(fā)布十大技術(shù)趨勢 2035年算力總量增長10萬倍

項目推薦

康小虎 · 健康小屋

<progress id="vcfae"></progress>