第一個AI是清華團隊領(lǐng)導(dǎo), 問世世界各地的agent系統(tǒng)基準測試
AI 智能體,或者自主智能代理,不僅僅是賈維斯等科幻電影中的人類超級助手,更是現(xiàn)實世界中的人類超級助手。 AI 該領(lǐng)域的研究熱點。特別是 GPT-4 為代表的 AI 大型模型的出現(xiàn),將 AI 智能體的概念推向了科技的前沿。
斯坦?!疤摂M小鎮(zhèn)”之前爆紅,25 個 AI 智能體在虛擬小鎮(zhèn)自由成長,舉辦情人節(jié)派對;英偉達等提出的具體代理模型 Voyager,還學會了《我的世界》中的各種生存能力,闖出了自己的一片天空;另外,能夠獨立實現(xiàn)目標。 AutoGPT、BabyAGI 和 AgentGPT 等,同時也引起了公眾的普遍興趣和熱烈討論。
甚至,前特斯拉 AI 總監(jiān)、重歸 OpenAI 的技術(shù)大牛 Andrej Karpathy 根據(jù)一次開發(fā)者活動,每當有新的 AI 當智能論文出現(xiàn)時,OpenAI 內(nèi)部便會非常感興趣,并認真展開討論。。
雖然當前 AI 智能體研究異常火爆,目前 AI 對行業(yè)缺乏系統(tǒng)化、規(guī)范化的評價標準。 LLMs 智能水平作為代理商。
因此,來自清華大學,俄亥俄州立大學,加州大學伯克利分校研究小組便提出了第一個系統(tǒng)的基準測試?!狝gentBench,用于評定 LLMs 在各種現(xiàn)實世界中,智能體是一種挑戰(zhàn)。 8 各種環(huán)境的表現(xiàn)(如推理和管理能力)。
研究數(shù)據(jù)顯示,頂級商業(yè)語言模型(例如 GPT-四是在復(fù)雜的環(huán)境中表現(xiàn)出色,在開源模型中具有明顯的優(yōu)勢。。所以,研究小組建議,有必要進一步努力改善開源。 LLMs 學習能力。
有關(guān)研究論文以“AgentBench: Evaluating LLMs as Agents""問題,已經(jīng)在預(yù)印本網(wǎng)站上發(fā)布了。 arXiv 上。此外,還發(fā)布了相關(guān)數(shù)據(jù)、環(huán)境和集成評估包。 GitHub 上。
01 第一次系統(tǒng)基準測試
在過去的研究和實踐中,基于文本的游戲環(huán)境已經(jīng)被用于語言代理的評價。但由于封閉的離散行動空間,通常受到限制,其重點主要集中在模型常識的基本能力上。
最近,一些關(guān)于身體代理的嘗試使用了基于游戲和圖形的用戶界面。(GUI)以及復(fù)雜的多模態(tài)模擬器的室內(nèi)場景。但是,盡管這些模擬器非常復(fù)雜,無法準確反映 LLMs 其多模態(tài)特性也給純文本帶來了實際用例中的使用情況。 LLMs 快速評估帶來障礙。
另外,大多數(shù)代理商的基準測試都集中在一個單一的環(huán)境中,這限制了它在不同的應(yīng)用領(lǐng)域進行全面的簡述。 LLMs 的能力。
在這項工作中,研究小組操作系統(tǒng)(OS)、數(shù)據(jù)庫(DB)、知識圖譜(KG)、卡牌對戰(zhàn)(DCG)、場景猜謎(LTP)、家居(Alfworld)、網(wǎng)上購物(WebShop)和網(wǎng)頁瀏覽(Mind2Web)8 使用不同的環(huán)境任務(wù)時, AgentBench 對 25 基于不同的語言模型(包括 API 對模型和開源模型進行了全面評估。
測試數(shù)據(jù)顯示,像 GPT-4 這種頂級模型可以處理各種現(xiàn)實世界的任務(wù),大部分開源 LLMs 在 AgentBench 以上表現(xiàn)遠不及以上表現(xiàn)為基礎(chǔ) API 的 LLMs;甚至,最強大的開源模型 openchat-13b-v3.2 也和 gpt-3.5-turbo 它們之間存在著顯著的性能差距。
盡管通過廣泛的對齊訓(xùn)練,LLMs 不僅能掌握傳統(tǒng) NLP 任務(wù),如問題答案、自然語言推理、文本摘要等,也能表現(xiàn)出理解人類意圖和執(zhí)行指令的能力,但它們在 AgentBench 在任務(wù)方面(例如行動有效性、長前后文、多輪一致性和代碼訓(xùn)練)的表現(xiàn)相對落后。
研究小組說,未來還需要更多的工作來進行更嚴格、更系統(tǒng)的評估,并提供強大的開源工具來促進這種評估。,如逐步完善 AgentBench,使之更全面、更包容,并建立更系統(tǒng)的系統(tǒng)。 LLMs 評估系統(tǒng)等。
02 在硅谷,“自主”AI代理競賽正席卷硅谷
AI 隨著大型模型的不斷進化,新助手誕生了。目前,“自主”AI 代理商的競爭激發(fā)了硅谷的熱潮。它不僅吸引了個人開發(fā)者,也吸引了微軟和谷歌等巨頭公司 Alphabet,而且很多創(chuàng)業(yè)公司也積極參與其中。
以初創(chuàng)公司 Inflection AI 舉例來說,公司的創(chuàng)始人 Reid Hoffman 和 Mustafa Suleyman 播客表示,他們正在開發(fā)一個個人助理,可以當導(dǎo)師,也可以處理類似于安排航班積分和酒店等任務(wù)的事務(wù)。
MultiOn 企業(yè)開發(fā)者 Div Garg 表示,其目標是把它發(fā)展成個體。 AI 與虛擬助手“賈維斯”相似的朋友。她們希望這位代理能與個人服務(wù)聯(lián)系起來。
Generally Intelligent CEO Kanjun Qiu 說:“對于人來說容易的事情對于電腦來說還是很難的,如果給老板安排一組重要客戶的會議。這需要非常復(fù)雜的推理能力,這涉及到獲得每個人的喜好,解決沖突,同時在與客戶合作時保持認真細致?!?/p>
Qiu 與其他四位代理開發(fā)人員預(yù)測,第一批能夠可靠執(zhí)行多步任務(wù)并具有一定獨立能力的系統(tǒng)將在一年內(nèi)上市,密切關(guān)注編碼和營銷等垂直領(lǐng)域。
微軟 CEO Satya Nadella 曾在接受《金融時報》采訪時表示:“不管是微軟自己的嗎? Cortana,或者亞馬遜 Alexa 、谷歌助理,蘋果助理 Siri,都不夠聰明,沒有達到最初的預(yù)期。”
拋開存在的擔憂不談,AI 代理商已顯示出巨大的潛力和市場。雖然我們在實踐和應(yīng)用中可能會遇到一些挑戰(zhàn),但隨著時間的推移,我們有望在不斷的優(yōu)化和優(yōu)化中見證這些挑戰(zhàn),就像歷史上許多創(chuàng)新一樣。 AI 代理商對人類社會產(chǎn)生了積極而深刻的影響。
參考鏈接:
https://www.reuters.com/technology/race-towards-autonomous-ai-agents-grips-silicon-valley-2023-07-17/
本文來自微信微信官方賬號“學術(shù)頭條”(ID:SciTouTiao),作者:學術(shù)頭條,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com