亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

吳恩達(dá)的最新演講:AI Agent推動(dòng)下一個(gè)創(chuàng)新浪潮

2024-06-19

Luminary在2024年Snowflake峰會(huì)開(kāi)發(fā)者日的演講中,Landing AI創(chuàng)始人兼首席執(zhí)行官吳恩達(dá)闡述了AI智能體工作流及其潛力。與下一代基礎(chǔ)模型相比,吳恩達(dá)認(rèn)為AI智能體工作流可能會(huì)帶來(lái)更多的AI進(jìn)步。在演講中,吳恩達(dá)重點(diǎn)講述了AI智能體工作流如何迭代進(jìn)行任務(wù),從而比傳統(tǒng)的零樣本提醒方式產(chǎn)生高質(zhì)量的結(jié)果。


同時(shí),吳恩達(dá)也分享了Landing。 AI團(tuán)隊(duì)在視覺(jué)智能體方面的最新進(jìn)展,展示了視覺(jué)智能體在復(fù)雜任務(wù)中的應(yīng)用,進(jìn)一步證明了智能體工作流的有效性和普遍應(yīng)用價(jià)值,分析和展望了其局限性和未來(lái)發(fā)展趨勢(shì)。他呼吁開(kāi)發(fā)者關(guān)注和參與AI智能體技術(shù)的發(fā)展,共同推動(dòng)這一激動(dòng)人心的趨勢(shì)。


他指出,雖然技術(shù)仍有缺陷,但AI智能體的工作流已經(jīng)開(kāi)始從一個(gè)新穎的“玩具”轉(zhuǎn)變?yōu)橐粋€(gè)真正的實(shí)用階段,這將為未來(lái)的開(kāi)發(fā)者帶來(lái)前所未有的高效創(chuàng)新感受。吳恩達(dá)認(rèn)為,通過(guò)開(kāi)源和社區(qū)合作,這些技術(shù)將不斷發(fā)展,開(kāi)發(fā)者的能力將得到顯著提高。


下面是演講內(nèi)容目錄:


01 AI智能體工作流程


02 視覺(jué)智能體


03 目前視覺(jué)智能體技術(shù)不足



01 AI智能體工作流程


因?yàn)檫@是一個(gè)開(kāi)發(fā)者大會(huì),我想借此機(jī)會(huì)和大家分享一些我想和大家分享的人工智能體。 (AI agent) 感到興奮的事。實(shí)際上,我將分享一些從未公開(kāi)過(guò)的新內(nèi)容。每個(gè)人都知道人工智能代理,對(duì)嗎?許多人習(xí)慣于使用大型語(yǔ)言模型來(lái)提醒所謂的零樣本,這意味著要寫(xiě)一篇文章或回應(yīng)提醒。這個(gè)問(wèn)題有點(diǎn)像你去找一個(gè)人,對(duì)他說(shuō),請(qǐng)你寫(xiě)一篇關(guān)于某一主題的文章,從頭到尾一次性寫(xiě)完,不允許使用退格鍵。盡管這樣寫(xiě)作很難——我自己也不能這樣寫(xiě)——但是大型語(yǔ)言模型的表現(xiàn)還是相當(dāng)不錯(cuò)的。


相比之下,智能體工作流 (agentic workflow) 工作流程要迭代得多。你可能會(huì)讓一個(gè)語(yǔ)言模型先寫(xiě)一篇文章大綱,然后問(wèn)它是否需要在線搜索。如有必要,它會(huì)在網(wǎng)上搜索,獲取一些信息,然后寫(xiě)原稿。然后看看你的手稿,看看它是否可以改進(jìn),然后修改它。


所以,智能體的工作過(guò)程看上去更像是這樣:模型可以先思考,做一些研究,然后進(jìn)行修改,然后進(jìn)行更多的思考。


事實(shí)上,這種迭代循環(huán)會(huì)產(chǎn)生更好的最終產(chǎn)品。如果你考慮用代理人敲代碼,情況也是一樣的。今天我們經(jīng)常讓一個(gè)模型直接敲代碼,就像讓一個(gè)開(kāi)發(fā)者從頭到尾一次打程序一樣,第一次和最后一個(gè)字符都是這樣運(yùn)行代碼的,雖然效果出奇的好。然而,代理人的工作流程也可以顯著提高工作效果。


我的團(tuán)隊(duì)收集了一些數(shù)據(jù),這些信息是基于一個(gè)叫Human的信息。 Eval的編碼標(biāo)準(zhǔn),這是OpenAI幾年前發(fā)布的一個(gè)標(biāo)準(zhǔn)標(biāo)準(zhǔn),里面有一些這樣的編碼問(wèn)題,比如給出一個(gè)非負(fù)整數(shù)數(shù)組,回到一些數(shù)據(jù),結(jié)果就是這個(gè)答案。


事實(shí)證明,GPT-在這一評(píng)價(jià)指標(biāo)中,3.5的通過(guò)率為48%,即在零樣本提示下,直接編寫(xiě)代碼的準(zhǔn)確率為48%。而且GPT-4要好得多,準(zhǔn)確率達(dá)到67%。但是事實(shí)證明,如果把GPT-3.5放到一個(gè)代理工作過(guò)程中,它的表現(xiàn)會(huì)更好。而且GPT-4在這一過(guò)程中的表現(xiàn)也特別好。所以,我希望你能從中學(xué)到的一點(diǎn)是,盡管從GPT-3.5到GPT-4的進(jìn)步是巨大的,但是與GPT-3.5在代理工作過(guò)程中的進(jìn)步相比,這一進(jìn)步實(shí)際上是相形見(jiàn)絀的。對(duì)所有正在構(gòu)建應(yīng)用程序的人來(lái)說(shuō),我認(rèn)為這可能顯示了代理工作流程的巨大潛力。


02 視覺(jué)智能體


我的團(tuán)隊(duì)在Landing AI從事視覺(jué)AI工作,我想和大家分享一些最新的進(jìn)展,這是我以前從未展示過(guò)的。我們前幾天剛開(kāi)源了這個(gè)項(xiàng)目,我很興奮,就是建立一個(gè)視覺(jué)智能體(visual agent)。


Dillon項(xiàng)目負(fù)責(zé)人 作為一名狂熱的沖浪愛(ài)好者,Laird經(jīng)??歹忯~(yú)視頻。它是一條鯊魚(yú),它是一個(gè)沖浪者在游動(dòng)。對(duì)于這類視頻,Dillon非常感興趣,比如這些鯊魚(yú)離沖浪者有多近。這段視頻是產(chǎn)生的,例如鯊魚(yú)離沖浪者6.07米,7.2米,9.4米。現(xiàn)在鯊魚(yú)離沖浪者已經(jīng)足夠遠(yuǎn)了,所以我們把顏色從紅色變成綠色。如果沖浪者離鯊魚(yú)超過(guò)10米,顏色就會(huì)變綠。


如果你想通過(guò)敲擊代碼來(lái)實(shí)現(xiàn)這一點(diǎn),你需要測(cè)量對(duì)象,測(cè)量一些東西,找到邊界框,畫(huà)一些東西。你可以做到,但這很麻煩。敲擊代碼需要幾個(gè)小時(shí)。現(xiàn)在我想展示一下我們構(gòu)建這個(gè)視頻的方法。我們寫(xiě)了一個(gè)提醒:你能在視頻中檢測(cè)到任何圓圈或鯊魚(yú)嗎?視頻中畫(huà)一條綠線表示沖浪者,假設(shè)30像素是1米,多條紅線等等。


它是視覺(jué)智能論的指令。根據(jù)這種自然語(yǔ)言提醒,它將轉(zhuǎn)換成一系列步驟的指令集,例如使用extract_frames工具提取視頻幀等。那就是完成這個(gè)任務(wù)所需要的一系列步驟。之后會(huì)對(duì)工具進(jìn)行檢索,即函數(shù)調(diào)用。比如save_video,它是一個(gè)能保存一系列幀的實(shí)用函數(shù)。接下來(lái),我們將對(duì)save_video工具或save_video函數(shù)進(jìn)行詳細(xì)說(shuō)明。其它工具如closest_box_distance測(cè)量鯊魚(yú)和沖浪者之間的距離,同樣如此?;诖耍覀冏罱K生成了一個(gè)代碼,當(dāng)這個(gè)自動(dòng)生成的代碼運(yùn)行時(shí),你之前看到的視頻就會(huì)產(chǎn)生。因此,我想更深入地解釋一下這是如何實(shí)現(xiàn)的。


因此,我們建立的視覺(jué)代理就是這樣工作的。您可以輸入一個(gè)提醒。這個(gè)提醒比我剛才用的稍微簡(jiǎn)單一點(diǎn),比如計(jì)算鯊魚(yú)和最近的圓之間的距離。我們的視覺(jué)代理旨在編寫(xiě)代碼來(lái)執(zhí)行您提示的任務(wù),這樣您就可以輸入單個(gè)圖像并生成所需的結(jié)果。


與編寫(xiě)非圖像代碼的代理工作流程相似,我們發(fā)現(xiàn)對(duì)許多應(yīng)用程序來(lái)說(shuō),這種方法比零樣本提醒要好得多。此外,我們還發(fā)現(xiàn),對(duì)于許多圖像用戶來(lái)說(shuō),例如,如果你在Snowflake中有10萬(wàn)個(gè)圖像,那么在大量圖像上有一個(gè)非常高效的運(yùn)行代碼也是非常重要的,因?yàn)橐坏┠阌辛舜a,你就可以處理大量的圖像或視頻幀,并通過(guò)相對(duì)高效的代碼處理得到答案。



我想和大家分享一下視覺(jué)代理的工作原理。它是開(kāi)源的,所以請(qǐng)看一看,給我們反饋,也許可以幫助我們改進(jìn)。視覺(jué)代理是由兩個(gè)代理人組成的。一是編寫(xiě)代碼的代理,二是測(cè)試代碼的代理。給出這樣的提醒,編寫(xiě)代碼的代理人首先運(yùn)行一個(gè)計(jì)劃程序,生成一個(gè)計(jì)劃來(lái)實(shí)現(xiàn)目標(biāo)所需的步驟。比如載入圖像,使用工具檢測(cè)目標(biāo),計(jì)算距離等等。接下來(lái),它將對(duì)這些工具(即函數(shù))進(jìn)行詳細(xì)的描述,最終生成代碼。


不知這一切聽(tīng)起來(lái)是否有點(diǎn)像法術(shù),但是所有的代碼都在GitHub上??匆豢?,看看我們使用的具體提醒。當(dāng)你看到細(xì)節(jié)時(shí),你可能會(huì)感到驚訝。雖然你第一次看的時(shí)候可能會(huì)覺(jué)得這些東西像法術(shù),但是如果你看代碼和提醒,你可能會(huì)發(fā)現(xiàn)原理。在你這樣做的時(shí)候,還有其它的演示。舉例來(lái)說(shuō),檢查每個(gè)人是否戴口罩,并生成一本Python詞典。生成一堆代碼,這是一本Python詞典,八個(gè)人戴著口罩,兩個(gè)人都沒(méi)戴。


這是一個(gè)不同的提示。事實(shí)上,它生成了可視化,并繪制了測(cè)試結(jié)果。所以這是一個(gè)自動(dòng)生成的新代碼。比如它漏掉了一些沒(méi)戴口罩的人,沒(méi)有發(fā)現(xiàn)沒(méi)戴口罩的人。


再舉一個(gè)例子,很有意思。對(duì)視頻進(jìn)行分析,每?jī)擅敕诸愐淮?,看看有沒(méi)有車禍。輸出JSON,顯示是否發(fā)生車禍。這段視頻持續(xù)了16秒,我感覺(jué)沒(méi)有人受傷。當(dāng)你這樣做的時(shí)候,右邊的代碼會(huì)處理視頻,生成JSON,顯示此時(shí)沒(méi)有車禍,此時(shí)有車禍。雖然我自己也能寫(xiě)出這個(gè)代碼,但是我的內(nèi)部團(tuán)隊(duì)和一些用戶給了我?guī)讉€(gè)小時(shí)的反饋。現(xiàn)在可以很快完成。


在計(jì)算機(jī)視覺(jué)領(lǐng)域,我們使用了許多不同的函數(shù)。說(shuō)實(shí)話,我經(jīng)常記不住用哪個(gè)函數(shù),語(yǔ)法是什么。只要能正常工作,建立視覺(jué)AI的過(guò)程真的更容易。


我還想分享其他提高性能的方法,使用測(cè)試代理。我展示了編寫(xiě)代碼的代理人,這證明你可以提醒一個(gè)語(yǔ)言模型來(lái)編寫(xiě)測(cè)試代碼或測(cè)試腳本。基于這些,它可以執(zhí)行測(cè)試代碼。


目前我們的測(cè)試代碼主要是類型檢查,所以有些有限,但即便如此,我們也可以執(zhí)行測(cè)試代碼。如果測(cè)試代碼失敗,我們會(huì)將導(dǎo)出反饋給編寫(xiě)代碼的代理人,使其反思和重復(fù)代碼。這樣可以進(jìn)一步提高性能。


就學(xué)術(shù)文獻(xiàn)而言,我們參考最多的兩篇論文是Huang等人代理代碼論文和Huang等人數(shù)據(jù)編譯論文。若您想了解更多這些技術(shù),可以閱讀這些論文。


最后,展示一個(gè)演示,它每?jī)擅腌姍z測(cè)一次視頻中的摩托車,并高亮顯示一次。事實(shí)上,這是為了處理閉路電視的監(jiān)控視頻而制作的。像特斯拉汽車一樣拼接成視頻,普通人認(rèn)為有趣的地方需要高亮顯示。


因此,這是一個(gè)很長(zhǎng)的提示和YouTube鏈接。它創(chuàng)建了指令并檢索了工具。結(jié)果發(fā)現(xiàn)代碼運(yùn)行不正常,對(duì)吧?所以這個(gè)代碼實(shí)際上失敗了好幾次。你可以在這里看到一個(gè)錯(cuò)誤的檢索回溯。它將所有這些錯(cuò)誤信息反饋給大型語(yǔ)言模型。第三次失敗時(shí),沒(méi)有一個(gè)模塊叫PyTube。


最終,Pip安裝PyTube解決了這一問(wèn)題,代碼運(yùn)行成功,并生成了四個(gè)突出監(jiān)控?cái)z像頭視頻,其中包括超過(guò) 10 汽車視頻短片的效果。對(duì)于這一方向,我非常感興趣,它適用于許多應(yīng)用程序,包括編程和視覺(jué)智能。


03 目前視覺(jué)智能體技術(shù)不足


我真的很想分享一些限制。在每個(gè)人的實(shí)驗(yàn)中,失敗是很常見(jiàn)的。我們使用通用對(duì)象檢測(cè)系統(tǒng),有時(shí)我們無(wú)法檢測(cè)到目標(biāo)。例如,一些黃色西紅柿被遺漏了。這是常見(jiàn)的錯(cuò)誤之一。


對(duì)于Landing,我 與Snowflake的AI合作令人興奮,我們最近建立了Landing。 Lens,這個(gè)監(jiān)督學(xué)習(xí)計(jì)算機(jī)視覺(jué)系統(tǒng)是Snowflake的原始應(yīng)用。通過(guò)監(jiān)督學(xué)習(xí),我認(rèn)為我們可以減少一些錯(cuò)誤。但是它在復(fù)雜的推理上表現(xiàn)不佳。例如,每只鳥(niǎo)重半公斤,護(hù)欄上總共有多少重量。這個(gè)系統(tǒng)會(huì)天真地檢測(cè)出所有的鳥(niǎo),但是沒(méi)有意識(shí)到有一只鳥(niǎo)在飛,不會(huì)施加重量。但是如果你修改提醒,說(shuō)忽略了飛鳥(niǎo),它就能正確識(shí)別出來(lái)。我覺(jué)得今天發(fā)布的視覺(jué)智能體是beta版本,有時(shí)候可以正常工作,有時(shí)候不行,對(duì)提示的措辭有些挑剔,有時(shí)候需要更具體的描述步驟。


所以,我不會(huì)說(shuō)這是一個(gè)很好的軟件,但是有時(shí)候它可以工作,我對(duì)結(jié)果感到很高興和驚訝。事實(shí)上,今天的團(tuán)隊(duì)成員也在這里。不管是在這里還是在Landinging,我希望你能和他們談?wù)劇?AI展位,也可在線訪問(wèn)landing.ai。同時(shí),我們也開(kāi)放了核心發(fā)動(dòng)機(jī)。我認(rèn)為AI智能體是一個(gè)非常重要和令人興奮的趨勢(shì),我們做出了這個(gè)小小的開(kāi)源貢獻(xiàn),希望對(duì)大家有所幫助。但愿我們能夠一起使智能體變得更好,這將顯著提高我們作為開(kāi)發(fā)者的能力。


我看到AI智能體被用于許多不同的應(yīng)用程序。我想我們中的一些人可能已經(jīng)在社交平臺(tái)上看到了Devin的演示。我看到一些團(tuán)隊(duì)在做法律工作,比如分析復(fù)雜的法律規(guī)定,用智能體分析復(fù)雜的法律規(guī)定。


本人認(rèn)為AI研究智能體已能夠在網(wǎng)上搜索網(wǎng)頁(yè),綜合大量信息,撰寫(xiě)深入的研究文件。它的確開(kāi)始興起了。事實(shí)上,我經(jīng)常玩一些Agentic平臺(tái),比如Quora、AutoGen,有時(shí)候還有LandGraph和其它平臺(tái)。許多人基于這些框架建立了很多應(yīng)用?,F(xiàn)在,我發(fā)現(xiàn)許多智能體都是為了特定的目的而建造的,但是看看是否會(huì)有一個(gè)很普通的智能體是非常有趣的。這讓我感到非常興奮。


對(duì)許多智能體來(lái)說(shuō),我認(rèn)為我們剛剛跨過(guò)了從玩具新穎到實(shí)用的門(mén)檻。例如,AI研究智能體。幾個(gè)月前,我只是在網(wǎng)上玩,搜索信息,為你寫(xiě)研究論文。大約三個(gè)月前,這仍然是一個(gè)非常有趣的玩具。但就在過(guò)去的幾個(gè)月里,我的朋友,斯坦福大學(xué)的Monica Lam,Storm在她的研究實(shí)驗(yàn)室發(fā)布,這是一款開(kāi)源軟件,我認(rèn)為它的確逐漸變得有用。


本文來(lái)自微信微信官方賬號(hào)“烏鴉智能說(shuō)”(ID:wuyazhinengshuo),作者:智能禿鷲,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com