谷歌Gemini解鎖新技能:AI讀網(wǎng)頁(yè)有了新玩法
基礎(chǔ)模型正不斷將更多的「外部能力」內(nèi)置化。谷歌回歸搜索老本行,此次要讓AI像人一樣「看見」網(wǎng)頁(yè)。
這是谷歌不久前在Gemini API全面上線的URL Context功能(5月28日已在Google AI Studio中推出),該功能使Gemini模型能夠訪問并處理來自URL的內(nèi)容,包括網(wǎng)頁(yè)、PDF和圖像。
Google產(chǎn)品負(fù)責(zé)人Logan Kilpatrick表示,這是他最喜歡的Gemini API工具,還推薦大家將其設(shè)為默認(rèn)開啟的「無腦選項(xiàng)」。
有人會(huì)問:這和平時(shí)把鏈接扔給AI對(duì)話框有啥本質(zhì)區(qū)別?感覺一直都這么做。
區(qū)別在于處理深度和工作方式。平時(shí)扔鏈接,AI通常借助通用瀏覽工具或搜索引擎插件「看」網(wǎng)頁(yè),很可能只讀取了網(wǎng)頁(yè)的摘要或部分文本。
而URL Context不同,它是專為開發(fā)者設(shè)計(jì)的編程接口(API)。當(dāng)開發(fā)者在程序里調(diào)用該功能時(shí),是明確指令Gemini「把這個(gè)URL里的全部?jī)?nèi)容(上限高達(dá)34MB)作為回答下一個(gè)問題的唯一、權(quán)威的上下文」,Gemini會(huì)進(jìn)行深度、完整的文檔解析,理解整個(gè)文檔的結(jié)構(gòu)、內(nèi)容和數(shù)據(jù)。
其能力清單如下:
深度解析PDF:能深刻理解PDF中的表格、文本結(jié)構(gòu)甚至腳注。
多模態(tài)理解:能處理PNG、JPEG等圖片,并理解其中的圖表和圖示。
支持多種網(wǎng)頁(yè)文件:HTML、JSON、CSV等常見格式都能處理。
官方API文檔有詳細(xì)的配置教程,也可在Google AI Studio直接體驗(yàn)。
Towards Data Science上的一篇文章詳細(xì)介紹了URL Context Grounding,作者Thomas Reid犀利地將其評(píng)價(jià)為「RAG的又一顆棺材釘」。
文章地址: https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/
RAG是過去幾年提升大語言模型回答準(zhǔn)確性、時(shí)效性和可靠性的主流技術(shù)。因大模型的知識(shí)截止于訓(xùn)練數(shù)據(jù),RAG通過外部知識(shí)庫(kù)為其提供最新、特定的信息。
傳統(tǒng)的RAG流程較復(fù)雜,通常包括以下步驟:
提取內(nèi)容:從數(shù)據(jù)源(如網(wǎng)站、文檔)中抓取文本。
分塊:將長(zhǎng)文本切分成更小、更易處理的片段。
矢量化:用嵌入模型(Embedding Model)將文本塊轉(zhuǎn)換為數(shù)字向量,捕捉語義信息。
存儲(chǔ):將向量存儲(chǔ)在專門的向量數(shù)據(jù)庫(kù)中。
檢索:用戶提問時(shí),系統(tǒng)先在向量數(shù)據(jù)庫(kù)中搜索與問題最相關(guān)的文本塊。
增強(qiáng)與生成:把檢索到的相關(guān)文本塊作為上下文信息,和原始問題一起輸入大語言模型,生成更準(zhǔn)確、有針對(duì)性的回答。
Thomas Reid指出,使用URL Context Grounding「無需提取URL文本和內(nèi)容、分塊、矢量化、存儲(chǔ)等」。對(duì)于處理公開網(wǎng)絡(luò)內(nèi)容這一常見場(chǎng)景,它提供了極其簡(jiǎn)單的替代方案。
開發(fā)者無需花費(fèi)大量時(shí)間和精力搭建和維護(hù)由多個(gè)組件(數(shù)據(jù)提取、向量數(shù)據(jù)庫(kù)等)組成的復(fù)雜管道,只需幾行代碼就能實(shí)現(xiàn)更精準(zhǔn)的效果。
在Thomas Reid提供的示例中,Gemini僅憑一個(gè)指向特斯拉50頁(yè)財(cái)報(bào)PDF的URL,就準(zhǔn)確無誤地提取出了位于第4頁(yè)表格中的「總資產(chǎn)」和「總負(fù)債」數(shù)據(jù),這是僅靠摘要無法完成的任務(wù)。
自特斯拉SEC 10 - Q申報(bào)文件第4頁(yè)內(nèi)容。
以下是在Google AI Studio中的測(cè)試結(jié)果。
作者還測(cè)試了URL Context挑選其他信息的能力。在PDF末尾,有一封寫給即將離開公司的員工的信,概述了他們的遣散條款。
信中提到的退出日期用星號(hào)(***)標(biāo)記,屏蔽退出日期的原因在腳注中給出。
URL Context準(zhǔn)確識(shí)別出了腳注中的內(nèi)容。
根據(jù)所提供的文件,員工離職協(xié)議中的離職日期被標(biāo)記為「***」,原因在于某些公司視為隱私或機(jī)密的特定非關(guān)鍵信息,已在公開文件中被有意略去。
該文件包含一條對(duì)此做法的澄清說明:「本文檔中某些已識(shí)別的信息已被略去,因?yàn)檫@些信息并非關(guān)鍵信息,且屬于公司視為隱私或機(jī)密的信息類型,并已用「***」標(biāo)記以示省略之處。
據(jù)官網(wǎng)介紹,URL Context采用兩步檢索流程,以平衡速度、成本和對(duì)最新數(shù)據(jù)的訪問。
用戶提供URL時(shí),該工具先嘗試從內(nèi)部索引緩存中獲取內(nèi)容,以提高速度和成本效益。若URL不在緩存中(如剛發(fā)布的頁(yè)面),它會(huì)進(jìn)行實(shí)時(shí)抓取。
其能力邊界在官方介紹中有明確說明:
無法翻越「付費(fèi)墻」:需要登錄或付費(fèi)才能訪問的內(nèi)容,它無法處理。
專用工具優(yōu)先:YouTube視頻、Google Docs等有專門API處理的內(nèi)容,它不會(huì)涉足。
有明確的容量限制:?jiǎn)未握?qǐng)求最多處理20個(gè)URL,且單個(gè)URL內(nèi)容上限為34MB。
價(jià)格方面,它按處理的內(nèi)容Token數(shù)量計(jì)費(fèi)。提供的URL內(nèi)容越多,轉(zhuǎn)換成輸入Token的數(shù)量就越多,成本也相應(yīng)增加。這或許會(huì)引導(dǎo)開發(fā)者進(jìn)行更高效的應(yīng)用設(shè)計(jì),精確提供所需信息源,優(yōu)化成本。
不過,URL Context Grounding的出現(xiàn)并非宣告RAG的終結(jié),而是對(duì)其應(yīng)用場(chǎng)景的重新劃分。對(duì)于處理企業(yè)內(nèi)網(wǎng)的海量私有文檔、需要復(fù)雜檢索邏輯和極致安全性的場(chǎng)景,構(gòu)建一套自主可控的RAG系統(tǒng)依然不可或缺。
URL Context揭示了一個(gè)行業(yè)趨勢(shì):基礎(chǔ)模型正在將越來越多的「外部能力」內(nèi)置化。過去由應(yīng)用層開發(fā)者承擔(dān)的復(fù)雜數(shù)據(jù)處理工作,正逐步被底層模型的服務(wù)吸收。
本文來自微信公眾號(hào)“機(jī)器之心”(ID:almosthuman2014),作者:關(guān)注AI的機(jī)器之心,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com