亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

斯坦福新研究:RAG能否幫助LLM更加可靠?

2024-06-01

【導(dǎo)讀】斯坦福大學(xué)的研究人員討論了RAG系統(tǒng)和LLM無(wú)RAG。 (例如GPT-4)在回答問(wèn)題時(shí)比較穩(wěn)定。研究發(fā)現(xiàn),RAG系統(tǒng)的事實(shí)準(zhǔn)確性取決于人工智能模型提前訓(xùn)練的知識(shí)強(qiáng)度和參考信息的準(zhǔn)確性。


大語(yǔ)言模型(LLM)雖然功能齊全,但容易產(chǎn)生幻覺(jué)。


另外,他們受其訓(xùn)練詞庫(kù)所包含的知識(shí)的限制,因此無(wú)法回答相關(guān)近期事件或公開(kāi)有限數(shù)據(jù)的查詢。


為解決上述問(wèn)題,檢索增強(qiáng)生成(RAG)這是一個(gè)常用的框架,它為L(zhǎng)LM提示提供相關(guān)的檢索內(nèi)容,獲取相關(guān)信息的參考文件或數(shù)據(jù)庫(kù),并能顯著提高模型的準(zhǔn)確性。


大多數(shù)商業(yè)LLM,如ChatGPT、Gemini和Perplexity.ai,某一版本的RAG已經(jīng)在他們的Web頁(yè)面上使用。


例如,ChatGPT使用Bing搜索,Gemini瀏覽Google搜索結(jié)果。


但是,當(dāng)通過(guò)RAG提供的語(yǔ)言模型內(nèi)部知識(shí)與數(shù)據(jù)不一致時(shí),或者當(dāng)網(wǎng)絡(luò)結(jié)果不斷變化,可能包含過(guò)時(shí)、錯(cuò)誤或有害信息時(shí),這個(gè)問(wèn)題就變得更加復(fù)雜。


因此,客觀地評(píng)估使用RAG的LLM行為,尤其是目前,RAG系統(tǒng)越來(lái)越依賴于在許多領(lǐng)域提供事實(shí)信息,這與它們的非RAG對(duì)應(yīng)物的基準(zhǔn)測(cè)試一樣重要。


LLM與RAG的量化關(guān)系


最新的斯坦福研究旨在量化LLM內(nèi)部知識(shí)與RAG設(shè)置中顯示的搜索信息之間的緊張關(guān)系。


沒(méi)有前后文(即沒(méi)有RAG),測(cè)試的語(yǔ)言模型平均值只能正確回答34.7%的問(wèn)題。有了RAG,準(zhǔn)確率提高到94%。


「先前」這意味著GPT-4響應(yīng)沒(méi)有上下文,「帶RAG」是指在提醒中包含相關(guān)檢索到的上下文響應(yīng)。


此外,還包括先驗(yàn)概率和RAG偏好率之間的斜率。例如,平均斜率為-0.23,這意味著每次先驗(yàn)token的概率增加10%,RAG偏好率下降2.3%。


研究人員對(duì)GPT-4和其他大語(yǔ)言模型進(jìn)行了區(qū)分,以區(qū)分這兩種良性競(jìng)爭(zhēng)的力量。(LLM)經(jīng)過(guò)測(cè)試,使用了6組不同的問(wèn)題,總共有1200多個(gè)問(wèn)題。


這些模型在提供正確的參考資料時(shí),正確回答了94%的問(wèn)題。


但是,當(dāng)參考文件逐漸被錯(cuò)誤值修改時(shí),如果模型本身在這個(gè)主題上的預(yù)訓(xùn)練知識(shí)較弱,LLM更容易重復(fù)錯(cuò)誤信息。


在預(yù)訓(xùn)知識(shí)較強(qiáng)的情況下,模型可以更好地抵御錯(cuò)誤的參考信息。


大語(yǔ)言模型基于參考文檔中信息的錯(cuò)誤程度。(LLM)可以通過(guò)檢索來(lái)增強(qiáng)生成(RAG)引用或從其知識(shí)庫(kù)中導(dǎo)出錯(cuò)誤答案。


當(dāng)修改后的信息和模型感覺(jué)合理的情況偏差更大時(shí),類似的方法出現(xiàn)了:偏差越脫離現(xiàn)實(shí),大語(yǔ)言模型越脫離現(xiàn)實(shí)。(LLM)越是依賴于自己的預(yù)訓(xùn)練知識(shí)。


盡管RAG系統(tǒng)可以顯著提高語(yǔ)言模型的事實(shí)準(zhǔn)確性,但它們并不是抵抗錯(cuò)誤信息的萬(wàn)能藥物。


上述試驗(yàn)表明,使用高質(zhì)量參考數(shù)據(jù)的RAG可以顯著提高LLMs的準(zhǔn)確性。


另外,良好的模型訓(xùn)練以前的知識(shí)有助于識(shí)別和忽略不切實(shí)際的信息。


RAG提醒強(qiáng)度與模型先驗(yàn)知識(shí)之間的博弈


另外,遵循參考資料的提示強(qiáng)度也會(huì)產(chǎn)生影響:更強(qiáng)的提醒使模型更容易遵循參考資料。


相反,當(dāng)提醒不那么嚴(yán)格時(shí),模型有更多的自由來(lái)衡量其之前的知識(shí)和參考信息時(shí),遵循參考信息的可能性就會(huì)降低。



大語(yǔ)言模型(LLM)增強(qiáng)生成瀏覽檢索(RAG)從參考中獲取信息的準(zhǔn)確性將受到數(shù)據(jù)的影響。


為實(shí)現(xiàn)盡可能高的準(zhǔn)確性,必須非常清楚地告知LLM,它應(yīng)該只從參考中獲取數(shù)據(jù)。


使RAG能夠更好地幫助LLM。


與傳統(tǒng)搜索引擎相比,RAG系統(tǒng)具有獨(dú)特的吸引力,它們可以結(jié)合先驗(yàn)知識(shí)來(lái)填補(bǔ)空白,并推斷檢索到的信息。


但是隨著衡量——也就是說(shuō),這種先驗(yàn)知識(shí)可以覆蓋文檔中提供的信息。


雖然強(qiáng)大的先驗(yàn)知識(shí)本身并不是問(wèn)題(一般可以保護(hù)模型),但缺乏對(duì)模型如何混合RAG參考文件及其先驗(yàn)知識(shí)的明確預(yù)期,可能會(huì)導(dǎo)致下游結(jié)論不準(zhǔn)確。


例如,RAG系統(tǒng)被用來(lái)提取嵌套的財(cái)務(wù)數(shù)據(jù)用于算法。如果財(cái)務(wù)文檔中有錯(cuò)別字,會(huì)發(fā)生什么?模型會(huì)注意到錯(cuò)誤嗎?如果是這樣,它會(huì)提供什么數(shù)據(jù)來(lái)代替它?


鑒于LLM將在包括醫(yī)學(xué)和法律在內(nèi)的許多領(lǐng)域進(jìn)行廣泛的部署,用戶和開(kāi)發(fā)者應(yīng)該意識(shí)到他們的意想不到的效果,并給出計(jì)劃。


顧客需要更多地了解模型如何處理隱藏的矛盾或錯(cuò)誤信息,以及RAG系統(tǒng)和LLM一樣,也可能出錯(cuò)。


參考資料:


https://arxiv.org/pdf/2404.10198


https://the-decoder.com/study-shows-tension-between-llm-prior-knowledge-and-reference-data/


本文來(lái)自微信微信官方賬號(hào)“新智元”(ID:AI_era),編輯:Mindy,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com