斯坦福新研究:RAG能否幫助LLM更加可靠?
【導(dǎo)讀】斯坦福大學(xué)的研究人員討論了RAG系統(tǒng)和LLM無(wú)RAG。 (例如GPT-4)在回答問(wèn)題時(shí)比較穩(wěn)定。研究發(fā)現(xiàn),RAG系統(tǒng)的事實(shí)準(zhǔn)確性取決于人工智能模型提前訓(xùn)練的知識(shí)強(qiáng)度和參考信息的準(zhǔn)確性。
大語(yǔ)言模型(LLM)雖然功能齊全,但容易產(chǎn)生幻覺(jué)。
另外,他們受其訓(xùn)練詞庫(kù)所包含的知識(shí)的限制,因此無(wú)法回答相關(guān)近期事件或公開(kāi)有限數(shù)據(jù)的查詢。
為解決上述問(wèn)題,檢索增強(qiáng)生成(RAG)這是一個(gè)常用的框架,它為L(zhǎng)LM提示提供相關(guān)的檢索內(nèi)容,獲取相關(guān)信息的參考文件或數(shù)據(jù)庫(kù),并能顯著提高模型的準(zhǔn)確性。
大多數(shù)商業(yè)LLM,如ChatGPT、Gemini和Perplexity.ai,某一版本的RAG已經(jīng)在他們的Web頁(yè)面上使用。
例如,ChatGPT使用Bing搜索,Gemini瀏覽Google搜索結(jié)果。
但是,當(dāng)通過(guò)RAG提供的語(yǔ)言模型內(nèi)部知識(shí)與數(shù)據(jù)不一致時(shí),或者當(dāng)網(wǎng)絡(luò)結(jié)果不斷變化,可能包含過(guò)時(shí)、錯(cuò)誤或有害信息時(shí),這個(gè)問(wèn)題就變得更加復(fù)雜。
因此,客觀地評(píng)估使用RAG的LLM行為,尤其是目前,RAG系統(tǒng)越來(lái)越依賴于在許多領(lǐng)域提供事實(shí)信息,這與它們的非RAG對(duì)應(yīng)物的基準(zhǔn)測(cè)試一樣重要。
LLM與RAG的量化關(guān)系
最新的斯坦福研究旨在量化LLM內(nèi)部知識(shí)與RAG設(shè)置中顯示的搜索信息之間的緊張關(guān)系。
沒(méi)有前后文(即沒(méi)有RAG),測(cè)試的語(yǔ)言模型平均值只能正確回答34.7%的問(wèn)題。有了RAG,準(zhǔn)確率提高到94%。
「先前」這意味著GPT-4響應(yīng)沒(méi)有上下文,「帶RAG」是指在提醒中包含相關(guān)檢索到的上下文響應(yīng)。
此外,還包括先驗(yàn)概率和RAG偏好率之間的斜率。例如,平均斜率為-0.23,這意味著每次先驗(yàn)token的概率增加10%,RAG偏好率下降2.3%。
研究人員對(duì)GPT-4和其他大語(yǔ)言模型進(jìn)行了區(qū)分,以區(qū)分這兩種良性競(jìng)爭(zhēng)的力量。(LLM)經(jīng)過(guò)測(cè)試,使用了6組不同的問(wèn)題,總共有1200多個(gè)問(wèn)題。
這些模型在提供正確的參考資料時(shí),正確回答了94%的問(wèn)題。
但是,當(dāng)參考文件逐漸被錯(cuò)誤值修改時(shí),如果模型本身在這個(gè)主題上的預(yù)訓(xùn)練知識(shí)較弱,LLM更容易重復(fù)錯(cuò)誤信息。
在預(yù)訓(xùn)知識(shí)較強(qiáng)的情況下,模型可以更好地抵御錯(cuò)誤的參考信息。
大語(yǔ)言模型基于參考文檔中信息的錯(cuò)誤程度。(LLM)可以通過(guò)檢索來(lái)增強(qiáng)生成(RAG)引用或從其知識(shí)庫(kù)中導(dǎo)出錯(cuò)誤答案。
當(dāng)修改后的信息和模型感覺(jué)合理的情況偏差更大時(shí),類似的方法出現(xiàn)了:偏差越脫離現(xiàn)實(shí),大語(yǔ)言模型越脫離現(xiàn)實(shí)。(LLM)越是依賴于自己的預(yù)訓(xùn)練知識(shí)。
盡管RAG系統(tǒng)可以顯著提高語(yǔ)言模型的事實(shí)準(zhǔn)確性,但它們并不是抵抗錯(cuò)誤信息的萬(wàn)能藥物。
上述試驗(yàn)表明,使用高質(zhì)量參考數(shù)據(jù)的RAG可以顯著提高LLMs的準(zhǔn)確性。
另外,良好的模型訓(xùn)練以前的知識(shí)有助于識(shí)別和忽略不切實(shí)際的信息。
RAG提醒強(qiáng)度與模型先驗(yàn)知識(shí)之間的博弈
另外,遵循參考資料的提示強(qiáng)度也會(huì)產(chǎn)生影響:更強(qiáng)的提醒使模型更容易遵循參考資料。
相反,當(dāng)提醒不那么嚴(yán)格時(shí),模型有更多的自由來(lái)衡量其之前的知識(shí)和參考信息時(shí),遵循參考信息的可能性就會(huì)降低。
大語(yǔ)言模型(LLM)增強(qiáng)生成瀏覽檢索(RAG)從參考中獲取信息的準(zhǔn)確性將受到數(shù)據(jù)的影響。
為實(shí)現(xiàn)盡可能高的準(zhǔn)確性,必須非常清楚地告知LLM,它應(yīng)該只從參考中獲取數(shù)據(jù)。
使RAG能夠更好地幫助LLM。
與傳統(tǒng)搜索引擎相比,RAG系統(tǒng)具有獨(dú)特的吸引力,它們可以結(jié)合先驗(yàn)知識(shí)來(lái)填補(bǔ)空白,并推斷檢索到的信息。
但是隨著衡量——也就是說(shuō),這種先驗(yàn)知識(shí)可以覆蓋文檔中提供的信息。
雖然強(qiáng)大的先驗(yàn)知識(shí)本身并不是問(wèn)題(一般可以保護(hù)模型),但缺乏對(duì)模型如何混合RAG參考文件及其先驗(yàn)知識(shí)的明確預(yù)期,可能會(huì)導(dǎo)致下游結(jié)論不準(zhǔn)確。
例如,RAG系統(tǒng)被用來(lái)提取嵌套的財(cái)務(wù)數(shù)據(jù)用于算法。如果財(cái)務(wù)文檔中有錯(cuò)別字,會(huì)發(fā)生什么?模型會(huì)注意到錯(cuò)誤嗎?如果是這樣,它會(huì)提供什么數(shù)據(jù)來(lái)代替它?
鑒于LLM將在包括醫(yī)學(xué)和法律在內(nèi)的許多領(lǐng)域進(jìn)行廣泛的部署,用戶和開(kāi)發(fā)者應(yīng)該意識(shí)到他們的意想不到的效果,并給出計(jì)劃。
顧客需要更多地了解模型如何處理隱藏的矛盾或錯(cuò)誤信息,以及RAG系統(tǒng)和LLM一樣,也可能出錯(cuò)。
參考資料:
https://arxiv.org/pdf/2404.10198
https://the-decoder.com/study-shows-tension-between-llm-prior-knowledge-and-reference-data/
本文來(lái)自微信微信官方賬號(hào)“新智元”(ID:AI_era),編輯:Mindy,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com