亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

Patchscopes實戰(zhàn)教程,包括拆箱黑盒LLM、谷歌統(tǒng)一框架。

2024-04-29

大模型最受詬病的問題是不透明,無法解釋。谷歌最新框架Patchscopes可以提供模型內(nèi)部隱藏表征的自然語言解釋。本文介紹了一些實際應用的例子。


雖然大的語言模型(LLM)它在各種常見的自然語言理解任務中表現(xiàn)出優(yōu)異的性能,但隨之而來的幻覺也揭示了模型在真實性和透明度上仍然存在問題。


如果模型能夠產(chǎn)生錯誤的回復內(nèi)容,「對這背后的運行機制有深入的了解」,或許可以解決模型幻覺問題。


但是,隨著深度神經(jīng)網(wǎng)絡的復雜性和規(guī)模的增加,模型「可解釋研究」通過探索機器學習,也越來越具有挑戰(zhàn)性。(ML)模型表示所學內(nèi)容(模型所謂隱藏表示)的方式,即隱藏表示(hidden representation),研究者能夠在一定程度上控制模型的行為,并對模型的實際運行方式有更深入的科學認識。


從以往的研究結(jié)果來看,一個相對有前途的方向是「利用LLMs來解釋其它模型的神經(jīng)元方法。」(neuron patterns)。


今年1月,Google Research和特拉維夫大學的研究人員共同提出了一個統(tǒng)一的框架Patchscopes來討論LLMs中的隱藏表征,其主要思想是使用LLMs來解釋相關模型本身的隱藏表征。


論文鏈接:https://arxiv.org/pdf/2401.06102.pdf


Patchscopes統(tǒng)一并擴展了現(xiàn)有的可解釋技術,可以讓模型回答以前無法解決的問題。例如,模型可以說出關于模型的內(nèi)容?!溉绾尾蹲侥P洼斎胫蠰LM的隱藏表征意義的細微差別?」觀點和想法,可以幫助開發(fā)者更容易地修復某些特定類型的推理錯誤。


當論文剛剛發(fā)表時,研究人員還只是將Patchscopes的使用場景集中在自然語言理解領域和自回歸Transformer模型家族中,但實際上這種方法的潛在應用范圍很廣。


最近,研究人員發(fā)布了一個博客,闡述了該方法在更復雜的場景中如何構(gòu)建預測的應用示例,以檢測和糾正模型幻覺,探索多模式(圖像和文本)的表征,以及研究模型如何在更復雜的場景中。


01 使用Patchscopes的方法


在NLP中很常見「實體共同指代解析」(co-references to entities)例如,在Patchscopes中,需要獲得一個專門用于解決共指問題的工具。


例如,對代詞進行模型研究。「it」如何理解代表人物的前后文,需要建立一套Patchscopes配置。



通過使用預定義的目標提示符(右)解碼源提示符(左),Patchscopes框架圖解,「It」編碼內(nèi)容在表征中。


設置 Setup

在給出目標模型之后,需要輸入一個標準提醒(即源提醒),包括上下文信息,source prompt),如“Patchscopes is robust. It helps interpret"(Patchscopes是穩(wěn)定的,有利于解釋…)


目標 Target

二級提醒(secondary prompt 即 target prompt)其目的是提取具體的隱藏信息,在這個例子中,一個簡單的單詞反復提醒就能揭示隱藏表征中的信息。


例子中的目標提示是「cat->cat; 135->135; hello->hello; ?」,但是需要注意的是,提醒中的單詞是隨機抽取的,所以看起來可能與輸入文本無關,但也需要遵循特定的寫作方法:包括多個例子,其中每個例子包括一個單詞、一個箭頭和單詞的重復。


若將文本輸入到訓練后的語言模型中,以預測下一個單詞,則該模型的預期輸出可以繼續(xù)遵循該模型。


也就是說,如果模型把它放在一起「?」用其它隨機詞替換內(nèi)容,使模型產(chǎn)生下一個單詞,從而檢查模型應該重復哪些單詞?


塊 Patch

在源提示符上執(zhí)行推理(inference),其中「It」transformation(示例中的f函數(shù))可以應用transformation(示例中的f函數(shù))將token中感興趣層的隱藏表征(圖中的綠點)注入目標提醒(圖中的橙點)。


揭示 Reveal

對增強后的輸入(augmented input),從模型到導出,包括原模型是如何在特定的前后文本中對單詞進行內(nèi)部對話的?「It」拓展的想法。


在給定的例子中,模型生成「Patchscopes」,解釋了在「It」token上方模型第四層的隱藏表征,結(jié)果表明,經(jīng)過四層計算,模型已經(jīng)將以前的詞匯信息合并到以前的詞匯中?!窱t」在token上方的隱藏表征中,得出結(jié)論,它不再指通用目標,而是指代替?!窹atchscopes」。


雖然token表征(綠點)可能看起來像一個浮點數(shù)向量,沒有任何意義解,但Patchscopes框架可以將其轉(zhuǎn)換為人們可以理解的文本,這意味著它指的是「Patchscopes」,和以前的工作一致,也就是說,關于一個主題的信息會在最后一個token中積累。


02 實戰(zhàn)Patchscopes


Patchscopes廣泛應用于LLMs的理解和控制。


下一個token預測(next token prediction)

根據(jù)給定的前后文,在計算過程中,模型可以「多早地」得到最后的預測?


Token預測是一種常見的方法,可以用來評估Transformer內(nèi)部的可解釋性方法,從中間隱藏表示。


Patchscope的效果特別好,即使在更復雜的初期或中期處理層:在不同的語言模型中,從第10層開始,它的性能優(yōu)于之前的方法,比如Tuned。 Lens和Logit Lens。


用下一個token預測任務來評價LLM中間隱藏表征的各種可解釋性方法,展示了使用一個簡單的方法?!窽oken Identity」目標提示符(即由k個表示與標志相似的函數(shù)的演示組成的目標提示符,格式為「tok_1 → tok_1 ; tok_2 → tok_2 ; ... ; tok_k」)和Tuned一起 Lens和Logit 與Lens方法相比。x軸是LLM中檢查的隱藏表征層;y軸顯示precision@1,測量token匹配原始分布中最高概率token示例的比例。


提取事實(pulling out facts)

在模型計算中,可以提前獲得特征信息(例如,某個國家的貨幣)。


在這個實驗中,研究人員主要考慮從文本中獲取屬性任務。文本來源是Hernandez等人編寫的常識和事實知識任務(2024年)。


論文鏈接:https://openreview.net/pdf?id=E4kE7LU2s14


使用目標提醒主要針對簡單的動詞關系,其次是占位符的主題。例如,我們應該從「States」在表征中獲得美國官方貨幣,使用目標提示符「The official currency of x」,考慮到Patchscopes應用程序不使用任何訓練示例,而且明顯優(yōu)于其它技術。


跨源層屬性提取準確性(Attribute extraction accuracy across source layers,簡稱REQ)。左:工具解決的問題(常識),54個來源提醒,12個類別。右:國家貨幣(事實),83個來源提醒,14個類別。


說明實體:不僅使用yes或no

處理輸入時如何理解模型?「亞歷山大帝」(Alexander the Great)這種多字輸入?


超越簡單的Patchscopes「這個問題已經(jīng)解決了」(has it figured this out yet)回答,揭示了模型如何從一開始就逐漸理解一個實體。


使用下列few-shot目標提醒,逐步處理解碼模型:「敘利亞:中東國家,列奧納多迪卡普里奧:美國演員,三星:韓國大型跨國家電及消費電子企業(yè),x」(Syria: Country in the Middle East, Leonardo DiCaprio: American actor, Samsung: South Korean multinational major appliance and consumer electronics corporation, x)。


在遍歷兩種不同的模式時(Vicuna-13 B和Pythia-12 B)在層次上,更多來自上下文的單詞被整合到當前的表征中,并體現(xiàn)在生成中。


通過定性案例說明實體分析:表達性生成說明,當通過層時,更多來自上下文的tokens被整合到當前的表征中?!附忉尅梗‥xplanation)指生成與源提示詞的關系。這兩個例子都使用了上述相同的目標提示符。


團隊合作:用模型解釋模型

Patchscopes框架可以用強大的語言模型來解碼較小的過程:研究人員使用Vicuna-13 Vicuna-7a- B的輸入處理將隱藏的物理表征從較小的模型修復到較大的模型,然后測量模型生成的文本和維基百科的具體參考描述之間的詞匯相似度(使用RougeL評分)。


Vicuna-7 B → 13 B(綠線)幾乎總是高于Vicuna-7 B → 7 B(藍線)曲線下面積較大。結(jié)果表明,跨模型被修復為更大、更有表現(xiàn)力的模型,在優(yōu)化生成和參考文本之間詞匯相似度的結(jié)果表明,跨模型修復的過程顯著增強了模型能力,生成文本前后對齊的輸入表示從另一個模型。


利用Vicuna模型,RougeL(詞匯相似度)從Vicuna-7a-Vicuna- B到Vicuna-13 B的patched表征導致對popular和rare實體進行更具表現(xiàn)力的語言分析。


修正錯誤推理

雖然最先進的LLMs可以獨立處理每一個推理步驟,但是多步推理仍然很難實現(xiàn)。


Patchscopes可以通過再次隱藏路由中間的表征來幫助解決這個問題,從而顯著提高準確性:在實驗中,系統(tǒng)地生成了多跳的事實和常識推理查詢,并表明通過修復隱藏的表征,可以將輸入結(jié)構(gòu)的先驗知識從查詢的一部分固定到另一個固定。


思維鏈(CoT)Pathcscope使用相同的源提示和目標提醒來執(zhí)行順序推理,但是將一個位置的隱藏表征修復到另一個位置。


CoT Patchscope將準確率從19.57%提高到50%,這個實驗的目的是證明使用Patchscopes進行干預和糾正是合理的,但是要注意CoT Pathscope是一種表現(xiàn),而非一種通用的糾正方法。


參考資料:


https://research.google/blog/patchscopes-a-unifying-framework-for-inspecting-hidden-representations-of-language-models/


本文來自微信微信官方賬號“新智元”(ID:AI_era),作者:新智元,36氪經(jīng)授權發(fā)布。


本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com