亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

LLM前后文窗口超過200萬,無需改變結(jié)構(gòu)。 復(fù)雜的微調(diào),輕松擴(kuò)展8倍

2024-05-05

LongRoPE方法首次將LLM的窗口擴(kuò)展到2048ktoken,只需微調(diào)一下,就可以實(shí)現(xiàn)與短前后窗口相似的性能!


大語言模型(LLM)一般追求更長(zhǎng)的東西「前后文窗口」,但是由于微調(diào)成本高,長(zhǎng)文本稀缺,新token位置引入的災(zāi)難價(jià)值(catastrophic values)等問題,目前模型前后的窗口大多不超過128ktokenen


近期,Microsoft Research的研究人員提出了一種新的LongRoPE模型,首次進(jìn)行預(yù)訓(xùn)練 LLM 前后文窗口擴(kuò)展到2048ktoken,在256k的練習(xí)長(zhǎng)度下,只需要1000個(gè)微調(diào)步驟,同時(shí)還可以保持原來短前后文窗口的性能。


主要包括LongRoPE。三個(gè)關(guān)鍵創(chuàng)新點(diǎn):


1. 通過高效搜索識(shí)別和應(yīng)用位置插值中的兩種不均勻性,為微調(diào)提供了更好的初始化,并在非微調(diào)的前提下完成。 8 倍拓展;


2. 引入漸進(jìn)擴(kuò)展戰(zhàn)略,首先微調(diào) 256k 長(zhǎng)度的 LLM,然后在微調(diào)擴(kuò)展的LLM上進(jìn)行第二次位置插值,以實(shí)現(xiàn)。 2048k 前后文窗口;


3. 重新調(diào)整8k長(zhǎng)度。 為了恢復(fù)短前后文窗口性能,LongRoPE。


在 LLaMA2 和 Mistral 在各種任務(wù)中,大量的實(shí)驗(yàn)證明了這種方法的有效性。


通過 LongRoPE 擴(kuò)展模型保留了原有的結(jié)構(gòu),只對(duì)位置嵌入略有修改,并能重復(fù)使用大多數(shù)現(xiàn)有的優(yōu)化。


01 位置插值不均勻


Transformer模型需要明確的位置信息,通常嵌入位置。(position embedding)這種方法表示輸入token的順序。


本文中的位置嵌入表示方法主要來自RoPE, 位置檢索為 n 相應(yīng)的標(biāo)記 RoPE 代碼可以簡(jiǎn)化如下:


其中,d 就是嵌入層,nθi 就是在位置上標(biāo)記 n 上部旋轉(zhuǎn)角度,θi = θ -2i/d 表示轉(zhuǎn)動(dòng)頻率。是的 RoPE 中,θ 默認(rèn)基準(zhǔn)值為 10000。


受 NTK 和 YaRN 受到啟發(fā),研究人員注意到這兩種模式可以從非線性嵌入中提高性能,特別是考慮到 RoPE 在進(jìn)行特殊的內(nèi)插法和外推法時(shí),每個(gè)維度的不同頻率。


但是,目前的非線性在一定程度上依賴于人工設(shè)計(jì)的規(guī)則。


自然而然地引出了這個(gè)問題兩個(gè)問題:


1. 目前的位置插值是否為最佳?


2. 是否存在尚未探索的非線性?


為回答這些問題,研究人員使用進(jìn)化搜索(evolution search)找出LLaMA2-7B更好的非勻稱位置插值。PG19驗(yàn)證集中使用的5個(gè)隨機(jī)樣本,以常錯(cuò)性為導(dǎo)向。


科研人員通過實(shí)證研究,總結(jié)了幾個(gè)主要發(fā)現(xiàn)。


發(fā)覺1:在RoPE層面上表現(xiàn)出極大的不均勻性,當(dāng)前的位置插值方法無法有效地處理這些不均勻性;

在公式 2 中向每個(gè) RoPE 層次搜索最好 λ。


與PG19和Proof-pile測(cè)試相比,研究人員集中使用不同的方法。 LLaMA2-7B 沒有微調(diào)的情況下的復(fù)雜性。


從結(jié)果來看,獲得的解決方案有了明顯的改進(jìn),說明目前的線性解決方案(PI,positional interpolation)與非勻稱(Dynamic-NTK 和 YaRN)插值方法都不是最好的。


值得注意的是,YaRN 在 PG19 上面的表現(xiàn)不如 PI 和 NTK,因?yàn)樗荒苓_(dá)到非微調(diào) LLM 前后窗口長(zhǎng)度的目標(biāo)。


比如,在 8k 前后文大小的情況,YaRN 的困惑度在 7k 之后達(dá)到峰值。


公式,通過搜索 2 里的重標(biāo)度(rescaled)因素λ與PI相比,變得不均勻、在YaRN的分組計(jì)算中,NTK的公式轉(zhuǎn)換與固定標(biāo)度s不同。


這些不勻稱因素大大提高了LLaMA2在8k和16k前后的語言建模性能(即復(fù)雜性),而無需微調(diào)。根本原因是原始RoPE,尤其是關(guān)鍵層面,嵌入由此產(chǎn)生的位置高效保留,從而降低了LLM區(qū)分類似token位置的難度。


發(fā)覺2:RoPE推斷輸入序列中的初始詞塊應(yīng)該減少插值;

對(duì)于輸入序列中的初始n個(gè)token,假設(shè)RoPE應(yīng)該做更少的插值,因?yàn)樗鼤?huì)獲得更多的關(guān)注結(jié)果,這對(duì)于關(guān)注層來說尤為重要,就像在Streaming一樣。 LLM和 LM-Infinite 中間看到的那樣。


為了驗(yàn)證這一點(diǎn),研究人員使用PI和NTK將前后文窗擴(kuò)展到 8k 和 16k,保留前 n(0,2, ..., 256)token,不進(jìn)行插值。n=0 那時(shí),它又回到了原來的狀態(tài) PI 和 NTK



可以在上表中觀察到2個(gè)結(jié)果:


1. 在不進(jìn)行位置插值的情況下保留起始token確實(shí)可以提高性能。


2. 最佳起始token數(shù)n取決于目標(biāo)擴(kuò)展的長(zhǎng)度。


發(fā)覺3:非勻稱位置插值可以在微調(diào)和非微調(diào)設(shè)置中有效擴(kuò)展。 LLM 前后文窗口。

雖然已經(jīng)證明,在不進(jìn)行微調(diào)的情況下,搜索到的非勻稱位置插值可以顯著提高8k和16k的擴(kuò)展性能,但需要微調(diào)的擴(kuò)展時(shí)間更長(zhǎng)。


所以用搜索到的RoPE微調(diào)了LLaMA2-7B的64k前后文窗口大小。


從結(jié)果可以看出,在微調(diào)LLaMA2-7B之前和之后,這種方法明顯優(yōu)于PI和YaRN。主要原因是非勻稱位置插值的高效使用,信息損失最小化,微調(diào)提供了更好的初始化。


受上述發(fā)現(xiàn)的啟發(fā),研究人員提出了LongRoPE,首先引入了一種高效率的優(yōu)化算法,以充分利用這兩種不均勻性,并將LLM前后的窗口擴(kuò)展到 200 萬個(gè)token


02 實(shí)驗(yàn)結(jié)論


研究人員在LLaMA2-7B和Mistral-7B模型上應(yīng)用了LongRoPE,并從三個(gè)方面對(duì)其性能進(jìn)行了評(píng)估:


1. 擴(kuò)展前后文件的長(zhǎng)文檔 LLM 的困惑度;


2. 密匙(passkey)搜索任務(wù),這個(gè)任務(wù)衡量模型從大量無關(guān)文本中搜索簡(jiǎn)單密鑰的能力;


3. 標(biāo)準(zhǔn)LLM標(biāo)準(zhǔn)4096前后文窗口;


長(zhǎng)序列語言建模在256k范圍內(nèi)進(jìn)行

通過不同的插值方法在Proof-pile和PG19上擴(kuò)展 LLaMA2 和 Mistral 的困惑度。


從實(shí)驗(yàn)結(jié)論中可以得出兩個(gè)關(guān)鍵觀點(diǎn):


1. 從 4k 到 256k 從評(píng)估長(zhǎng)度來看,擴(kuò)展模型顯示出整體混亂程度下降的趨勢(shì),說明模型有實(shí)力使用更長(zhǎng)的前后文;


2. 即使是前后文窗口的長(zhǎng)度也是 16 倍數(shù)(這通常是在較短的前后文長(zhǎng)度下維持性能所面臨的挑戰(zhàn)),我們的 LongRoPE-2048k 模型在 256k 在前后文長(zhǎng)度上,性能仍然優(yōu)于最先進(jìn)的基線模型。



長(zhǎng)序列語言建模超過2000k

研究人員使用Books3數(shù)據(jù)來評(píng)估長(zhǎng)文檔的有效性。


隨機(jī)抽取20本書,每本書的長(zhǎng)度超過2048ktoken,并使用256k的滑動(dòng)窗口進(jìn)行評(píng)估。



通過結(jié)果可以看出,LongRoPE已經(jīng)成功地將LLaMA2-7B和Mistral-7B的前后文窗口擴(kuò)展到2048k,同時(shí)在8k-128k的較短長(zhǎng)度內(nèi),實(shí)現(xiàn)了與基線相當(dāng)或更好的混亂。


也能觀察到2048k LLaMA2和Mistral的顯著性能差異:Mistral在較短的長(zhǎng)度上優(yōu)于基線,但是當(dāng)混亂度超過256k時(shí),


LLaMA2的性能與預(yù)期一致:隨著時(shí)間的推移,混亂將會(huì)減少,在1024k和2048k時(shí)略有增加。


另外,在LLaMA2上,LongRoPE-在256k比128k的微調(diào)長(zhǎng)度下,2048k表現(xiàn)更好,主要是因?yàn)榇渭?jí)延伸比128k好。(secondary extension ratio)較小(即8倍對(duì)16倍)。


相比之下,Mistral在微調(diào)128k的窗口尺寸方面表現(xiàn)更好,主要是因?yàn)閷?duì)Mistral的128k和256k微調(diào),研究人員遵循YaRN的設(shè)置,使用16k的訓(xùn)練長(zhǎng)度,影響了Mistral在微調(diào)后進(jìn)一步擴(kuò)展前后窗口的能力。


參考資料:


https://arxiv.org/abs/2402.13753


本文來自微信微信官方賬號(hào)“新智元”(ID:AI_era),作者:新智元,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com