亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

10步提升超越強(qiáng)化學(xué)習(xí),只需1條未標(biāo)注數(shù)據(jù),后訓(xùn)練強(qiáng)勢破局。

06-05 11:24


【簡介】沒有監(jiān)督的熵最小化(EM)只有一個(gè)方法可以顯著提高大模型在推理任務(wù)中的表現(xiàn),而不需要標(biāo)注數(shù)據(jù)和提高10步左右,甚至超越依賴大量數(shù)據(jù)和復(fù)雜獎(jiǎng)勵(lì)制度的強(qiáng)化學(xué)習(xí)。(RL)。EM提供了一種更高效、更簡潔的新思路,通過優(yōu)化模型的預(yù)測分布,提高其對正確答案的信心。


經(jīng)過強(qiáng)大的通用性能,目前大模型的研究方向已轉(zhuǎn)向「如何解決具體而復(fù)雜的推理任務(wù)?」,比如數(shù)學(xué)題,分析物理變化,或者構(gòu)建編程邏輯。


為了達(dá)到更高的性能,除了大量的文本預(yù)訓(xùn)練外,通常還需要進(jìn)一步的后訓(xùn)練。


采用強(qiáng)化學(xué)習(xí)的主流后訓(xùn)練方法(RL),特別是結(jié)合可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)。


雖然基于RL的微調(diào)可以顯著提高模型性能,但它依賴于大規(guī)模、高質(zhì)量的標(biāo)記數(shù)據(jù),其訓(xùn)練效果也取決于開發(fā)者設(shè)計(jì)的復(fù)雜獎(jiǎng)勵(lì)函數(shù),需要專家知識來最大化優(yōu)勢信號,防止模型「獎(jiǎng)賞作弊」。


此外,許多常用的RL算法(如PPO)需要額外的獎(jiǎng)勵(lì)模型,這不僅增加了算法的復(fù)雜性,而且大大提高了多訓(xùn)練步驟和長采樣過程的計(jì)算成本。


最近,Ubiquant研究小組提出了一項(xiàng)LLM后訓(xùn)練的突破性研究,對比了13,440組大型訓(xùn)練試驗(yàn),確認(rèn)了一件事:


采用無監(jiān)督的方法「最小化單樣熵」(One-shot Entropy Minimization, 簡稱One-shot EM),只要一個(gè)未標(biāo)注的樣本和10步左右的推廣,就能達(dá)到RL模式的效果,甚至超越依賴數(shù)千條數(shù)據(jù)和精心設(shè)計(jì)的獎(jiǎng)勵(lì)系統(tǒng)。



論文鏈接:https://www.notion.so/One-shot-Entropy-Minimization-20266db813b8063973f850f39246


EM的核心理念是訓(xùn)練模型,不需要標(biāo)注任何數(shù)據(jù)或外部監(jiān)督,只需要依靠模型本身來預(yù)測分布熵。(entropy)進(jìn)行優(yōu)化。


事實(shí)上,效果是基于一個(gè)關(guān)鍵假設(shè)和一個(gè)簡單的直覺:如果一個(gè)模型本身足夠強(qiáng)大,那么當(dāng)它預(yù)測結(jié)果時(shí),「自信」同時(shí),也更有可能是正確的。


具體而言,EM訓(xùn)練模型更注重其概率質(zhì)量。最自信的導(dǎo)出事實(shí)上,正確答案通常比錯(cuò)誤答案具有更低的熵值。


EM可以通過優(yōu)化目標(biāo)來減少模型產(chǎn)生序列的熵,從而使模型變得更好?!缸孕拧梗@樣就可以加強(qiáng)他們在預(yù)訓(xùn)練階段獲得的能力。


在文章中,研究人員對one進(jìn)行了深入分析。-shot EM的有效性,發(fā)現(xiàn)它與強(qiáng)化學(xué)習(xí)有著相似的核心特征,但是從logits偏移的角度來看,它對模型行為的引導(dǎo)方向是相反的。


一般試驗(yàn)表明,「溫度」在推理階段,EM練習(xí)和推理表現(xiàn)是決定EM練習(xí)和推理表現(xiàn)的重要因素,與強(qiáng)化學(xué)習(xí)相反。


在本質(zhì)上,EM更像是一種「分布塑形工具」,而且非常規(guī)的學(xué)習(xí)方法。


熵最小化


具體而言,熵最小化的核心公式是:



設(shè)置?表示一種預(yù)訓(xùn)練自回歸語言模型pθ該模型的詞匯表由參數(shù)組成θ定義。


給出一個(gè)輸入提醒x(例如,一個(gè)問題或一個(gè)問題描述),模型根據(jù)其當(dāng)前策略自回歸生成一個(gè)響應(yīng)序列。 y=(y1,y2,,,,yT),其中T是生成序列的長度。核心思想是通過在每一步生成過程中最小化標(biāo)記級別的熵來降低模型對自身預(yù)測的不確定性。


時(shí)間步t的條件熵定義如下:



以下公式給出了單輸入X的整體EM損失:



簡而言之,這種損失函數(shù)激勵(lì)模型不需要依靠外部監(jiān)督信號或獎(jiǎng)勵(lì)函數(shù)來提高自己的預(yù)測信心。


因?yàn)樗耆蕾囉谀P捅旧?,而不是外部信號,完全適應(yīng)了預(yù)訓(xùn)練目標(biāo),可能會在有效簡化推廣過程的同時(shí)對模型中的一致性造成潛在的破壞。


僅僅使用一個(gè)樣本就足夠了!


熵最小化(EM)成功取決于成功「預(yù)測模型的不確定性」可以作為「有價(jià)值的訓(xùn)練信號」。


研究人員采用了一種基于此的方法。「模型表現(xiàn)方差」選擇樣本的方法,選擇信息量更大的輸入提醒:選擇模型性能不穩(wěn)定的樣本進(jìn)行訓(xùn)練,通過計(jì)算模型幾次生成結(jié)果的準(zhǔn)確性方差。




這種方差量化了模型對給出輸入預(yù)測的不一致性:低方差意味著對準(zhǔn)確性(接近完美的成功)沒有高度的信心,或者對失敗有高度的信心(完全錯(cuò)誤)。


相反,表現(xiàn)方差大的樣本可以更有效地驅(qū)動模型減少熵值,明確決策邊界,這也是為什么模型推理性能可以通過使用高質(zhì)量的樣本來快速提升的原因。


研究人員使用的唯一樣本如下:


Problem: The pressure P exerted by wind on a sail varies jointly as the area A of the sail and the cube of the wind’s velocity V. When the velocity is 8 miles per hour, the pressure on a sail of 2 square feet is 4 pounds. Find the wind velocity when the pressure on 4 square feet of sail is 32 pounds.


Solution: 12.8


以小博大,性能超越RL。


在多個(gè)數(shù)學(xué)推理任務(wù)中,研究人員測試了熵最小化(EM)數(shù)據(jù)顯示,EM方法只有一個(gè)樣本和10步訓(xùn)練,大大提高了Qwen2.5。-Math-7B的性能:



MATH500測試集:精確度由53%提高到78.8%,提高25.8%。%;


Minerva Math測試集:精確度由11%提高到35.3%,提高24.3%。%;


AMC23測試集:精確度從44.1%提高到70.3%,提高26.2%。%。


即使只使用一個(gè)樣本和很少的訓(xùn)練步驟(只有10步),EM方法也大大縮小了Qwen2.5-Math-Prime和7B-Zero-基于RL模型的先進(jìn)差距,如7B和RLVR-GRPO。


特別是在AMC23基準(zhǔn)測試中,Qwen2.5-Math-7B達(dá)到了70.3分的競爭力,接近領(lǐng)先的RL模型,這些結(jié)果清楚地表明,熵最小化(EM),雖然比典型的強(qiáng)化學(xué)習(xí)方法更簡單,數(shù)據(jù)更高效,但在數(shù)學(xué)推理任務(wù)中增強(qiáng)基礎(chǔ)語言模型的性能潛力巨大。


那么,熵最小化為何如此有效呢?熵在模型練習(xí)和推理過程中起著怎樣的作用?


EM vs.RL:置信度和Logits偏移


在生成每一個(gè)token時(shí),大型語言模型首先會產(chǎn)生一組未歸一化的分?jǐn)?shù)Logits,然后通過Softmax函數(shù)轉(zhuǎn)換為概率分布,從而決定下一個(gè)token的選擇。



所以Logits的分布形式直觀地反映了模型對其的預(yù)測?!钢眯哦取共⑶蚁矚g不同的token。


通過對模型Logits分布的深入分析,我們發(fā)現(xiàn)熵最小化(EM)和強(qiáng)化學(xué)習(xí)(RL)對于模型內(nèi)置信度的影響方向完全不同。


EM:向右移動,增強(qiáng)自信心。


研究發(fā)現(xiàn),EM訓(xùn)練模型之后,Logits的分布會明顯向右偏移,這意味著在生成過程中,模型會反復(fù)加強(qiáng)自己的預(yù)測信度。


在少數(shù)情況下,模型將更多的概率質(zhì)量集中在其中?!复_定」在token上,使原本高概率的區(qū)域進(jìn)一步擴(kuò)展到高分區(qū)間。


從直觀的角度來看,這使得模型對其最有利的答案更有利「自信」。


這種向右的Logits偏移在生成和取樣時(shí)是有益的,它增加了備選token的高概率,擴(kuò)大了模型可以遵循的范圍?!父吒怕事窂健?,然后潛在地提高模型的整體生成能力。


實(shí)驗(yàn)中,EM 在評估過程中,訓(xùn)練模型呈現(xiàn)出與取樣溫度相反的趨勢:隨溫度升高,性能下降。


貪婪解碼(即總是選擇概率最高的token)可以用來解釋——EM訓(xùn)練將概率質(zhì)量高度集中在少數(shù)確定性token上,貪婪解碼在這種分布下變得非常有效。


RL:向左移動,由真實(shí)信號引導(dǎo)。


與EM不同,RL訓(xùn)練模型表現(xiàn)出Logits分布向左偏移的趨勢。


研究人員推斷,在訓(xùn)練過程中,這是「真實(shí)」(ground-truth)信號的影響。


RL通過外部獎(jiǎng)勵(lì)函數(shù)調(diào)整模型行為,會懲罰那些預(yù)測概率高但與地面真實(shí)不一致的模型。


通過降低這些高概率但不恰當(dāng)?shù)膖oken的權(quán)利(reranking),RL減少了其排序位置,從而導(dǎo)致Logits整體分布向左偏移。


經(jīng)過RL訓(xùn)練,即使經(jīng)過reranking,這些原本低概率的token通常也只占據(jù)概率分布的中心位置,需要更高的采樣溫度才能被選中。


所以RL訓(xùn)練模型呈現(xiàn)出與EM相反的趨勢:隨取樣溫度升高而提高性能。


雖然RL的目的是提高模型性能,但是Logits左移被認(rèn)為是對大型語言模型形成過程的危害,降低了采樣過程中高概率路徑的數(shù)量,可能會削弱模型的綜合性能。


通過對Logits分布偏差的分析,Logits偏差可以分析(Skewness)進(jìn)行量化。


EM訓(xùn)練顯著提高了Logits分布的偏差,呈現(xiàn)右偏;而RL訓(xùn)練顯著降低了偏差,甚至導(dǎo)致左偏。


即使RL訓(xùn)練在EM之后進(jìn)行,從EM之后,Logits分布的偏差也會明顯降低,跟隨RL的趨勢,其差異和EM和RL完全不同的推理采樣策略也會有所不同。



在評估階段,隨著取樣溫度的升高,EM模型在四個(gè)數(shù)學(xué)推理基準(zhǔn)測試中的平均表現(xiàn)持續(xù)下降。


EM 更像是一種分布式塑造工具(distribution shaping tool),通過加強(qiáng)模型本身的內(nèi)在一致性,可以提高置信度,進(jìn)而重塑當(dāng)前知識的分布。


「過度自信」陷阱和隨機(jī)性


研究結(jié)果還揭示了其高效性背后隱藏的內(nèi)容?!高^度自信」現(xiàn)象。



在訓(xùn)練初期,EM訓(xùn)練的損失迅速下降,模型數(shù)學(xué)推理的性能也有所提高。然而,當(dāng)訓(xùn)練達(dá)到10步左右時(shí),模型性能達(dá)到頂峰。


令人驚訝的是,即使EM訓(xùn)練的損失繼續(xù)下降,模型數(shù)學(xué)推理的性能也開始下降。


這種「過度自信」這種現(xiàn)象可能是由于持續(xù)的EM訓(xùn)練過度放大了模型,在推理過程中產(chǎn)生了模型本身。 token 的置信度。


持續(xù)的EM訓(xùn)練可能會加強(qiáng)模型現(xiàn)有的先驗(yàn)誤差過多,導(dǎo)致輸出結(jié)果過多集中在狹窄和過度自信上。 token 分布,進(jìn)而加重算法誤差,導(dǎo)致導(dǎo)出明顯偏移正確路徑,最終損害模型的實(shí)際推理性能。



訓(xùn)練過程中的溫度也反映了熵最小化的不穩(wěn)定性和過度自信的損害。


隨著生成溫度的升高,EM訓(xùn)練模型在四個(gè)數(shù)學(xué)推理標(biāo)準(zhǔn)中的平均性能呈上升趨勢。


平均性能的最大值最初增加,然后當(dāng)溫度在0.5左右時(shí)開始下降。較高的溫度帶來更好的平均推理能力,而適度的溫度(如0.5)會導(dǎo)致更多的性能波動,從而為更高的峰值性能創(chuàng)造機(jī)會。


同時(shí),EM訓(xùn)練表現(xiàn)出顯著的隨機(jī)性。即使設(shè)置完全一致,由于種子不同,四個(gè)數(shù)學(xué)推理基準(zhǔn)測試的平均分?jǐn)?shù)也會相差兩倍。


什么場景適合EM?


結(jié)果表明,熵最小化(EM)尤其適用于以下三種場景。


目前還沒有進(jìn)行大量RL調(diào)優(yōu)的基本模型或者只是通過 SFT 模型


研究人員對許多不同的基本模型進(jìn)行了評估。-shot EM的效果,結(jié)果表明,只有單個(gè)樣本和很少的訓(xùn)練步驟,EM 能持續(xù)而顯著地提高這些模型在數(shù)學(xué)推理基準(zhǔn)測試中的性能。


但是,當(dāng)應(yīng)用于大量RL普通微調(diào)模型時(shí)(例如 SimpleRL-Zoo)時(shí),One-shot 相反,EM可能會導(dǎo)致性能下降,這與RL后應(yīng)用EM可能鎖定狹窄、過度自信的輸出方式和損害特性的發(fā)現(xiàn)是一致的。


場景需要快速部署,沒有足夠的數(shù)據(jù)或資源有限。


EM的核心優(yōu)勢在于其極高的效率和對數(shù)據(jù)的極低需求,研究表明,One-事實(shí)上,shotEM比較 Multi-shotEM表現(xiàn)出更好的性能和更強(qiáng)的泛化能力。


盡管Multi-shot使用了更多的樣本,但是One-shot EM通過單個(gè)樣本完成了更持久、更細(xì)致的優(yōu)化,有效減少了樣本偏差,縮小了導(dǎo)出方差,進(jìn)一步增強(qiáng)了EM在數(shù)據(jù)極其稀缺的情況下的吸引力。


增強(qiáng)無成本能力


熵最小化(EM)EM可作為當(dāng)前后訓(xùn)練范式的有力補(bǔ)充甚至起點(diǎn)。在RL之前使用EM可以帶來有效的收益,使之成為RL的有效收益。「啟用基礎(chǔ)」。


EM可以通過其獨(dú)特的Logits右偏移效應(yīng)來提高模型的信心,提高模型的推理能力,并且可以促進(jìn)后續(xù)RL訓(xùn)練的更快收斂和持久提升。


對已經(jīng)深度調(diào)優(yōu)的RL模型,再次使用EM可能會降低特性。


產(chǎn)業(yè)前景及未來研究


One-shot EM的成功不僅在于它驚人的數(shù)據(jù)和計(jì)算效率,還在于它為LLM后訓(xùn)練提供了一個(gè)完全不受監(jiān)督的替代方案,無需人工標(biāo)注數(shù)據(jù),無需構(gòu)建復(fù)雜的獎(jiǎng)勵(lì)模式,大大降低了后訓(xùn)練的門檻和費(fèi)用。


這項(xiàng)研究也為未來的探索開辟了廣闊的空間:


訓(xùn)練穩(wěn)定性和魯棒性


One-shot EM雖然效率高,但也伴隨著超參數(shù)敏感性和一定的訓(xùn)練多變性。


研究表明,持續(xù)的EM訓(xùn)練可能會導(dǎo)致模型「過度自信」,反而損害了性能。


為了進(jìn)一步穩(wěn)定和提高EM的效果,未來的工作需要探索早停標(biāo)準(zhǔn)或自適應(yīng)調(diào)度機(jī)制,減少訓(xùn)練的隨機(jī)性。


泛化能力和跨領(lǐng)域應(yīng)用


在數(shù)學(xué)推理任務(wù)方面,EM表現(xiàn)出色,但是能否泛化到對話、摘要、代碼生成等其它領(lǐng)域,還需要進(jìn)一步的實(shí)驗(yàn)驗(yàn)證。


與此同時(shí),EM目前正在進(jìn)行Token等級操作,未來的研究可以探索結(jié)構(gòu)化熵應(yīng)用于序列或語義模塊,或者引入具體的先驗(yàn)知識和自適應(yīng)熵正則化任務(wù),以釋放更多的潛力。


融合現(xiàn)有技術(shù)


作為一種分布式塑造工具,EM與SFT、目前RLHF等訓(xùn)練技術(shù)概念正交。


研究表明,EM在RL之前的應(yīng)用可以帶來大部分有益的分布偏差,未來的工作可以系統(tǒng)地研究不同EM與RL相結(jié)合的時(shí)間表、課程策略及其相互作用,探索構(gòu)建更強(qiáng)大混合方法的概率。


在SFT或RLHF過程中,EM甚至可以作為正則策略,或者作為當(dāng)前模型?!感判膲嚎s」層。


深入研究信度校正的深入研究


結(jié)果表明,EM可能是一種輕量級的自信校正方法,通過加強(qiáng)高概率推理路徑來提高模型的可信度。未來的研究需要開發(fā)更準(zhǔn)確的評估協(xié)議來量化EM的校正效應(yīng),并對其背后的機(jī)制有深刻的理解。


參考資料:


https://www.notion.so/One-shot-Entropy-Minimization-202606db813b8063973f850f39246a5?source=copy_link


本文來自微信微信官方賬號“新智元”,編輯:LRS,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com