10步提升超越強化學習,只需1條未標注數(shù)據(jù),后訓練強勢破局。

【簡介】沒有監(jiān)督的熵最小化(EM)只有一個方法可以顯著提高大模型在推理任務中的表現(xiàn),而不需要標注數(shù)據(jù)和提高10步左右,甚至超越依賴大量數(shù)據(jù)和復雜獎勵制度的強化學習。(RL)。EM提供了一種更高效、更簡潔的新思路,通過優(yōu)化模型的預測分布,提高其對正確答案的信心。
經(jīng)過強大的通用性能,目前大模型的研究方向已轉向「如何解決具體而復雜的推理任務?」,比如數(shù)學題,分析物理變化,或者構建編程邏輯。
為了達到更高的性能,除了大量的文本預訓練外,通常還需要進一步的后訓練。
采用強化學習的主流后訓練方法(RL),特別是結合可驗證獎勵強化學習(RLVR)。
雖然基于RL的微調可以顯著提高模型性能,但它依賴于大規(guī)模、高質量的標記數(shù)據(jù),其訓練效果也取決于開發(fā)者設計的復雜獎勵函數(shù),需要專家知識來最大化優(yōu)勢信號,防止模型「獎賞作弊」。
此外,許多常用的RL算法(如PPO)需要額外的獎勵模型,這不僅增加了算法的復雜性,而且大大提高了多訓練步驟和長采樣過程的計算成本。
最近,Ubiquant研究小組提出了一項LLM后訓練的突破性研究,對比了13,440組大型訓練試驗,確認了一件事:
采用無監(jiān)督的方法「最小化單樣熵」(One-shot Entropy Minimization, 簡稱One-shot EM),只要一個未標注的樣本和10步左右的推廣,就能達到RL模式的效果,甚至超越依賴數(shù)千條數(shù)據(jù)和精心設計的獎勵系統(tǒng)。

論文鏈接:https://www.notion.so/One-shot-Entropy-Minimization-20266db813b8063973f850f39246
EM的核心理念是訓練模型,不需要標注任何數(shù)據(jù)或外部監(jiān)督,只需要依靠模型本身來預測分布熵。(entropy)進行優(yōu)化。
事實上,效果是基于一個關鍵假設和一個簡單的直覺:如果一個模型本身足夠強大,那么當它預測結果時,「自信」同時,也更有可能是正確的。
具體而言,EM訓練模型更注重其概率質量。最自信的導出事實上,正確答案通常比錯誤答案具有更低的熵值。
EM可以通過優(yōu)化目標來減少模型產(chǎn)生序列的熵,從而使模型變得更好?!缸孕拧?,這樣就可以加強他們在預訓練階段獲得的能力。
在文章中,研究人員對one進行了深入分析。-shot EM的有效性,發(fā)現(xiàn)它與強化學習有著相似的核心特征,但是從logits偏移的角度來看,它對模型行為的引導方向是相反的。
一般試驗表明,「溫度」在推理階段,EM練習和推理表現(xiàn)是決定EM練習和推理表現(xiàn)的重要因素,與強化學習相反。
在本質上,EM更像是一種「分布塑形工具」,而且非常規(guī)的學習方法。
熵最小化
具體而言,熵最小化的核心公式是:

設置?表示一種預訓練自回歸語言模型pθ該模型的詞匯表由參數(shù)組成θ定義。
給出一個輸入提醒x(例如,一個問題或一個問題描述),模型根據(jù)其當前策略自回歸生成一個響應序列。 y=(y1,y2,,,,yT),其中T是生成序列的長度。核心思想是通過在每一步生成過程中最小化標記級別的熵來降低模型對自身預測的不確定性。
時間步t的條件熵定義如下:

以下公式給出了單輸入X的整體EM損失:

簡而言之,這種損失函數(shù)激勵模型不需要依靠外部監(jiān)督信號或獎勵函數(shù)來提高自己的預測信心。
因為它完全依賴于模型本身,而不是外部信號,完全適應了預訓練目標,可能會在有效簡化推廣過程的同時對模型中的一致性造成潛在的破壞。
僅僅使用一個樣本就足夠了!
熵最小化(EM)成功取決于成功「預測模型的不確定性」可以作為「有價值的訓練信號」。
研究人員采用了一種基于此的方法?!改P捅憩F(xiàn)方差」選擇樣本的方法,選擇信息量更大的輸入提醒:選擇模型性能不穩(wěn)定的樣本進行訓練,通過計算模型幾次生成結果的準確性方差。


這種方差量化了模型對給出輸入預測的不一致性:低方差意味著對準確性(接近完美的成功)沒有高度的信心,或者對失敗有高度的信心(完全錯誤)。
相反,表現(xiàn)方差大的樣本可以更有效地驅動模型減少熵值,明確決策邊界,這也是為什么模型推理性能可以通過使用高質量的樣本來快速提升的原因。
研究人員使用的唯一樣本如下:
Problem: The pressure P exerted by wind on a sail varies jointly as the area A of the sail and the cube of the wind’s velocity V. When the velocity is 8 miles per hour, the pressure on a sail of 2 square feet is 4 pounds. Find the wind velocity when the pressure on 4 square feet of sail is 32 pounds.
Solution: 12.8
以小博大,性能超越RL。
在多個數(shù)學推理任務中,研究人員測試了熵最小化(EM)數(shù)據(jù)顯示,EM方法只有一個樣本和10步訓練,大大提高了Qwen2.5。-Math-7B的性能:

MATH500測試集:精確度由53%提高到78.8%,提高25.8%。%;
Minerva Math測試集:精確度由11%提高到35.3%,提高24.3%。%;
AMC23測試集:精確度從44.1%提高到70.3%,提高26.2%。%。
即使只使用一個樣本和很少的訓練步驟(只有10步),EM方法也大大縮小了Qwen2.5-Math-Prime和7B-Zero-基于RL模型的先進差距,如7B和RLVR-GRPO。
特別是在AMC23基準測試中,Qwen2.5-Math-7B達到了70.3分的競爭力,接近領先的RL模型,這些結果清楚地表明,熵最小化(EM),雖然比典型的強化學習方法更簡單,數(shù)據(jù)更高效,但在數(shù)學推理任務中增強基礎語言模型的性能潛力巨大。
那么,熵最小化為何如此有效呢?熵在模型練習和推理過程中起著怎樣的作用?
EM vs.RL:置信度和Logits偏移
在生成每一個token時,大型語言模型首先會產(chǎn)生一組未歸一化的分數(shù)Logits,然后通過Softmax函數(shù)轉換為概率分布,從而決定下一個token的選擇。

所以Logits的分布形式直觀地反映了模型對其的預測。「置信度」并且喜歡不同的token。
通過對模型Logits分布的深入分析,我們發(fā)現(xiàn)熵最小化(EM)和強化學習(RL)對于模型內(nèi)置信度的影響方向完全不同。
EM:向右移動,增強自信心。
研究發(fā)現(xiàn),EM訓練模型之后,Logits的分布會明顯向右偏移,這意味著在生成過程中,模型會反復加強自己的預測信度。
在少數(shù)情況下,模型將更多的概率質量集中在其中。「確定」在token上,使原本高概率的區(qū)域進一步擴展到高分區(qū)間。
從直觀的角度來看,這使得模型對其最有利的答案更有利「自信」。
這種向右的Logits偏移在生成和取樣時是有益的,它增加了備選token的高概率,擴大了模型可以遵循的范圍?!父吒怕事窂健梗缓鬂撛诘靥岣吣P偷恼w生成能力。
實驗中,EM 在評估過程中,訓練模型呈現(xiàn)出與取樣溫度相反的趨勢:隨溫度升高,性能下降。
貪婪解碼(即總是選擇概率最高的token)可以用來解釋——EM訓練將概率質量高度集中在少數(shù)確定性token上,貪婪解碼在這種分布下變得非常有效。
RL:向左移動,由真實信號引導。
與EM不同,RL訓練模型表現(xiàn)出Logits分布向左偏移的趨勢。
研究人員推斷,在訓練過程中,這是「真實」(ground-truth)信號的影響。
RL通過外部獎勵函數(shù)調整模型行為,會懲罰那些預測概率高但與地面真實不一致的模型。
通過降低這些高概率但不恰當?shù)膖oken的權利(reranking),RL減少了其排序位置,從而導致Logits整體分布向左偏移。
經(jīng)過RL訓練,即使經(jīng)過reranking,這些原本低概率的token通常也只占據(jù)概率分布的中心位置,需要更高的采樣溫度才能被選中。
所以RL訓練模型呈現(xiàn)出與EM相反的趨勢:隨取樣溫度升高而提高性能。
雖然RL的目的是提高模型性能,但是Logits左移被認為是對大型語言模型形成過程的危害,降低了采樣過程中高概率路徑的數(shù)量,可能會削弱模型的綜合性能。
通過對Logits分布偏差的分析,Logits偏差可以分析(Skewness)進行量化。
EM訓練顯著提高了Logits分布的偏差,呈現(xiàn)右偏;而RL訓練顯著降低了偏差,甚至導致左偏。
即使RL訓練在EM之后進行,從EM之后,Logits分布的偏差也會明顯降低,跟隨RL的趨勢,其差異和EM和RL完全不同的推理采樣策略也會有所不同。

在評估階段,隨著取樣溫度的升高,EM模型在四個數(shù)學推理基準測試中的平均表現(xiàn)持續(xù)下降。
EM 更像是一種分布式塑造工具(distribution shaping tool),通過加強模型本身的內(nèi)在一致性,可以提高置信度,進而重塑當前知識的分布。
「過度自信」陷阱和隨機性
研究結果還揭示了其高效性背后隱藏的內(nèi)容?!高^度自信」現(xiàn)象。

在訓練初期,EM訓練的損失迅速下降,模型數(shù)學推理的性能也有所提高。然而,當訓練達到10步左右時,模型性能達到頂峰。
令人驚訝的是,即使EM訓練的損失繼續(xù)下降,模型數(shù)學推理的性能也開始下降。
這種「過度自信」這種現(xiàn)象可能是由于持續(xù)的EM訓練過度放大了模型,在推理過程中產(chǎn)生了模型本身。 token 的置信度。
持續(xù)的EM訓練可能會加強模型現(xiàn)有的先驗誤差過多,導致輸出結果過多集中在狹窄和過度自信上。 token 分布,進而加重算法誤差,導致導出明顯偏移正確路徑,最終損害模型的實際推理性能。

訓練過程中的溫度也反映了熵最小化的不穩(wěn)定性和過度自信的損害。
隨著生成溫度的升高,EM訓練模型在四個數(shù)學推理標準中的平均性能呈上升趨勢。
平均性能的最大值最初增加,然后當溫度在0.5左右時開始下降。較高的溫度帶來更好的平均推理能力,而適度的溫度(如0.5)會導致更多的性能波動,從而為更高的峰值性能創(chuàng)造機會。
同時,EM訓練表現(xiàn)出顯著的隨機性。即使設置完全一致,由于種子不同,四個數(shù)學推理基準測試的平均分數(shù)也會相差兩倍。
什么場景適合EM?
結果表明,熵最小化(EM)尤其適用于以下三種場景。
目前還沒有進行大量RL調優(yōu)的基本模型或者只是通過 SFT 模型
研究人員對許多不同的基本模型進行了評估。-shot EM的效果,結果表明,只有單個樣本和很少的訓練步驟,EM 能持續(xù)而顯著地提高這些模型在數(shù)學推理基準測試中的性能。
但是,當應用于大量RL普通微調模型時(例如 SimpleRL-Zoo)時,One-shot 相反,EM可能會導致性能下降,這與RL后應用EM可能鎖定狹窄、過度自信的輸出方式和損害特性的發(fā)現(xiàn)是一致的。
場景需要快速部署,沒有足夠的數(shù)據(jù)或資源有限。
EM的核心優(yōu)勢在于其極高的效率和對數(shù)據(jù)的極低需求,研究表明,One-事實上,shotEM比較 Multi-shotEM表現(xiàn)出更好的性能和更強的泛化能力。
盡管Multi-shot使用了更多的樣本,但是One-shot EM通過單個樣本完成了更持久、更細致的優(yōu)化,有效減少了樣本偏差,縮小了導出方差,進一步增強了EM在數(shù)據(jù)極其稀缺的情況下的吸引力。
增強無成本能力
熵最小化(EM)EM可作為當前后訓練范式的有力補充甚至起點。在RL之前使用EM可以帶來有效的收益,使之成為RL的有效收益。「啟用基礎」。
EM可以通過其獨特的Logits右偏移效應來提高模型的信心,提高模型的推理能力,并且可以促進后續(xù)RL訓練的更快收斂和持久提升。
對已經(jīng)深度調優(yōu)的RL模型,再次使用EM可能會降低特性。
產(chǎn)業(yè)前景及未來研究
One-shot EM的成功不僅在于它驚人的數(shù)據(jù)和計算效率,還在于它為LLM后訓練提供了一個完全不受監(jiān)督的替代方案,無需人工標注數(shù)據(jù),無需構建復雜的獎勵模式,大大降低了后訓練的門檻和費用。
這項研究也為未來的探索開辟了廣闊的空間:
訓練穩(wěn)定性和魯棒性
One-shot EM雖然效率高,但也伴隨著超參數(shù)敏感性和一定的訓練多變性。
研究表明,持續(xù)的EM訓練可能會導致模型「過度自信」,反而損害了性能。
為了進一步穩(wěn)定和提高EM的效果,未來的工作需要探索早停標準或自適應調度機制,減少訓練的隨機性。
泛化能力和跨領域應用
在數(shù)學推理任務方面,EM表現(xiàn)出色,但是能否泛化到對話、摘要、代碼生成等其它領域,還需要進一步的實驗驗證。
與此同時,EM目前正在進行Token等級操作,未來的研究可以探索結構化熵應用于序列或語義模塊,或者引入具體的先驗知識和自適應熵正則化任務,以釋放更多的潛力。
融合現(xiàn)有技術
作為一種分布式塑造工具,EM與SFT、目前RLHF等訓練技術概念正交。
研究表明,EM在RL之前的應用可以帶來大部分有益的分布偏差,未來的工作可以系統(tǒng)地研究不同EM與RL相結合的時間表、課程策略及其相互作用,探索構建更強大混合方法的概率。
在SFT或RLHF過程中,EM甚至可以作為正則策略,或者作為當前模型?!感判膲嚎s」層。
深入研究信度校正的深入研究
結果表明,EM可能是一種輕量級的自信校正方法,通過加強高概率推理路徑來提高模型的可信度。未來的研究需要開發(fā)更準確的評估協(xié)議來量化EM的校正效應,并對其背后的機制有深刻的理解。
參考資料:
https://www.notion.so/One-shot-Entropy-Minimization-202606db813b8063973f850f39246a5?source=copy_link
本文來自微信微信官方賬號“新智元”,編輯:LRS,36氪經(jīng)授權發(fā)布。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




