為什么用錯了獎勵,模型也可以得分?新研究:模型學習的不是新知識,而是思維。
在最近的一篇論文中,來自NPC和騰訊的研究人員的研究表明,語言模型對于加強學習的獎勵噪音是魯棒的,即使相當一部分獎勵是旋轉(zhuǎn)的(例如,正確答案是 0 分數(shù),錯誤答案得到 1 分數(shù)),也不會顯著影響下游任務的表現(xiàn)。
研究人員解釋說,加強學習提高下游任務的關(guān)鍵不僅在于獎勵的準確性,還在于模型能否產(chǎn)生高質(zhì)量的思維過程。語言模型只能通過獎勵模型導出關(guān)鍵思維詞的出現(xiàn)頻率,而不是基于答案的準確性,在下游任務中仍然可以獲得非常高的峰值表現(xiàn)。由此可見,加強學習對下游任務的提高,更多的是因為讓模型學會選擇合適的思維方式來接近正確答案。而且相關(guān)的答題基本能力,模型已經(jīng)在預訓練階段獲得。所以,提高預訓練階段的技能還是很重要的。
研究人員還展示了基于思維模式的簡單獎勵如何有效校正獎勵模式,然后開放 NLP 加強語言模型在任務中的表現(xiàn),使較小的模型也能通過加強學習成功地獲得思考能力。
論文地址:https://huggingface.co/papers/2505.22653
代碼鏈接:https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason
論文概覽
首先,作者討論了數(shù)學任務中獎勵噪聲對語言模型的影響。由于數(shù)學任務使用簡單的規(guī)則進行驗證,并根據(jù)答案的準確性進行獎勵,因此人工控制獎勵噪聲變得非常簡單(例如,獎勵函數(shù)的結(jié)果是基于答案的準確性。 p% 翻轉(zhuǎn),正確答案得到 0 分數(shù),錯誤答案得到 1 分),然后便于研究。在練習 Qwen-2.5-7B 在模型中,實驗發(fā)現(xiàn),即使是 p 價值非常高,模型在下游任務中的表現(xiàn)基本沒有下降。只有在 p 值達到 在50%(即完全隨機獎勵)的情況下,訓練效果開始崩潰。這種現(xiàn)象引起了一個重要的問題:為什么即使模型給出了錯誤的答案并得到了獎勵,訓練效果仍然一致?
圖 1:反轉(zhuǎn)后使用不同程度的獎勵 Qwen-2.5-7B 在 MATH-500 改變數(shù)據(jù)的準確性,橫軸為訓練計步。
針對這一現(xiàn)象,作者提出了一個可能的解釋:盡管答案是錯誤的,但是導出中的一些信息仍然為模型導出提供了獎勵。研究人員認為,這些有用的信息體現(xiàn)在模型思維過程中。例如,模型生成「First, I need to」,「second, I will」,「given these factors」,「finally」等待思考模式時,無論最終答案是否正確,這個思考過程本身是值得獎勵的。
為驗證這一假設(shè),作者統(tǒng)計了沒有噪聲獎勵訓練(即 p=在0)的情況下,Qwen-2.5-7B 高頻思考關(guān)鍵字在數(shù)學任務中導出,并且設(shè)計了一個特別簡單的獎勵系統(tǒng)。 ——Reasoning Pattern Reward(RPR)。每次模型導出包含這些高頻思考關(guān)鍵字時,都會根據(jù)出現(xiàn)頻率給予相應的獎勵,頻率越高,獎勵越大。
圖 2: RPR 示意
僅使用 RPR 機制,完全不考慮答案的準確性,Qwen-2.5-7B 依然能夠在 MATH-500 從數(shù)據(jù)上獲得準確性 5% 提升至 70% 以上。盡管后期訓練的準確性明顯下降,但作者通過案例研究指出,這種下降是由于 RPR 在得到正確答案之后,促使模型「過度思考」,導致導出時間較長,無法提取正確答案。作者承認,只使用 RPR 如果不使用其它答案進行校驗獎勵,可能會被模型獎勵?!竓ack」并且有問題,但是他們強調(diào),這個實驗的目的是證明思維模式在技能提升方面的重要性,而不是為了得到最好的結(jié)果。
這個實驗表明,在強化學習中,語言模型的改進主要來自于輸出格式的轉(zhuǎn)變,而不是獲得新的知識:模型 RL 在此期間取樣到具有較強思維方式的輸出,而這種思維方式可以逐步改進模型。 token 接近正確答案的可能性。
上述基于獎勵函數(shù)的實驗結(jié)論讓作者意識到,這一發(fā)現(xiàn)可能是基于獎勵模型的。(reward model)強化學習后訓練具有重要啟發(fā)性:由于獎勵模式一般不完美,導出通常包括噪音。如果語言模型在開放任務中能夠保持獎勵模型導出噪音的魯棒性,那么我們可能不需要過分追求極其準確的獎勵模型,以確保它們。「足夠好」即可。
為了驗證這一點,作者正在 Nvidia-3teerHelpSteer 資料(多個領(lǐng)域) AI 協(xié)助回復生成任務)在試驗中進行。通過調(diào)整訓練步驟,對不同精度的獎勵模型進行訓練,并使用這些模型進行訓練。 Qwen-2.5-7B。作者認為,獎勵模型的準確性與其提供的獎勵噪聲呈負相關(guān),即獎勵模型的準確性越高,獎勵噪聲越小。人類對模型在測試集中導出的反應 GPT-4o 協(xié)助、信息、綜合質(zhì)量的判斷。
圖 3: 獎賞模型在 3teerHelpSteer 在訓練過程中,作者在驗證集中選擇了不同訓練步驟的準確性 checkpoint 訓練是一種獎勵模式。
測試數(shù)據(jù)顯示,當獎勵模型的準確性超過 75% 在下游任務中,不同獎勵模型訓練得到的語言模型的主觀評價得分相似。這種現(xiàn)象與數(shù)學任務中的觀察一致,表明語言模型能夠在一定程度上容忍獎勵噪音。但是,當獎勵模型的準確度低于 75% 當時,訓練效果明顯下降;當準確度降低到 65% 在這種情況下,模型表現(xiàn)不如使用高精度獎勵模型訓練得出的結(jié)論。或許已經(jīng)指出來了 Qwen-2.5-7B 噪聲耐受性限制在該任務中。
圖 4: 通過不同的獎勵模型訓練獲得的語言模型 3teerHelpSteer 主觀評價任務中的表現(xiàn)
這個發(fā)現(xiàn)對許多研究人員來說可能是一種安慰:在很多應用場景中,我們不必過分追求獎勵模型的高精度。在超過一定的臨界點后,獎勵模型的精度將進一步提高,這將限制任務性能的提高。。
作者進一步思考,如果真的得不到,「足夠好」獎勵模式,如何加強當前的獎勵模式,提高下游任務的表現(xiàn)?
所以,作者提出通過 RPR 校準獎勵模型:如果某一導出被獎勵模型評為低分,但其思維模式較好(即 RPR 如果分數(shù)較高),那么這個低分可能是假陰性,需要通過其思維模式進行思維。 RPR 該機制補償了獎勵模型的導出。這樣,作者就是這樣。 3teerHelpSteer 即使獎勵模型的準確率是驗證的, 65%,經(jīng)過 RPR 校正后,模型表現(xiàn)接近原來的表現(xiàn)。 85% 精確度的獎勵模型訓練效果。同時,85% 精確度獎勵模型經(jīng)過校正后,模型在下游任務中的表現(xiàn)進一步提高,突破了作者對獎勵模型質(zhì)量的限制。
圖 5: 經(jīng)過 RPR 校正之后,所有獎勵模型訓練的語言模型質(zhì)量都有所提高。
作者的另一個重要發(fā)現(xiàn)是,即使使用作者擁有的最準確的獎勵模型(準確性) 85%),Qwen-2.5-3B 在 3teerHelpSteer 訓練崩潰發(fā)生在任務中,表現(xiàn)為導出長度急劇下降,只剩下幾十個。 token。但經(jīng)過 RPR 校正后,3B 模型成功地完成了訓練,避免了崩潰,取得了良好的效果,而且在很多復雜的開放任務中,比如按照指令進行。 PPT,表現(xiàn)出良好的解題思路。
圖 6: 經(jīng)過 RPR 3B獎勵模型校正后, 模型也可以存在 HelpSteer 成功的任務訓練;并且采用了未校正的獎勵模式,RL 發(fā)生了崩潰。
研究人員希望通過展示語言模型來獎勵基于結(jié)果的噪音的魯棒性,并單獨使用 RPR 得到下游任務改進的結(jié)果,強調(diào)加強學習對語言模型的影響,不是教授新知識,而是改變其導出風格,建立良好的思維模式。。
此外,在使用獎勵模型進行訓練的開放任務時,驗證了思維模式的重要性,也為加強學習后訓練算法的改進提供了新的思路。
作者指出,模型預訓練技術(shù)的提升仍然值得持續(xù)投資,因為如果強化學習只關(guān)注思維模式的培養(yǎng),語言模型預訓練階段的能力仍然會給下游任務帶來瓶頸(例如,正確的文本 Llama3 實驗表明,因為 Llama3 預訓練模型很難生成更高質(zhì)量的思維路徑,導致其在各項任務中的表現(xiàn)和抗噪聲能力遠不如 Qwen 模型)。
*這篇文章的主要作者是呂昂和謝若冰。中國人民大學博士生呂昂的研究方向是調(diào)整語言模型結(jié)構(gòu),導師是嚴睿教授;騰訊高級研究員謝若冰的研究方向是大語言模型和推薦系統(tǒng)。
本文來自微信微信官方賬號“機器之心”(ID:作者:機器之心,36氪經(jīng)授權(quán)發(fā)布,almosthuman2014)。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com