亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

不改動(dòng)模型,ICLR投稿新范式OTV提升推理性能

1天前

近年來,大語言模型在各類任務(wù)中表現(xiàn)出色,但幻覺、邏輯錯(cuò)誤、推理漏洞等問題頻繁出現(xiàn)。這使得研究者不斷探索提升模型輸出可靠性的新途徑。當(dāng)前的主流范式各有優(yōu)點(diǎn),但也存在局限性。


是否能在不改變?cè)寄P徒Y(jié)構(gòu)和參數(shù)的情況下,對(duì)推理過程進(jìn)行“實(shí)時(shí)自主監(jiān)控”呢?


ICLR 2026的一篇投稿論文提出了全新思路——單 token 驗(yàn)證(One-Token Verification,OTV),這是一種測試時(shí)擴(kuò)展的新機(jī)制,能讓模型“邊推理,邊判斷自己的推理是否正確”。


目前主流范式的優(yōu)缺點(diǎn)如下:


LoRA 微調(diào):作為當(dāng)下主流的參數(shù)高效微調(diào)手段,它無需全參數(shù)訓(xùn)練,便于部署,但依賴詳細(xì)的監(jiān)督數(shù)據(jù),還會(huì)引發(fā)“遺忘效應(yīng)”。


RLVR(可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)):僅需結(jié)果的程序可驗(yàn)證性就能驅(qū)動(dòng)訓(xùn)練,節(jié)省標(biāo)注成本,但整體流程復(fù)雜、計(jì)算代價(jià)高,難以廣泛應(yīng)用。


后置驗(yàn)證器:通過對(duì)模型已生成的結(jié)果進(jìn)行質(zhì)量篩選,可增強(qiáng)輸出可信度,但往往滯后,難以及時(shí)糾正模型的思路,也無法了解模型的內(nèi)部推理過程。


背景介紹:多線程推理的并行思考


面對(duì)復(fù)雜推理任務(wù)時(shí),單一路徑生成很難穩(wěn)定得出正確答案。為此,近年來研究者提出了并行思考(Parallel Thinking)的推理框架,即讓語言模型同時(shí)生成多條推理路徑,再通過一定機(jī)制進(jìn)行甄別篩選。


OTV 基于并行思考思路構(gòu)建,但它并非提出多路徑生成,而是關(guān)注如何以更低成本、更高效率從多條路徑中篩選出正確推理,從而引入“單 token 驗(yàn)證”這一新范式。


類似于人類能對(duì)解題過程進(jìn)行判斷,OTV 的動(dòng)機(jī)是利用模型的內(nèi)在推理動(dòng)態(tài)進(jìn)行分析。OTV 機(jī)制核心:內(nèi)部驗(yàn)證器分析推理過程


為判斷一條推理路徑是否可靠,OTV 借助一個(gè)由 LoRA 實(shí)現(xiàn)的輕量角色向量作為內(nèi)部驗(yàn)證器,與原模型并行運(yùn)行。它不干擾模型生成內(nèi)容,而是在“旁觀”中做出判斷。


這個(gè)內(nèi)部驗(yàn)證器的“洞察力”源于 Transformer 架構(gòu)的核心組件——鍵值緩存(KV Cache)。在自回歸生成過程中,模型的每一層、每一個(gè) token 都會(huì)生成對(duì)應(yīng)的 Key 和 Value 向量,這些向量會(huì)逐步累積并保存在 KV 緩存中。它不僅是模型運(yùn)行的“中間狀態(tài)”,更是完整的推理軌跡記錄,跨越所有層和整段歷史輸入,是捕捉模型內(nèi)部動(dòng)態(tài)最豐富的信息源。


OTV 利用了鍵值緩存。在驗(yàn)證階段,它向輸入中插入一個(gè)特殊 token ——被作者稱為“ ToT ”(Token of Truth)。這個(gè) token 的作用不同于普通生成 token:


它的 Query 向量會(huì)與此前整個(gè)序列的 KV 緩存進(jìn)行一次特殊的注意力交互;


這意味著它可以“回顧”整條推理路徑中每一步的注意力分布與上下文關(guān)聯(lián);


最終它輸出一個(gè)隱藏狀態(tài),傳遞給一個(gè)輕量級(jí)的回歸頭;


回歸頭再給出一個(gè) 0~1 區(qū)間內(nèi)的評(píng)分,作為當(dāng)前推理路徑的正確性估計(jì)。


整個(gè)過程非常高效,因?yàn)轵?yàn)證一次僅相當(dāng)于模型多生成一個(gè) token 的計(jì)算量。


OTV 如何訓(xùn)練:輕量結(jié)構(gòu)、簡明目標(biāo)、并行高效


OTV 的內(nèi)部驗(yàn)證器雖小,但訓(xùn)練邏輯經(jīng)過精心設(shè)計(jì):


結(jié)構(gòu)上,OTV 在插入 LoRA 角色的基礎(chǔ)上,增加一個(gè)輕量回歸頭,直接輸出 0~1 之間的連續(xù)值,表示當(dāng)前推理路徑的正確性評(píng)分。


訓(xùn)練目標(biāo)上,OTV 以最終答案是否正確為信號(hào),為每個(gè)生成 token 分配啟發(fā)式偽標(biāo)簽。例如,正確路徑的得分從 0.5 線性遞增至 1,錯(cuò)誤路徑則遞減至 0,并用均方誤差損失作為優(yōu)化目標(biāo)。


并行效率上,OTV 支持在訓(xùn)練階段同時(shí)計(jì)算所有位置的評(píng)分預(yù)測,整體訓(xùn)練流程高度并行,計(jì)算成本與傳統(tǒng) LoRA 微調(diào)相當(dāng)。


OTV 的算法框架和四個(gè)部分示意圖。OTV 的實(shí)驗(yàn)驗(yàn)證


研究團(tuán)隊(duì)在多個(gè)規(guī)模的開源模型(如 Qwen3-4B、Qwen3-8B、DAPO-Qwen-32B)上對(duì) OTV 進(jìn)行了系統(tǒng)評(píng)估,使用開源 DAPO 數(shù)據(jù)集對(duì)驗(yàn)證器進(jìn)行校準(zhǔn),測試任務(wù)基于高難度數(shù)學(xué)推理數(shù)據(jù)集 AIME。結(jié)果顯示,OTV 不僅準(zhǔn)確率全面領(lǐng)先,還更傾向于選擇更短、更準(zhǔn)確的推理路徑。


對(duì)比的基線方法包括:


基于模型 token 概率排序的無訓(xùn)練方案(DeepConf);


由模型自身生成驗(yàn)證文本的生成式驗(yàn)證器(GenRM);


以及一系列外部獎(jiǎng)勵(lì)模型,如 AceMath-RM、VersaPRM、Math-Shepherd 等。


實(shí)驗(yàn)表明,OTV 作為“模型原生”的驗(yàn)證器,能直接讀取模型內(nèi)部推理狀態(tài)與輸出質(zhì)量之間的深層關(guān)聯(lián),其判斷能力明顯優(yōu)于依賴輸出文本的通用方法。


在標(biāo)準(zhǔn)的“加權(quán)多數(shù)投票”設(shè)置中,所有候選路徑需完整生成并逐一打分,最終選擇得分最高者。OTV 在不同模型規(guī)模下都穩(wěn)定超越所有基線。而且,即便在已通過 DAPO 數(shù)據(jù)集強(qiáng)化學(xué)習(xí)的 DAPO-Qwen-32B 上,OTV 仍帶來了顯著的額外提升。


不同方法在多個(gè)原模型下的加權(quán)多數(shù)投票準(zhǔn)確率對(duì)比。


OTV 還賦予了模型動(dòng)態(tài)控制計(jì)算開銷的能力。依賴 OTV 實(shí)時(shí)輸出的置信度分?jǐn)?shù),模型可以在推理過程中實(shí)時(shí)淘汰低質(zhì)量路徑,節(jié)省不必要的計(jì)算。研究者提出多種高效 Best-of-N 變體,例如“ HALF 300 ”策略,即每生成 300 個(gè) token,就淘汰當(dāng)前置信度最低的 50% 路徑,最終保留得分最高者。結(jié)果顯示,與標(biāo)準(zhǔn)的 Best-of-128 策略相比,OTV 高效策略在計(jì)算量減少近 90% 的前提下,仍能保持最優(yōu)或接近最優(yōu)的準(zhǔn)確率。


不同方法在高效推理設(shè)置下的準(zhǔn)確率與輸出長度對(duì)比。


更直觀的對(duì)比來自可視化分析。研究者展示了多個(gè)問題下,OTV 與其他方法對(duì)推理路徑的置信度得分評(píng)分軌跡。圖中紅色為最終正確路徑,綠色為錯(cuò)誤路徑。


不同方法在三個(gè)問題上多路徑的得分變化軌跡。


可以清晰看到:


對(duì)于傳統(tǒng)方法(如 DeepConf 或外部過程獎(jiǎng)勵(lì)模型),紅綠軌跡往往纏繞混雜,缺乏單調(diào)性,無法穩(wěn)定區(qū)分優(yōu)劣;


而在 OTV 的評(píng)分下,紅色軌跡穩(wěn)定上升,呈現(xiàn)出推理逐步走向正確的趨勢,而綠色軌跡則通常被壓制在低置信區(qū)間內(nèi)。


這一對(duì)比直觀說明:OTV 捕捉到的信號(hào)更穩(wěn)定、更真實(shí),也更具有區(qū)分度,能夠反映模型內(nèi)部推理過程的質(zhì)量變化,從而為最終決策提供可靠依據(jù)。


此外,研究者還進(jìn)行了多項(xiàng)消融實(shí)驗(yàn),進(jìn)一步驗(yàn)證了 OTV 各組件的作用與穩(wěn)定性,包括僅使用回歸頭、調(diào)整 LoRA 秩、采用不同啟發(fā)式監(jiān)督策略等。即便在更貼近實(shí)際微調(diào)場景的 Base 模型(未經(jīng)過后訓(xùn)練)上,OTV 依然展現(xiàn)出穩(wěn)定的性能提升,驗(yàn)證了其方法的通用性與魯棒性。在附錄中,作者還提供了更細(xì)粒度的推理可視化分析與文本擾動(dòng)敏感性評(píng)估,為 OTV 在實(shí)際應(yīng)用中的解釋性與穩(wěn)健性提供了進(jìn)一步支持。


在僅使用回歸頭和不同 LoRA 秩設(shè)置下,OTV 的訓(xùn)練損失與性能對(duì)比分析總結(jié)與展望


這篇論文提出的單 Token 驗(yàn)證(OTV)框架,通過巧妙地重用 LoRA 和探測 KV 緩存,為大語言模型的推理質(zhì)量評(píng)估提供了一個(gè)極致輕量、實(shí)時(shí)、無損且模型原生的解決方案。OTV 體現(xiàn)了基于對(duì) Transformer 架構(gòu)深刻理解的“最小化、靶向性干預(yù)”的設(shè)計(jì)哲學(xué)。它揭示了,通往更強(qiáng)大、更可靠 AI 的道路有時(shí)需要深入模型內(nèi)部,喚醒其“自知之明”的智慧。


展望未來,OTV 為后續(xù)研究開辟了廣闊空間。一方面,可以探索驗(yàn)證器與原模型更深層次的融合機(jī)制,實(shí)現(xiàn)推理與評(píng)估的協(xié)同演化;另一方面,當(dāng)前基于二元置信度(正確 / 錯(cuò)誤)的設(shè)計(jì)可擴(kuò)展為引入“不確定”狀態(tài)的三元系統(tǒng),使模型具備選擇性預(yù)測能力,在面對(duì)模糊或低信號(hào)任務(wù)時(shí)學(xué)會(huì)“謹(jǐn)慎作答”和主動(dòng)學(xué)習(xí)。同時(shí),OTV 所提供的置信度信號(hào)具備安全控制的潛力:當(dāng)模型在生成過程中暴露出異常推理模式或高風(fēng)險(xiǎn)傾向時(shí),驗(yàn)證器可實(shí)時(shí)發(fā)出預(yù)警,主動(dòng)終止不安全路徑的生成。


此外,未來還可將 OTV 思路推廣到不同架構(gòu)的模型中,并結(jié)合對(duì) KV 緩存結(jié)構(gòu)的優(yōu)化,進(jìn)一步挖掘其在推理效率與表示利用方面的潛力。研究團(tuán)隊(duì)認(rèn)為,賦予模型“自知之明”的這類探索,將成為推動(dòng)下一代可信、安全、可控 AI 系統(tǒng)的重要基石。


論文鏈接:https://openreview.net/pdf?id=QewOtpenMy


一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」


歡迎在評(píng)論區(qū)留下你的想法!



我們正在招聘一名眼疾手快、關(guān)注 AI 的學(xué)術(shù)編輯實(shí)習(xí)生


感興趣的小伙伴歡迎關(guān)注 了解詳情


點(diǎn)亮星標(biāo)


科技前沿進(jìn)展每日見


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com