亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

<span id="cfn07"><optgroup id="cfn07"></optgroup></span>

<rt id="cfn07"><small id="cfn07"></small></rt>

蘋果創(chuàng)新“清單法”：借AI大模型助力小模型執(zhí)行復(fù)雜指令

08-27 06:30

IT之家8月26日消息，科技媒體9to5Mac于昨日（8月25日）發(fā)布博文，報(bào)道稱蘋果研究人員在最新論文中提出“基于清單反饋的強(qiáng)化學(xué)習(xí)”（RLCF）方法，用任務(wù)清單取代傳統(tǒng)的人類點(diǎn)贊/點(diǎn)踩評(píng)分方式，極大提升了大語(yǔ)言模型（LLMs）執(zhí)行復(fù)雜指令的能力。

IT之家注：RLCF全稱為Reinforcement Learning from Checklist Feedback，與傳統(tǒng)的“人類反饋強(qiáng)化學(xué)習(xí)”（RLHF）依賴人工點(diǎn)贊/點(diǎn)踩不同，RLCF會(huì)為每條用戶指令生成具體的檢查清單，并按0 - 100分逐項(xiàng)評(píng)分，以此來指導(dǎo)模型優(yōu)化。

研究團(tuán)隊(duì)在強(qiáng)指令跟隨模型Qwen2.5 - 7B - Instruct上對(duì)該方法進(jìn)行測(cè)試，測(cè)試涵蓋了五個(gè)常用評(píng)測(cè)基準(zhǔn)。結(jié)果顯示，RLCF是唯一在所有測(cè)試中都取得提升的方案：

FollowBench硬性滿意率提升了4個(gè)百分點(diǎn)

InFoBench提高了6點(diǎn)

Arena - Hard勝率增加了3點(diǎn)

某些任務(wù)最高提升達(dá)8.2%。

這表明清單反饋在執(zhí)行復(fù)雜、多步驟需求時(shí)效果顯著。

清單的生成過程也很有特點(diǎn)。團(tuán)隊(duì)借助更大規(guī)模的Qwen2.5 - 72B - Instruct模型，結(jié)合現(xiàn)有的研究方法，為13萬(wàn)條指令生成了“WildChecklists”數(shù)據(jù)集。清單內(nèi)容是明確的二元判斷項(xiàng)，例如“是否翻譯成西班牙語(yǔ)？”。之后，大模型對(duì)候選回答逐項(xiàng)打分，綜合加權(quán)后的結(jié)果作為小模型的訓(xùn)練獎(jiǎng)勵(lì)信號(hào)。

蘋果研究者也承認(rèn)該方法存在局限性。其一，它依賴更強(qiáng)的模型作為評(píng)判者，在資源受限的場(chǎng)景下可能無(wú)法實(shí)施。其二，RLCF專注于提升復(fù)雜指令執(zhí)行能力，并非為安全對(duì)齊而設(shè)計(jì)，所以不能替代安全性評(píng)估與調(diào)優(yōu)。對(duì)于其他任務(wù)類型，該方法的適用性還需進(jìn)一步驗(yàn)證。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

寧波隊(duì)簽下前鵜鶘活塞后場(chǎng)，上賽季他在江蘇隊(duì)表現(xiàn)不佳能否逆襲？

英偉達(dá)新“大腦”能否讓機(jī)器人變聰明？

聊聊日本教練池田太被泰國(guó)足協(xié)解雇一事

馬斯克動(dòng)真格：xAI起訴蘋果與OpenAI，指控合謀壟斷AI市場(chǎng)

快船新援亮相訓(xùn)練館，官方盛贊保羅哈登

項(xiàng)目推薦

<ruby id="7n4p3"><big id="7n4p3"><acronym id="7n4p3"></acronym></big></ruby>

<rt id="7n4p3"><small id="7n4p3"></small></rt>

<label id="7n4p3"><legend id="7n4p3"><th id="7n4p3"></th></legend></label>

<rt id="7n4p3"><optgroup id="7n4p3"></optgroup></rt>