123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 自然語言處理 > 正文

牛津大學(xué)最新論文：大模型如何編碼問題難易程度？

2025-11-07 18:32

來源： OFweek人工智能網(wǎng)

大型語言模型（LLM）在復(fù)雜任務(wù)上可以展現(xiàn)卓越性能。然而，它們卻經(jīng)常在看似簡(jiǎn)單的問題上失敗。

近日，牛津大學(xué)的研究團(tuán)隊(duì)發(fā)表了一篇論文，研究 LLM 是否編碼了一種與人類判斷相符的問題難度概念，并追蹤了這種表征在基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）數(shù)學(xué)推理過程中的演變。

團(tuán)隊(duì)使用了 60 個(gè)模型訓(xùn)練線性探針，并在 Easy2HardBench 的數(shù)學(xué)和編碼子集上評(píng)估了它們的難度估計(jì)性能。

研究表明，人類得出的難度評(píng)級(jí)可以從模型激活中強(qiáng)而線性地解碼，而 LLM 得出的難度評(píng)級(jí)則顯示出明顯較弱的編碼。

同時(shí)，將模型推向“更簡(jiǎn)單”的表征可以減少輸出長(zhǎng)度，并通過防止幻覺來提高準(zhǔn)確性。

團(tuán)隊(duì)還發(fā)現(xiàn)，在 GRPO 訓(xùn)練過程中，人類難度表示隨著模型能力的增強(qiáng)而增強(qiáng)，而 LLM 難度表示則退化——隨著模型的改進(jìn)，自動(dòng)難度估計(jì)變得越來越不協(xié)調(diào)。

實(shí)驗(yàn)結(jié)果

團(tuán)隊(duì)使用可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí) (RLVR) 來增強(qiáng)模型推理能力。它將強(qiáng)化學(xué)習(xí)融入到具有基于規(guī)則的結(jié)果獎(jiǎng)勵(lì)的低階模型中，可以根據(jù)模型對(duì)數(shù)學(xué)問題最終答案的準(zhǔn)確性給予二元獎(jiǎng)勵(lì)。

他們使用 Easy2HardBench 中的兩個(gè)數(shù)學(xué)子集構(gòu)建探測(cè)數(shù)據(jù)集，每個(gè)問題都有一個(gè)難度分?jǐn)?shù)。

同時(shí)，團(tuán)隊(duì)從 18 個(gè)模型家族的 60 個(gè)變體中提取激活值，包含 DeepSeek、Qwen-2.5等大模型，以檢驗(yàn)增強(qiáng)的推理能力是否能帶來更好的難度表征。

結(jié)果表明：

人類難度在 LLM 激活中呈線性編碼。模型激活更好地編碼了人類對(duì)難度的評(píng)價(jià)，而非 LLM 推導(dǎo)出的難度估計(jì)。
難度表征隨模型大小而變化。更大的模型能更好地表征編碼難度。
最佳探測(cè)位置因任務(wù)而異。雖然最后一個(gè)標(biāo)記位置通常在所有數(shù)據(jù)集上都能產(chǎn)生最優(yōu)探針，但某些位置在特定模型中表現(xiàn)出色，這表明最后一個(gè)標(biāo)記位置并非普遍最優(yōu)。
線性探針可以引導(dǎo)模型進(jìn)行更長(zhǎng)的迭代，并誘導(dǎo)工具推理。

結(jié)論

團(tuán)隊(duì)發(fā)現(xiàn)，人類難度表征在訓(xùn)練過程中保持穩(wěn)定或有所提升，相比之下，LLM 難度表征在早期層和中間層普遍退化，性能下降幅度高達(dá) 50%。這種層級(jí)范圍內(nèi)的退化表明，LLM 難度表征是一個(gè)噪聲信號(hào)，GRPO 會(huì)系統(tǒng)性地覆蓋它。

但是，這也存在幾個(gè)局限性。團(tuán)隊(duì)僅關(guān)注 E2H 中的編碼和數(shù)學(xué)任務(wù)，而忽略了其他三個(gè)子集。計(jì)算資源的限制使得模型無法在所有 E2H 子集上進(jìn)行廣泛的實(shí)驗(yàn)，也無法在更大的模型上進(jìn)行 GRPO 訓(xùn)練。

鑒于此因，研究人員將開展更廣泛的跨模型研究，這對(duì)于全面刻畫沿難度方向的轉(zhuǎn)向效應(yīng)至關(guān)重要。

相關(guān)人員表示，未來的研究應(yīng)該調(diào)查探測(cè)結(jié)果是否能推廣到 Codeforces 以外的其他需要編碼和推理的智能體任務(wù)，并探索難度表征在推理和多輪對(duì)話過程中是如何演變的。

參考資料：

https://arxiv.org/pdf/2510.18147

本地收藏打印推薦給朋友

聲明： 本網(wǎng)站所刊載信息，不代表OFweek觀點(diǎn)。刊用本站稿件，務(wù)經(jīng)書面授權(quán)。未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制、翻譯及建立鏡像，違者將依法追究法律責(zé)任。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

日本黄色网站无马赛克免费看亚洲福利精品亚洲乱码日产精品BD 国产99视频精品免视看7