123,123

<dfn id="7flt2"></dfn>

<td id="7flt2"><tt id="7flt2"><pre id="7flt2"></pre></tt></td>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

OpenAI 公開“懺悔”訓(xùn)練法：讓 AI 保持誠(chéng)實(shí)

2025-12-04 17:46

來源： OFweek人工智能網(wǎng)

研究表明，有時(shí)模型會(huì)走捷徑或優(yōu)化錯(cuò)誤的目標(biāo)，但其最終輸出看起來仍然正確。如果能夠發(fā)現(xiàn)這種情況，就能更好地監(jiān)控已部署的系統(tǒng)，改進(jìn)訓(xùn)練，并提高對(duì)輸出結(jié)果的信任度。

OpenAI 和其他機(jī)構(gòu)的研究發(fā)現(xiàn)人工智能模型可能會(huì)產(chǎn)生幻覺、操縱獎(jiǎng)勵(lì)機(jī)制或做出不誠(chéng)實(shí)的行為。隨著模型能力的提升和自主性的增強(qiáng)，即使是罕見的偏差也會(huì)造成更大的后果。

研究團(tuán)隊(duì)隨之提出了一項(xiàng)懺悔的訓(xùn)練技術(shù)——訓(xùn)練模型明確承認(rèn)自己何時(shí)從事不良行為。

測(cè)試發(fā)現(xiàn)，懺悔顯著提高了模型不良行為的可見性。在我們?cè)O(shè)計(jì)的所有誘發(fā)不良行為的評(píng)估中，平均而言，假陰（即模型不遵守指令且不坦白）的概率僅為 4.4%。

研究人員在多個(gè)對(duì)抗數(shù)據(jù)集上測(cè)試了概念驗(yàn)證認(rèn)罪模型的準(zhǔn)確率。結(jié)果分為四類：服從但未認(rèn)罪（真陰性）、服從且認(rèn)罪（假陽性）、不服從且未認(rèn)罪（假陰性）以及不服從且認(rèn)罪（真陽性）。

懺悔技術(shù)

OpenAI 訓(xùn)練了一個(gè) GPT-5 Thinking 版本來生成懺悔，并在多個(gè)旨在誘發(fā)諸如陰謀詭計(jì)、作弊、違反指令和產(chǎn)生幻覺等行為的分布外壓力測(cè)試數(shù)據(jù)集上對(duì)其進(jìn)行了評(píng)估。研究表明，即使模型確實(shí)出現(xiàn)了這些不良行為，它也極有可能坦白承認(rèn)。這種懺悔方法在各種不同的數(shù)據(jù)集和任務(wù)中都具有廣泛的有效性。用戶與模型進(jìn)行任何以模型回答結(jié)尾的交互后，用戶可以通過向模型發(fā)送“系統(tǒng)消息”來請(qǐng)求其提供一份“懺悔報(bào)告”。

該報(bào)告針對(duì)模型的最后一個(gè)回答，包含以下內(nèi)容：

該回答應(yīng)滿足的所有顯式和隱式指令、約束和目標(biāo)列表；
對(duì)該回答是否實(shí)際滿足每個(gè)目標(biāo)的客觀分析；
模型在生成回答過程中遇到的任何不確定性、歧義或“棘手判斷”列表。

在訓(xùn)練過程中，每份報(bào)告都由一個(gè)獨(dú)立的獎(jiǎng)勵(lì)模型進(jìn)行評(píng)估，該模型僅根據(jù)目標(biāo)的完整性、合規(guī)性分析的準(zhǔn)確性以及不確定性的覆蓋范圍對(duì)報(bào)告進(jìn)行評(píng)分。

許多不理想的模型行為之所以出現(xiàn)，是因?yàn)?/span>要求模型同時(shí)優(yōu)化多個(gè)目標(biāo)。在強(qiáng)化學(xué)習(xí)過程中，模型接收到提示后會(huì)做出響應(yīng)并獲得獎(jiǎng)勵(lì)。隨著時(shí)間的推移，它會(huì)學(xué)會(huì)生成得分高的答案。

難點(diǎn)在于，獎(jiǎng)勵(lì)信號(hào)必須同時(shí)考慮許多不同的因素：答案的正確性、實(shí)用性、是否符合產(chǎn)品和策略規(guī)范、是否滿足安全約束，以及是否符合用戶的偏好。當(dāng)這些信號(hào)相互作用時(shí)，它們可能會(huì)無意中引導(dǎo)模型做出“錯(cuò)誤”行為。

例如，關(guān)于幻覺的研究表明，某些數(shù)據(jù)集對(duì)自信的猜測(cè)獎(jiǎng)勵(lì)高于對(duì)不確定性的懺悔承認(rèn)。當(dāng)偏好信號(hào)過強(qiáng)時(shí)，模型可能會(huì)變得過于討好。其他研究團(tuán)隊(duì)的研究表明，模型會(huì)獎(jiǎng)勵(lì)作弊行為——即在訓(xùn)練設(shè)置中找到漏洞，在不真正執(zhí)行預(yù)期操作的情況下獲得高分。

懺悔機(jī)制通過完全分離目標(biāo)來避免這個(gè)問題。只針對(duì)一個(gè)目標(biāo)進(jìn)行訓(xùn)練：誠(chéng)實(shí)。模型在懺悔中所說的任何內(nèi)容都不會(huì)被計(jì)入，也不會(huì)影響主要答案的獎(jiǎng)勵(lì)。

實(shí)踐表明：模型愿意在坦白中承認(rèn)不良行為，即使它們?cè)谥饕鸢钢须[藏了這些行為。當(dāng)機(jī)制失效時(shí)，通常是因?yàn)橹噶钅：钅Ｐ透械嚼Щ�，而不是因�(yàn)樗室庹`導(dǎo)。

早期結(jié)果表明，即使原始答案完全沒有邏輯推理，懺悔機(jī)制仍然有效。

對(duì)于模型來說，提供真實(shí)、有證據(jù)支持的解釋通常比構(gòu)建一個(gè)連貫的、能夠蒙混過關(guān)的虛假敘事要容易得多。

實(shí)踐例子

研究人員特意使用一個(gè)較弱的模型計(jì)算出的可破解獎(jiǎng)勵(lì)信號(hào)來訓(xùn)練模型。這種設(shè)置同時(shí)適用于主要獎(jiǎng)勵(lì)和懺悔獎(jiǎng)勵(lì)。模型學(xué)會(huì)了利用這個(gè)較弱的獎(jiǎng)勵(lì)信號(hào)：其表觀準(zhǔn)確率（由較弱的模型評(píng)估時(shí)）有所提高，而其真實(shí)準(zhǔn)確率（由較強(qiáng)的評(píng)估者評(píng)估時(shí)）卻下降了。

盡管懺悔通道也是用同樣的微弱信號(hào)訓(xùn)練的，但它的準(zhǔn)確率卻朝著相反的方向發(fā)展。模型學(xué)習(xí)到，優(yōu)化懺悔獎(jiǎng)勵(lì)的最佳方法就是承認(rèn)自己破解了主要獎(jiǎng)勵(lì)。隨著時(shí)間的推移，即使主要行為發(fā)生了變化，懺悔的準(zhǔn)確率也越來越高。

然而，懺悔并不能阻止不良行為。它的主要價(jià)值在于作為一種監(jiān)控和診斷工具，更側(cè)重于模型是否違反了指令；而思維鏈監(jiān)控則可以揭示模型是如何得出該結(jié)論的。

因未大規(guī)模訓(xùn)練認(rèn)罪機(jī)制，認(rèn)罪準(zhǔn)確率仍不盡如人意。要使該方法更可靠、更穩(wěn)健，并能更廣泛地應(yīng)用于不同的模型類型和任務(wù)，還需要做更多的工作�！皯曰凇睓C(jī)制只是眾多機(jī)制中的一個(gè)，這些機(jī)制還包括審議式對(duì)齊、思維鏈監(jiān)控、指令層級(jí)等等。

OpenAI 的目標(biāo)是構(gòu)建一個(gè)層級(jí)分明的檢查和透明工具系統(tǒng)，使之相互強(qiáng)化。懺悔機(jī)制本身并不能解決平衡多個(gè)維度的問題。

雖然“懺悔”機(jī)制并非萬全之策，但它確實(shí)為模型透明度和監(jiān)督體系增添了重要的一層。相關(guān)人員表示，在未來的工作中，OpenAI 計(jì)劃擴(kuò)大“懺悔”機(jī)制的規(guī)模，并將其與互補(bǔ)的透明度和安全技術(shù)相結(jié)合，進(jìn)一步確保模型忠實(shí)地遵守所有指令和政策，并如實(shí)報(bào)告其行為。

參考資料：

https://openai.com/index/how-confessions-can-keep-language-models-honest/

本地收藏打印推薦給朋友

聲明： 本網(wǎng)站所刊載信息，不代表OFweek觀點(diǎn)。刊用本站稿件，務(wù)經(jīng)書面授權(quán)。未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制、翻譯及建立鏡像，違者將依法追究法律責(zé)任。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

12月9日
立即報(bào)名>> 恩智浦創(chuàng)新技術(shù)峰會(huì)
【深圳專場(chǎng)】
立即報(bào)名 >> 12月16-17日 AMD 嵌入式峰會(huì)
12月19日
立即報(bào)名>> 【線下會(huì)議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
精彩回顧
立即查看>> 【評(píng)選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評(píng)選
精彩回顧
立即查看>> 【白皮書】精準(zhǔn)洞察無線掌控——283FC智能自檢萬用表
精彩回顧
立即查看>> 【工程師系列】汽車電子技術(shù)在線大會(huì)

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

欧洲精品卡1区2卡三卡四卡被黑人调教性奴俱乐部久久这里只有精品6 久久久综合视频一本

<dfn id="fyaix"></dfn>

<div id="fyaix"><rp id="fyaix"><s id="fyaix"></s></rp></div>

<thead id="fyaix"></thead>

<tbody id="fyaix"></tbody>

<dfn id="fyaix"><center id="fyaix"></center></dfn>

<tbody id="fyaix"><small id="fyaix"><samp id="fyaix"></samp></small></tbody>