123,123,123

<rt id="oaprn"></rt>

<kbd id="oaprn"><dl id="oaprn"></dl></kbd>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 核心硬件 > 正文

谷歌推出全新底層架構(gòu)MoR，Transformer有了替代品

2025-07-25 15:49

前言：大語言模型（LLMs）規(guī)模龐大但效率低下的問題長期備受關(guān)注。盡管模型參數(shù)持續(xù)增長，其在長文本處理中的性能衰減、計(jì)算資源消耗等問題始終未能有效解決。谷歌DeepMind最新提出的MoR架構(gòu)，可能為這一困境提供了新的解決路徑。

作者 | 方文三

圖片來源 | 網(wǎng) 絡(luò)

傳統(tǒng)模型的困境局限當(dāng)前性能發(fā)展

長期以來，Transformer架構(gòu)始終作為大型語言模型的核心架構(gòu)，然而隨著研究的深入，其固有局限性亦逐漸顯現(xiàn)。

Transformer依賴堆疊網(wǎng)絡(luò)層數(shù)以增強(qiáng)模型性能，但該機(jī)制導(dǎo)致計(jì)算資源呈現(xiàn)平均分配特征，無論輸入token的復(fù)雜程度如何。

簡單token（如連詞、助詞）與復(fù)雜token（如專業(yè)術(shù)語、長句）均被施以同等處理流程，導(dǎo)致大量冗余計(jì)算產(chǎn)生。

此外，在處理長文本序列時(shí)，其鍵值緩存（KV緩存）機(jī)制需占用大量內(nèi)存空間，進(jìn)一步制約模型效率的提升。

針對上述問題，研究者們正持續(xù)探索兩個(gè)關(guān)鍵方向：其一通過權(quán)重共享機(jī)制提升參數(shù)利用效率，其二依據(jù)輸入復(fù)雜度動(dòng)態(tài)分配計(jì)算資源，旨在實(shí)現(xiàn)自適應(yīng)計(jì)算能力。

當(dāng)模型規(guī)模擴(kuò)展至數(shù)千億參數(shù)量級，訓(xùn)練與推理成本已成為制約其廣泛落地的核心瓶頸。

傳統(tǒng)Transformer架構(gòu)對所有輸入信息采用均質(zhì)化計(jì)算的處理模式，被證實(shí)存在顯著資源冗余。

從理論到實(shí)踐的轉(zhuǎn)變：替代Transformer潛力

基于Transformer的這些局限性，許多非Transformer架構(gòu)應(yīng)運(yùn)而生，如中國的RWKV、Meta的Mega、微軟亞研的 Retnet、Mamba、DeepMind團(tuán)隊(duì)的Hawk和Griffin等。

它們大多在RNN的基礎(chǔ)上，針對Transformer的缺陷進(jìn)行改進(jìn)，試圖研究出更高效的模型結(jié)構(gòu)。

就在最近，KAIST、Mila和谷歌DeepMind團(tuán)隊(duì)等放出重磅炸彈——一個(gè)名為Mixture-of-Recursions（MoR）的全新LLM模型架構(gòu)，被業(yè)內(nèi)認(rèn)為有潛力成為“Transformer 殺手”。

MoR首次在單一框架內(nèi)實(shí)現(xiàn)了參數(shù)共享與自適應(yīng)計(jì)算的協(xié)同優(yōu)化，解決了傳統(tǒng)方法只能二者擇一的局限。

該框架將動(dòng)態(tài)token級路由機(jī)制集成至參數(shù)高效的遞歸Transformer中，形成一種協(xié)同架構(gòu)，有望達(dá)成“在避免大型模型成本的同時(shí)獲得其質(zhì)量”的目標(biāo)。

簡而言之，MoR框架能夠依據(jù)每個(gè)token的需求，動(dòng)態(tài)且精確地分配所需計(jì)算資源，在避免資源浪費(fèi)的同時(shí)確保任務(wù)高效完成。

MoR框架（Mixture-of-Recursions）是一個(gè)統(tǒng)一框架，其充分發(fā)掘了遞歸Transformer的能力特性，在預(yù)訓(xùn)練與推理階段為每個(gè)詞元?jiǎng)討B(tài)調(diào)整遞歸步驟。

該框架的核心在于兩個(gè)關(guān)鍵組件：輕量級路由機(jī)制與KV緩存策略。

其中，輕量級路由機(jī)制引入了端到端訓(xùn)練的輕量級路由器，負(fù)責(zé)為每個(gè)詞元分配特定的遞歸深度。

這意味著模型可依據(jù)詞元所需的處理深度，決定共享參數(shù)模塊的遞歸調(diào)用頻次，從而將計(jì)算資源精確導(dǎo)向需求最為迫切之處。

在技術(shù)實(shí)現(xiàn)層面，MoR通過端到端訓(xùn)練輕量級路由模塊，為每個(gè)token動(dòng)態(tài)分配專屬的遞歸深度。

該機(jī)制依據(jù)每個(gè)token所需的處理深度，決定共享參數(shù)模塊對其遞歸應(yīng)用的次數(shù)，從而實(shí)現(xiàn)計(jì)算資源的精準(zhǔn)投放。

此種基于token的動(dòng)態(tài)遞歸機(jī)制，天然支持遞歸層級的鍵值（KV）緩存。

該緩存可根據(jù)各token所分配的遞歸深度，選擇性存儲并檢索對應(yīng)的鍵值對，顯著降低內(nèi)存帶寬壓力，無需后處理即可提升推理吞吐量。

綜上所述，MoR在統(tǒng)一架構(gòu)中同時(shí)實(shí)現(xiàn)了三項(xiàng)關(guān)鍵優(yōu)化：參數(shù)共享、計(jì)算路由與遞歸級緩存。

此外，采用KV緩存共享策略雖會(huì)輕微影響性能，但能顯著提升內(nèi)存效率。

在內(nèi)存資源受限的部署場景中，此種性能與資源消耗之間的權(quán)衡是可接受的。

這意味著模型能夠依據(jù)每個(gè)詞元的處理需求，精準(zhǔn)地分配計(jì)算資源，從而規(guī)避冗余的計(jì)算消耗。

MoR既能顯著降低驗(yàn)證集困惑度（Perplexity）并提升少樣本（Few-shot）準(zhǔn)確率，亦可在同等訓(xùn)練計(jì)算量與更小模型規(guī)模的前提下，相較現(xiàn)有模型提供更高的吞吐量。

在少樣本學(xué)習(xí)、長文本處理等任務(wù)中的表現(xiàn)已接近Transformer，且計(jì)算效率更具優(yōu)勢，被視作替代Transformer架構(gòu)的有力競爭者。

實(shí)驗(yàn)結(jié)果來看MoR的性能表現(xiàn)亮眼

研究團(tuán)隊(duì)在1.35億至1.7億參數(shù)的多個(gè)模型規(guī)模上進(jìn)行了測試。

結(jié)果表明，在相同訓(xùn)練計(jì)算預(yù)算下，采用MoR架構(gòu)的模型，其參數(shù)量雖較基準(zhǔn)Transformer模型減少近一半，但在多項(xiàng)少樣本學(xué)習(xí)任務(wù)中的平均準(zhǔn)確率達(dá)到43.1%，優(yōu)于基準(zhǔn)模型的42.3%。

尤為重要的是，MoR架構(gòu)具備更高的計(jì)算效率，使其能夠在相同計(jì)算預(yù)算內(nèi)處理更多訓(xùn)練數(shù)據(jù)，從而進(jìn)一步提升模型性能。

在固定訓(xùn)練數(shù)據(jù)量的對比實(shí)驗(yàn)中，特定MoR配置僅需使用基準(zhǔn)模型75%的訓(xùn)練計(jì)算量，性能即超越基準(zhǔn)模型，同時(shí)訓(xùn)練時(shí)間縮短19%，峰值內(nèi)存占用降低25%。

在推理性能方面，MoR架構(gòu)的優(yōu)勢更為顯著。

其采用的連續(xù)深度批處理技術(shù)，可將處于不同計(jì)算階段的token組合至同一批次進(jìn)行處理，因其共享相同參數(shù)塊。

該技術(shù)與模型的早期退出機(jī)制協(xié)同作用，顯著提升了處理吞吐量。

在3.6億參數(shù)規(guī)模的模型測試中，MoR-4配置在特定測試條件下實(shí)現(xiàn)了高達(dá)2.06倍的推理加速。

尤其值得注意的是，盡管模型參數(shù)量縮減近50%，MoR仍展現(xiàn)出更優(yōu)性能。

該優(yōu)勢源于其顯著提升的計(jì)算效率，從而能夠在相同F(xiàn)LOPs預(yù)算下處理更多訓(xùn)練token。

MoR的提出意味著LLM發(fā)展邏輯的根本性變革

MoR的出現(xiàn)標(biāo)志著AI模型從[規(guī)模擴(kuò)張]向[智能計(jì)算]的演進(jìn)趨勢。

其動(dòng)態(tài)路由機(jī)制模擬了人類認(rèn)知的[選擇性注意]特性，為開發(fā)更具生物啟發(fā)性的AI系統(tǒng)提供了新思路。

通過動(dòng)態(tài)路由、參數(shù)共享與智能緩存的三重優(yōu)化機(jī)制，MoR重新定義了大模型的效率邊界。

推理速度倍增與內(nèi)存占用減半的突破性進(jìn)展，不僅顯著降低了部署成本，更為復(fù)雜任務(wù)處理確立了新范式。

盡管在大規(guī)模驗(yàn)證與多模態(tài)擴(kuò)展領(lǐng)域仍需深入探索，但MoR已展現(xiàn)出替代Transformer的實(shí)質(zhì)性潛力，或?qū)⒁I(lǐng)下一代AI模型的架構(gòu)革新。

尤為重要的是，MoR為開發(fā)更具認(rèn)知啟發(fā)性的AI系統(tǒng)奠定了基石。

該框架在生成過程中能夠按每個(gè)token自適應(yīng)分配[思考深度]的特性，與語言模型潛在推理及內(nèi)部思考機(jī)制的新興研究高度契合。

這表明MoR可作為關(guān)鍵平臺，用于探索模型如何在保持常規(guī)任務(wù)效率的同時(shí)，逐步學(xué)會(huì)對復(fù)雜問題進(jìn)行更深入的思考。

結(jié)尾：

MoR延續(xù)并深化了這些研究對AI效率優(yōu)化的探索路徑，即從單一維度的優(yōu)化轉(zhuǎn)向參數(shù)、計(jì)算及內(nèi)存等多維度的協(xié)同優(yōu)化。

這對于降低大語言模型的部署與應(yīng)用成本具有顯著的實(shí)踐價(jià)值。

總體而言，當(dāng)前階段尚難以斷言MoR能否全面取代Transformer架構(gòu)，但其確實(shí)為未來語言模型的設(shè)計(jì)提供了在性能與效率層面均極具發(fā)展?jié)摿Φ难葸M(jìn)方向。

部分資料參考：

炎炎星球：《谷歌DeepMind發(fā)布MoR架構(gòu)，推理速度翻倍、內(nèi)存減半，或成Transformer替代方案》

算家云：《Transformer霸權(quán)終結(jié)？谷歌DeepMind推出顛覆性架構(gòu)：推理2倍速、參數(shù)減半》

AINLPer：《Google等提出遞歸混合框架：MoR，大幅提升LLM計(jì)算效率》

AI帝國：《Google發(fā)布MoR架構(gòu)：2倍推理速度，節(jié)省50%內(nèi)存》

原文標(biāo)題 : 深度丨谷歌推出全新底層架構(gòu)MoR，Transformer有了替代品

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報(bào)。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

12月9日
立即報(bào)名>> 恩智浦創(chuàng)新技術(shù)峰會(huì)
【深圳專場】
立即報(bào)名 >> 12月16-17日 AMD 嵌入式峰會(huì)
12月19日
立即報(bào)名>> 【線下會(huì)議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選
精彩回顧
立即查看>> 【白皮書】精準(zhǔn)洞察無線掌控——283FC智能自檢萬用表
精彩回顧
立即查看>> 【工程師系列】汽車電子技術(shù)在線大會(huì)

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動(dòng)化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

欧洲精品卡1区2卡三卡四卡被黑人调教性奴俱乐部久久这里只有精品6 久久久综合视频一本

<li id="ukyya"><pre id="ukyya"></pre></li>

<li id="ukyya"></li>