123,123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

阿里發(fā)布新基礎(chǔ)模型架構(gòu)Qwen3-Next：推理效率提升10倍

2025-11-17 16:03

來(lái)源： OFweek人工智能網(wǎng)

9月12日，阿里通義千問(wèn)發(fā)布了下一代基礎(chǔ)模型架構(gòu) Qwen3-Next，并開源了基于該架構(gòu)的 Qwen3-Next-80B-A3B 系列模型。

X上的網(wǎng)友紛紛給出好評(píng)，表示設(shè)計(jì)出色、推理準(zhǔn)確該結(jié)構(gòu)相比Qwen3的MoE模型結(jié)構(gòu),進(jìn)行了以下核心改進(jìn)：混合注意力機(jī)制、高稀疏度 MoE結(jié)構(gòu)、一系列訓(xùn)練穩(wěn)定友好的優(yōu)化，以及提升推理效率的多 token 預(yù)測(cè)機(jī)制。

阿里基于Qwen3-Next的模型結(jié)構(gòu)訓(xùn)練了Qwen3-Next-80B-A3B-Base模型，該模型擁有800億參數(shù)僅激活30億參數(shù)。該Base模型實(shí)現(xiàn)了與Qwen3-32B dense模型相近甚至略好的性能，而它的訓(xùn)練成本僅為Qwen3-32B的十分之一不到，在32k以上的上下文下的推理吞吐則是Qwen3-32B的十倍以上，實(shí)現(xiàn)了極致的訓(xùn)練和推理性價(jià)比。

除此之外，阿里還基于 Qwen3-Next-80B-A3B-Base模型同步開發(fā)并發(fā)布了Qwen3-Next-80B-A3B-Instruct與Qwen3-Next-80B-A3B-Thinking。

阿里解決了混合注意力機(jī)制+高稀疏度 MoE 架構(gòu)在強(qiáng)化學(xué)習(xí)訓(xùn)練中長(zhǎng)期存在的穩(wěn)定性與效率難題，實(shí)現(xiàn)了RL訓(xùn)練效率與最終效果的雙重提升。Qwen3-Next-80B-A3B-Thinkink在多項(xiàng)基準(zhǔn)測(cè)試中超越閉源模型Gemini-2.5-Flash-Thinking。

模型結(jié)構(gòu)：混合架構(gòu)+極致稀疏MoE

Qwen3-Next采用了GatedDeltaNet和GatedAttention的混合架構(gòu)，在保留的標(biāo)準(zhǔn)注意力中引入多項(xiàng)增強(qiáng)設(shè)計(jì)：

沿用先前工作中的輸出門控機(jī)制，緩解注意力中的低秩問(wèn)題。
將單個(gè)注意力頭維度從128擴(kuò)展至256。
僅對(duì)注意力頭前25%的位置維度添加旋轉(zhuǎn)位置編碼，提高長(zhǎng)度外推效果。

Qwen3-Next還采用了高稀疏度的Mixture-of-Experts(MoE) 架構(gòu)，總參數(shù)量達(dá)80B，每次推理僅激活約3B參數(shù)。相比Qwen3-MoE的128個(gè)總專家和8個(gè)路由專家，Qwen3-Next擴(kuò)展到了512總專家，10路由專家與1共享專家的組合，在不犧牲效果的前提下達(dá)到資源利用率最大化。

為了緩解部分層的 norm weight值出現(xiàn)異常高的現(xiàn)象，Qwen3-Next采用了Zero-Centered RMSNorm，并在此基礎(chǔ)上, 對(duì)norm weight 施加weight decay,，以避免權(quán)重?zé)o界增長(zhǎng)。Qwen3-Next還在初始化時(shí)歸一化了 MoE router的參數(shù)，確保每個(gè)expert在訓(xùn)練早期都能被無(wú)偏地選中，減小初始化對(duì)實(shí)驗(yàn)結(jié)果的擾動(dòng)。

除此之外，Qwen3-Next 還引入原生 Multi-Token Prediction 機(jī)制，既得到了 Speculative Decoding 接受率較高的 MTP 模塊，又提升了主干本身的綜合性能。 MTP 多步推理性能也得到優(yōu)化，進(jìn)一步提高了實(shí)用場(chǎng)景下的 Speculative Decoding 接受率。

預(yù)訓(xùn)練：吞吐量提升十倍

Qwen3-Next 采用了 Qwen3 36T 預(yù)訓(xùn)練語(yǔ)料的一個(gè)均勻采樣子集，僅包含 15T tokens。其訓(xùn)練所消耗的 GPU Hours不到 Qwen3-30A-3B 的 80%，與 Qwen3-32B 相比僅需 9.3% 的 GPU 計(jì)算資源，展現(xiàn)出極高的訓(xùn)練效率與性價(jià)比。

得益于創(chuàng)新的混合模型架構(gòu)，Qwen3-Next 在推理效率方面表現(xiàn)出顯著優(yōu)勢(shì)。Qwen3-Next-80B-A3B 在 4k tokens 的上下文長(zhǎng)度下，吞吐量接近前者的七倍。當(dāng)上下文長(zhǎng)度超過(guò) 32k 時(shí)，吞吐提升更是達(dá)到十倍以上。

在解碼（decode）階段，該模型在 4k 上下文下實(shí)現(xiàn)近四倍的吞吐提升，而在超過(guò) 32k 的長(zhǎng)上下文場(chǎng)景中，仍能保持十倍以上的吞吐優(yōu)勢(shì)。

Qwen3-Next-80B-A3B-Base 僅使用十分之一的 Non-Embedding 激活參數(shù)，在大多數(shù)基準(zhǔn)測(cè)試中便已超越 Qwen3-32B-Base，且顯著優(yōu)于 Qwen3-30B-A3B，展現(xiàn)出卓越的模型效率與性能優(yōu)勢(shì)。

后訓(xùn)練：Thinking模型超越Gemini

Qwen3-Next-80B-A3B-Instruct 顯著優(yōu)于 Qwen3-30B-A3B-Instruct-2507 和 Qwen3-32B-Non-thinking，并取得了幾乎與 Qwen3-235B-A22B-Instruct-2507 相近的結(jié)果。

在RULER上該模型所有長(zhǎng)度的表現(xiàn)明顯優(yōu)于層數(shù)相同、注意力層數(shù)更多的 Qwen3-30B-A3B-Instruct-2507，展示了 Gated DeltaNet 與 Gated Attention 混合模型在長(zhǎng)文本情景下的優(yōu)越性。

Qwen3-Next-80B-A3B-Thinking 優(yōu)于預(yù)訓(xùn)練成本更高的 Qwen3-30B-A3B-Thinking-2507 和 Qwen3-32B-thinking，超過(guò)了閉源的模型 Gemini-2.5-Flash-Thinking，并在部分指標(biāo)上接近阿里最新的旗艦?zāi)Ｐ?Qwen3-235B-A22B-Thinking-2507。

結(jié)語(yǔ)

Qwen3-Next 在模型架構(gòu)上引入了注意力機(jī)制方面的多項(xiàng)創(chuàng)新，包括線性注意力和注意力門控機(jī)制，并在其 MoE 設(shè)計(jì)中進(jìn)一步提升了稀疏性。

在“思考模式”和“非思考模式”兩種狀態(tài)下，Qwen3-Next-80B-A3B的性能均與規(guī)模更大的 Qwen3-235B-A22B-2507 相當(dāng)，在推理速度上也有顯著提升，尤其在長(zhǎng)上下文場(chǎng)景中表現(xiàn)更為突出。

阿里表示將持續(xù)優(yōu)化這一架構(gòu)，開發(fā) Qwen3.5，致力于實(shí)現(xiàn)更高的智能水平與生產(chǎn)力。

目前，Qwen3-Next已在魔搭社區(qū)和HuggingFace開源。

本地收藏打印推薦給朋友

聲明： 本網(wǎng)站所刊載信息，不代表OFweek觀點(diǎn)。刊用本站稿件，務(wù)經(jīng)書面授權(quán)。未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制、翻譯及建立鏡像，違者將依法追究法律責(zé)任。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

12月9日
立即報(bào)名>> 恩智浦創(chuàng)新技術(shù)峰會(huì)
【深圳專場(chǎng)】
立即報(bào)名 >> 12月16-17日 AMD 嵌入式峰會(huì)
12月19日
立即報(bào)名>> 【線下會(huì)議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
精彩回顧
立即查看>> 【評(píng)選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評(píng)選
精彩回顧
立即查看>> 【白皮書】精準(zhǔn)洞察無(wú)線掌控——283FC智能自檢萬(wàn)用表
精彩回顧
立即查看>> 【工程師系列】汽車電子技術(shù)在線大會(huì)

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

欧洲精品卡1区2卡三卡四卡被黑人调教性奴俱乐部久久这里只有精品6 久久久综合视频一本