123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 機(jī)器學(xué)習(xí) > 正文

GLM-5架構(gòu)細(xì)節(jié)浮出水面：DeepSeek仍是繞不開的門檻

2026-02-11 15:33

離春節(jié)不到一周，過去兩年的經(jīng)驗(yàn)告訴我們，國產(chǎn)AI新產(chǎn)品的爆發(fā)期又要來了。

Kimi K2.5在OpenRouter上一騎絕塵，Minimax也在官網(wǎng)上隱隱約約透露出M2.2的版本代號(hào)。

大家等得很焦急，智譜和DeepSeek年前是不是也得來點(diǎn)大動(dòng)作？

這不，短短48小時(shí)內(nèi)，三個(gè)獨(dú)立的技術(shù)平臺(tái)接連出現(xiàn)了與智譜新模型GLM-5相關(guān)的線索，形成了一條完整的信息鏈。

01 線索浮現(xiàn)：三平臺(tái)齊曝 GLM-5 蹤跡

2月7日，OpenRouter平臺(tái)悄悄上線了一款代號(hào)為“pony-alpha”的模型。

根據(jù)實(shí)際測試的結(jié)果，它的思維鏈風(fēng)格與智譜的GLM系列高度吻合，比如：

遇到常規(guī)回答，它會(huì)以“嗯，......”為開頭進(jìn)行思考；

遇到知識(shí)檢索任務(wù)，就分點(diǎn)列出“1.分析請(qǐng)求：...”；

遇到代碼任務(wù)，則會(huì)明確標(biāo)注“用戶要求......”。

而技術(shù)社區(qū)在把這個(gè)模型投入實(shí)際開發(fā)后，發(fā)現(xiàn)它在貪吃蛇、Minecraft等復(fù)雜的代碼生成任務(wù)中表現(xiàn)相當(dāng)穩(wěn)健，但缺乏圖像等多模態(tài)輸入支持。

接下來的2月9日，vLLM推理框架倉庫出現(xiàn)了編號(hào)為34124的pull request，在代碼中首次明確出現(xiàn)了“GLM-5”標(biāo)識(shí)。

更重要的是，代碼表明其實(shí)現(xiàn)邏輯直接復(fù)用了DeepSeek-V3系列模型采用的DSA（DeepSeek Sparse Attention，稀疏注意力）機(jī)制，并集成了MTP（Multi-Token Prediction，多標(biāo)記預(yù)測）技術(shù)。

幾乎同時(shí)，Hugging Face transformers倉庫合并了編號(hào)為43858的pull request，正式引入了智譜的GlmMoeDsa架構(gòu)。

代碼顯示，GLM-5采用了78層Transformer解碼器，前三層為稠密（Dense）結(jié)構(gòu)，第四層及以后采用混合專家（MoE）架構(gòu)，共配置256個(gè)專家網(wǎng)絡(luò)，處理單個(gè)token激活其中8個(gè)，并輔以1個(gè)共享專家以保證基礎(chǔ)能力穩(wěn)定。

GLM-5的上下文窗口進(jìn)一步擴(kuò)展到了202K，詞表規(guī)模為154880，相比前代GLM-4.7提升有限。

02 架構(gòu)解析：效率與規(guī)模的平衡

在過去兩年里，規(guī)�；▌t（Scaling Law）的正確性已經(jīng)得到充分驗(yàn)證。

前段時(shí)間廣受好評(píng)的Kimi-K2.5也憑借國產(chǎn)模型中少見的1T參數(shù)量證明了“大就是好”。

不過，智譜創(chuàng)始人唐杰卻在2026年的AGI Next峰會(huì)上提出了一個(gè)不同的看法：

單純的模型擴(kuò)展雖然是提升智能的有效路徑，但本質(zhì)上是“人類最輕松的偷懶方式”。

回過頭來看即將誕生的GLM-5，若是按照社區(qū)揭曉的現(xiàn)有信息來看，其技術(shù)路線已經(jīng)呈現(xiàn)出明顯的“效率優(yōu)先”導(dǎo)向，而非繼續(xù)堆砌參數(shù)。

首先是混合專家（MoE）架構(gòu)，這個(gè)詞在如今的AI時(shí)代應(yīng)該已經(jīng)不再陌生，它將模型參數(shù)分散至多個(gè)專業(yè)化的子網(wǎng)絡(luò)，也就是我們所說的“專家”，推理時(shí)可以只調(diào)用與任務(wù)最相關(guān)的少數(shù)專家。

GLM-5采用“256專家+8激活”的配置，在維持更大規(guī)模參數(shù)總量的同時(shí)，單次推理只需調(diào)用約3%的參數(shù)，對(duì)計(jì)算成本和響應(yīng)延遲都實(shí)現(xiàn)了有效控制。

前3層保留稠密結(jié)構(gòu)則是為了確保模型具備基礎(chǔ)語言理解能力的穩(wěn)定性，以避免稀疏化帶來的表征斷裂風(fēng)險(xiǎn)。

然后是智譜選擇了已被DeepSeek驗(yàn)證的稀疏注意力機(jī)制（DSA），而非自行研發(fā)同類機(jī)制。

前面已經(jīng)提過，GLM-5對(duì)DSA的集成屬于架構(gòu)復(fù)用，代碼中明確顯示GLM-5中的“GlmMoeDsaForCausalLM”類直接繼承自“DeepseekV2ForCausalLM”。

論文地址：

DSA機(jī)制是DeepSeek在五個(gè)月前開源的算法。

傳統(tǒng)大模型在處理長文本時(shí)，自注意力機(jī)制決定了每個(gè)詞都要與前面的所有詞計(jì)算一次注意力關(guān)系，計(jì)算量隨文本長度呈平方級(jí)增長，這就導(dǎo)致長文本的推理成本居高不下。

DSA提出了用精準(zhǔn)篩選來代替全文掃描的新思路：對(duì)于每個(gè)詞，篩選出與之最相關(guān)的一部分詞并進(jìn)行深度計(jì)算。

模型需要為每一個(gè)當(dāng)前詞配備一個(gè)輕量級(jí)的索引器，用極簡的計(jì)算方式來快速評(píng)估當(dāng)前詞與歷史詞之間的相關(guān)性，并輸出一個(gè)相關(guān)性分?jǐn)?shù)。

由于使用ReLU代替Softmax作為激活函數(shù)能夠避免指數(shù)運(yùn)算開銷，這個(gè)流程只需要消耗自注意力機(jī)制約5%的計(jì)算資源。

在得到相關(guān)性分?jǐn)?shù)后，模型就可以僅選取最相關(guān)的k個(gè)歷史詞進(jìn)行自注意力計(jì)算。論文中以128K上下文場景為例，取k=2048，計(jì)算量可以足足減少98%。

為了確保篩選詞匯的質(zhì)量，DeepSeek當(dāng)時(shí)就采用了分兩階段的訓(xùn)練策略：先讓索引器在稠密注意力模式下學(xué)習(xí)“哪些詞更值得被關(guān)注”，等到輸出分布與自注意力對(duì)齊后再切換到稀疏注意力模式。

實(shí)際測試下來，在H800 GPU上處理長文本時(shí)使用DSA能夠降低約40%至50%的推理成本，而核心任務(wù)上的性能損失還不到1%。

因此，DSA機(jī)制不是簡單的跳過信息，而是用低成本的路由實(shí)現(xiàn)了計(jì)算資源的精準(zhǔn)“按需分配”，使模型兼顧長上下文場景下的能力和效率。

最后則是多標(biāo)記預(yù)測（MTP）技術(shù)，又是DeepSeek的經(jīng)典代表技術(shù)之一。

這項(xiàng)推理加速機(jī)制從根本上改變了大模型token生成的模式。標(biāo)準(zhǔn)Transformer架構(gòu)采用嚴(yán)格的自回歸方式：模型每次前向計(jì)算只會(huì)預(yù)測下一個(gè)詞，長文本場景下所需的計(jì)算次數(shù)可想而知。

MTP則允許模型在前向計(jì)算中一次預(yù)測多個(gè)連續(xù)的詞，以此減少迭代次數(shù)并提升計(jì)算效率。

單純把預(yù)測目標(biāo)從一個(gè)詞變成多個(gè)詞肯定會(huì)提高出錯(cuò)的概率，因此MTP的實(shí)現(xiàn)依賴于訓(xùn)練階段的特殊設(shè)計(jì)：模型同時(shí)預(yù)測當(dāng)前詞和后續(xù)多個(gè)詞的聯(lián)合分布，損失函數(shù)也被調(diào)整為覆蓋多個(gè)未來位置的預(yù)測目標(biāo)，讓模型學(xué)會(huì)局部詞序列的生成規(guī)律。

聽起來有些抽象，用一個(gè)簡單的例子來說明：

在Python編程時(shí)，模型識(shí)別到用戶輸入了函數(shù)定義關(guān)鍵字“def”，傳統(tǒng)方式需要逐個(gè)字符預(yù)測后續(xù)的內(nèi)容。

若是使用MTP，模型可能直接輸出“ calculate_sum(a, b)”這個(gè)完整代碼語句。

原因很簡單：代碼具有強(qiáng)語法規(guī)律性，函數(shù)名后必然跟隨括號(hào)和參數(shù)。模型在訓(xùn)練中早已學(xué)會(huì)這種語法結(jié)構(gòu)，所以才能安全地一次預(yù)測多個(gè)token。

實(shí)際測試結(jié)果顯示，在代碼、JSON、SQL等結(jié)構(gòu)化文本生成任務(wù)中，MTP能夠?qū)oken生成速度提升2-3倍。

03 產(chǎn)業(yè)洞察：技術(shù)復(fù)用的趨勢不可阻擋

基于社區(qū)測試和技術(shù)架構(gòu)推演的結(jié)果，我們大致可以確認(rèn)：

GLM-5在代碼生成和邏輯推理兩個(gè)場景具有優(yōu)勢和競爭力。

pony-alpha在Minecraft這個(gè)復(fù)雜項(xiàng)目中展現(xiàn)出的代碼能力，再加上對(duì)DSA等DeepSeek經(jīng)典技術(shù)的復(fù)用實(shí)現(xiàn)了對(duì)長序列的高效處理，GLM-5有望在軟件開發(fā)輔助、算法設(shè)計(jì)等垂直領(lǐng)域形成差異化價(jià)值。

但短板也不容忽視。社區(qū)測試已經(jīng)明確指出GLM-5暫無多模態(tài)能力，無法處理圖像、音頻等非文本輸入。

在當(dāng)前國內(nèi)主流大模型普遍向視覺語言聯(lián)合理解演進(jìn)的背景下，這一缺失必然會(huì)限制GLM-5在AIGC創(chuàng)作場景中的適用性，并在春節(jié)期間進(jìn)一步被放大。

更有趣的是，現(xiàn)有的幾條消息表面上是關(guān)注GLM-5帶來的新突破，實(shí)則句句離不開DeepSeek的經(jīng)典技術(shù)。

希望幾天之后智譜能給我們帶來新的驚喜。

智譜AI選擇直接集成開源技術(shù)體現(xiàn)對(duì)研發(fā)效率重視的同時(shí)，也反映出國產(chǎn)大模型研發(fā)路徑的轉(zhuǎn)變：“開源+優(yōu)化”比“閉源+自研”更務(wù)實(shí)。

AI行業(yè)即將告別參數(shù)規(guī)模的軍備競賽，專注于推理效率上的精細(xì)化運(yùn)營。在控制計(jì)算成本的前提下，如何提升垂直表現(xiàn)將成為下一階段競爭的關(guān)鍵維度。

原文標(biāo)題 : GLM-5架構(gòu)細(xì)節(jié)浮出水面：DeepSeek仍是繞不開的門檻

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

日本黄色网站无马赛克免费看亚洲福利精品亚洲乱码日产精品BD 国产99视频精品免视看7