訂閱
糾錯(cuò)
加入自媒體

GLM-5架構(gòu)細(xì)節(jié)浮出水面:DeepSeek仍是繞不開的門檻

離春節(jié)不到一周,過去兩年的經(jīng)驗(yàn)告訴我們,國產(chǎn)AI新產(chǎn)品的爆發(fā)期又要來了。

Kimi K2.5在OpenRouter上一騎絕塵,Minimax也在官網(wǎng)上隱隱約約透露出M2.2的版本代號(hào)。

大家等得很焦急,智譜和DeepSeek年前是不是也得來點(diǎn)大動(dòng)作?

這不,短短48小時(shí)內(nèi),三個(gè)獨(dú)立的技術(shù)平臺(tái)接連出現(xiàn)了與智譜新模型GLM-5相關(guān)的線索,形成了一條完整的信息鏈。

01 線索浮現(xiàn):三平臺(tái)齊曝 GLM-5 蹤跡

2月7日,OpenRouter平臺(tái)悄悄上線了一款代號(hào)為“pony-alpha”的模型。

根據(jù)實(shí)際測試的結(jié)果,它的思維鏈風(fēng)格與智譜的GLM系列高度吻合,比如:

遇到常規(guī)回答,它會(huì)以“嗯,......”為開頭進(jìn)行思考;

遇到知識(shí)檢索任務(wù),就分點(diǎn)列出“1.分析請(qǐng)求:...”;

遇到代碼任務(wù),則會(huì)明確標(biāo)注“用戶要求......”。

而技術(shù)社區(qū)在把這個(gè)模型投入實(shí)際開發(fā)后,發(fā)現(xiàn)它在貪吃蛇、Minecraft等復(fù)雜的代碼生成任務(wù)中表現(xiàn)相當(dāng)穩(wěn)健,但缺乏圖像等多模態(tài)輸入支持。

接下來的2月9日,vLLM推理框架倉庫出現(xiàn)了編號(hào)為34124的pull request,在代碼中首次明確出現(xiàn)了“GLM-5”標(biāo)識(shí)。

更重要的是,代碼表明其實(shí)現(xiàn)邏輯直接復(fù)用了DeepSeek-V3系列模型采用的DSA(DeepSeek Sparse Attention,稀疏注意力)機(jī)制,并集成了MTP(Multi-Token Prediction,多標(biāo)記預(yù)測)技術(shù)。

幾乎同時(shí),Hugging Face transformers倉庫合并了編號(hào)為43858的pull request,正式引入了智譜的GlmMoeDsa架構(gòu)。

代碼顯示,GLM-5采用了78層Transformer解碼器,前三層為稠密(Dense)結(jié)構(gòu),第四層及以后采用混合專家(MoE)架構(gòu),共配置256個(gè)專家網(wǎng)絡(luò),處理單個(gè)token激活其中8個(gè),并輔以1個(gè)共享專家以保證基礎(chǔ)能力穩(wěn)定。

GLM-5的上下文窗口進(jìn)一步擴(kuò)展到了202K,詞表規(guī)模為154880,相比前代GLM-4.7提升有限。

02 架構(gòu)解析:效率與規(guī)模的平衡

在過去兩年里,規(guī);▌t(Scaling Law)的正確性已經(jīng)得到充分驗(yàn)證。

前段時(shí)間廣受好評(píng)的Kimi-K2.5也憑借國產(chǎn)模型中少見的1T參數(shù)量證明了“大就是好”。

不過,智譜創(chuàng)始人唐杰卻在2026年的AGI Next峰會(huì)上提出了一個(gè)不同的看法:

單純的模型擴(kuò)展雖然是提升智能的有效路徑,但本質(zhì)上是“人類最輕松的偷懶方式”。

回過頭來看即將誕生的GLM-5,若是按照社區(qū)揭曉的現(xiàn)有信息來看,其技術(shù)路線已經(jīng)呈現(xiàn)出明顯的“效率優(yōu)先”導(dǎo)向,而非繼續(xù)堆砌參數(shù)。

首先是混合專家(MoE)架構(gòu),這個(gè)詞在如今的AI時(shí)代應(yīng)該已經(jīng)不再陌生,它將模型參數(shù)分散至多個(gè)專業(yè)化的子網(wǎng)絡(luò),也就是我們所說的“專家”,推理時(shí)可以只調(diào)用與任務(wù)最相關(guān)的少數(shù)專家。

GLM-5采用“256專家+8激活”的配置,在維持更大規(guī)模參數(shù)總量的同時(shí),單次推理只需調(diào)用約3%的參數(shù),對(duì)計(jì)算成本和響應(yīng)延遲都實(shí)現(xiàn)了有效控制。

前3層保留稠密結(jié)構(gòu)則是為了確保模型具備基礎(chǔ)語言理解能力的穩(wěn)定性,以避免稀疏化帶來的表征斷裂風(fēng)險(xiǎn)。

然后是智譜選擇了已被DeepSeek驗(yàn)證的稀疏注意力機(jī)制(DSA),而非自行研發(fā)同類機(jī)制。

前面已經(jīng)提過,GLM-5對(duì)DSA的集成屬于架構(gòu)復(fù)用,代碼中明確顯示GLM-5中的“GlmMoeDsaForCausalLM”類直接繼承自“DeepseekV2ForCausalLM”。

論文地址:

DSA機(jī)制是DeepSeek在五個(gè)月前開源的算法。

傳統(tǒng)大模型在處理長文本時(shí),自注意力機(jī)制決定了每個(gè)詞都要與前面的所有詞計(jì)算一次注意力關(guān)系,計(jì)算量隨文本長度呈平方級(jí)增長,這就導(dǎo)致長文本的推理成本居高不下。

DSA提出了用精準(zhǔn)篩選來代替全文掃描的新思路:對(duì)于每個(gè)詞,篩選出與之最相關(guān)的一部分詞并進(jìn)行深度計(jì)算。

模型需要為每一個(gè)當(dāng)前詞配備一個(gè)輕量級(jí)的索引器,用極簡的計(jì)算方式來快速評(píng)估當(dāng)前詞與歷史詞之間的相關(guān)性,并輸出一個(gè)相關(guān)性分?jǐn)?shù)。

由于使用ReLU代替Softmax作為激活函數(shù)能夠避免指數(shù)運(yùn)算開銷,這個(gè)流程只需要消耗自注意力機(jī)制約5%的計(jì)算資源。

在得到相關(guān)性分?jǐn)?shù)后,模型就可以僅選取最相關(guān)的k個(gè)歷史詞進(jìn)行自注意力計(jì)算。論文中以128K上下文場景為例,取k=2048,計(jì)算量可以足足減少98%。

為了確保篩選詞匯的質(zhì)量,DeepSeek當(dāng)時(shí)就采用了分兩階段的訓(xùn)練策略:先讓索引器在稠密注意力模式下學(xué)習(xí)“哪些詞更值得被關(guān)注”,等到輸出分布與自注意力對(duì)齊后再切換到稀疏注意力模式。

實(shí)際測試下來,在H800 GPU上處理長文本時(shí)使用DSA能夠降低約40%至50%的推理成本,而核心任務(wù)上的性能損失還不到1%。

因此,DSA機(jī)制不是簡單的跳過信息,而是用低成本的路由實(shí)現(xiàn)了計(jì)算資源的精準(zhǔn)“按需分配”,使模型兼顧長上下文場景下的能力和效率。

最后則是多標(biāo)記預(yù)測(MTP)技術(shù),又是DeepSeek的經(jīng)典代表技術(shù)之一。

這項(xiàng)推理加速機(jī)制從根本上改變了大模型token生成的模式。標(biāo)準(zhǔn)Transformer架構(gòu)采用嚴(yán)格的自回歸方式:模型每次前向計(jì)算只會(huì)預(yù)測下一個(gè)詞,長文本場景下所需的計(jì)算次數(shù)可想而知。

MTP則允許模型在前向計(jì)算中一次預(yù)測多個(gè)連續(xù)的詞,以此減少迭代次數(shù)并提升計(jì)算效率。

單純把預(yù)測目標(biāo)從一個(gè)詞變成多個(gè)詞肯定會(huì)提高出錯(cuò)的概率,因此MTP的實(shí)現(xiàn)依賴于訓(xùn)練階段的特殊設(shè)計(jì):模型同時(shí)預(yù)測當(dāng)前詞和后續(xù)多個(gè)詞的聯(lián)合分布,損失函數(shù)也被調(diào)整為覆蓋多個(gè)未來位置的預(yù)測目標(biāo),讓模型學(xué)會(huì)局部詞序列的生成規(guī)律。

聽起來有些抽象,用一個(gè)簡單的例子來說明:

在Python編程時(shí),模型識(shí)別到用戶輸入了函數(shù)定義關(guān)鍵字“def”,傳統(tǒng)方式需要逐個(gè)字符預(yù)測后續(xù)的內(nèi)容。

若是使用MTP,模型可能直接輸出“ calculate_sum(a, b)”這個(gè)完整代碼語句。

原因很簡單:代碼具有強(qiáng)語法規(guī)律性,函數(shù)名后必然跟隨括號(hào)和參數(shù)。模型在訓(xùn)練中早已學(xué)會(huì)這種語法結(jié)構(gòu),所以才能安全地一次預(yù)測多個(gè)token。

實(shí)際測試結(jié)果顯示,在代碼、JSON、SQL等結(jié)構(gòu)化文本生成任務(wù)中,MTP能夠?qū)oken生成速度提升2-3倍。

03 產(chǎn)業(yè)洞察:技術(shù)復(fù)用的趨勢不可阻擋

基于社區(qū)測試和技術(shù)架構(gòu)推演的結(jié)果,我們大致可以確認(rèn):

GLM-5在代碼生成和邏輯推理兩個(gè)場景具有優(yōu)勢和競爭力。

pony-alpha在Minecraft這個(gè)復(fù)雜項(xiàng)目中展現(xiàn)出的代碼能力,再加上對(duì)DSA等DeepSeek經(jīng)典技術(shù)的復(fù)用實(shí)現(xiàn)了對(duì)長序列的高效處理,GLM-5有望在軟件開發(fā)輔助、算法設(shè)計(jì)等垂直領(lǐng)域形成差異化價(jià)值。

但短板也不容忽視。社區(qū)測試已經(jīng)明確指出GLM-5暫無多模態(tài)能力,無法處理圖像、音頻等非文本輸入。

在當(dāng)前國內(nèi)主流大模型普遍向視覺語言聯(lián)合理解演進(jìn)的背景下,這一缺失必然會(huì)限制GLM-5在AIGC創(chuàng)作場景中的適用性,并在春節(jié)期間進(jìn)一步被放大。

更有趣的是,現(xiàn)有的幾條消息表面上是關(guān)注GLM-5帶來的新突破,實(shí)則句句離不開DeepSeek的經(jīng)典技術(shù)。

希望幾天之后智譜能給我們帶來新的驚喜。

智譜AI選擇直接集成開源技術(shù)體現(xiàn)對(duì)研發(fā)效率重視的同時(shí),也反映出國產(chǎn)大模型研發(fā)路徑的轉(zhuǎn)變:“開源+優(yōu)化”比“閉源+自研”更務(wù)實(shí)。

AI行業(yè)即將告別參數(shù)規(guī)模的軍備競賽,專注于推理效率上的精細(xì)化運(yùn)營。在控制計(jì)算成本的前提下,如何提升垂直表現(xiàn)將成為下一階段競爭的關(guān)鍵維度。

       原文標(biāo)題 : GLM-5架構(gòu)細(xì)節(jié)浮出水面:DeepSeek仍是繞不開的門檻

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)