訂閱
糾錯
加入自媒體

“FP8精度”如何賦能國產(chǎn)AI?

圖片

當前AI大模型(LLM)訓練與推理對算力的巨大需求,以及傳統(tǒng)計算精度(如FP16/BF16)面臨的功耗、內(nèi)存帶寬和計算效率瓶頸。

FP8(8位浮點數(shù))作為一種新興的、得到行業(yè)巨頭(NVIDIA、AMD、Intel)支持的低精度格式,正在成為下一代AI芯片的標配。

FP8對于國產(chǎn)AI芯片有著怎樣的戰(zhàn)略意義?這可能不僅是技術(shù)追趕,更是參與制定未來AI計算標準、構(gòu)建自主生態(tài)的關(guān)鍵機遇。

01 AI計算進入“8位時代”的必然性

如今,大模型的算力饑渴與“內(nèi)存墻”困境日益尖銳。模型參數(shù)規(guī)模指數(shù)級增長從千億到了萬億,大模型的“膨脹速度”堪稱“失控”:從BERT的3.4億參數(shù)到GPT-3的1750億,再到如今超萬億參數(shù)的模型,每兩年參數(shù)規(guī)模增長約240倍。但GPU顯存的增長卻像“蝸牛爬”——2016年P(guān)100僅12GB,2023年H200也才141GB,7年只翻了10倍。

這種“參數(shù)瘋漲、顯存龜速”的反差,讓訓練大模型成了“內(nèi)存噩夢”。比如訓練GPT-3,僅模型參數(shù)就需要650GB顯存,加上訓練時的梯度、動量等狀態(tài)(約1950GB),再算上中間計算的激活值(366GB),總需求超2900GB。而單張A100 GPU只有80GB顯存,必須靠多卡并行,但卡越多,卡間通信又成了新瓶頸。

“存”“算”性能失配,內(nèi)存墻導致訪存時延高,效率低。內(nèi)存墻,指內(nèi)存的容量或傳輸帶寬有限而嚴重限制 CPU 性能發(fā)揮的現(xiàn)象。內(nèi)存的性能指標主要有“帶寬”(Bandwidth)和“等待時間”(Latency)。近 20 年間,運算設(shè)備的算力提高了 90000 倍,提升非?。雖然存儲器從 DDR 發(fā)展到 GDDR6x,能夠用于顯卡、游戲終端和高性能運算,接口標準也從 PCIe1.0a 升級到 NVLink3.0,但是通訊帶寬的增長只有 30 倍,和算力相比提高幅度非常緩慢。

馮諾依曼架構(gòu)下,數(shù)據(jù)傳輸導致嚴重的功耗損失。馮·諾依曼架構(gòu)要求數(shù)據(jù)在存儲器單元和處理單元之間不斷地“讀寫”,這樣數(shù)據(jù)在兩者之間來回傳輸就會消耗很多的傳輸功耗。根據(jù)英特爾的研究表明,當半導體工藝達到 7nm 時,數(shù)據(jù)搬運功耗高達 35pJ/bit,占總功耗的63.7%。數(shù)據(jù)傳輸造成的功耗損失越來越嚴重,限制了芯片發(fā)展的速度和效率,形成了“功耗墻”問題。

而FP8的優(yōu)勢就是——效率與精度的完美平衡。

02 FP8并非簡單的“砍位數(shù)”——技術(shù)內(nèi)涵與設(shè)計挑戰(zhàn)

FP8(8位浮點數(shù))格式正以其獨特的綜合優(yōu)勢,成為推動AI計算邁向下一階段的關(guān)鍵技術(shù)。其核心價值可總結(jié)為:在效率與精度之間實現(xiàn)了前所未有的平衡。

首先,F(xiàn)P8帶來了極致的計算與存儲效率提升。與目前廣泛使用的FP16相比,F(xiàn)P8將內(nèi)存占用直接減少50%,顯著降低了內(nèi)存帶寬壓力,使得在相同硬件條件下能夠處理更大規(guī)模的模型或更高批次的數(shù)據(jù)。這一改進不僅直接提升了推理和訓練速度,還大幅降低了系統(tǒng)功耗,對部署在邊緣設(shè)備或大規(guī)模數(shù)據(jù)中心中的AI應(yīng)用都具有重要意義。特別是在內(nèi)存帶寬經(jīng)常成為瓶頸的AI加速器中,F(xiàn)P8的有效應(yīng)用能夠釋放更大的算力潛力。

其次,F(xiàn)P8在壓縮數(shù)據(jù)的同時維持了可接受的數(shù)值精度。與純整數(shù)格式(如INT8)相比,F(xiàn)P8保留了浮點數(shù)的表示特點,具備更大的動態(tài)范圍和更靈活的精度分配,能夠更好地適應(yīng)訓練過程中梯度計算、激活函數(shù)輸出等對數(shù)值范圍敏感的操作。這意味著盡管比特數(shù)較低,F(xiàn)P8仍能較好地維持模型訓練的穩(wěn)定性和最終精度,減少因量化造成的性能損失,從而在提升效率的同時避免模型質(zhì)量的顯著下降。

此外,F(xiàn)P8正在快速獲得全行業(yè)生態(tài)的支持。從 NVIDIA Hopper 架構(gòu)和 H100 GPU 開始,多家芯片廠商已在其最新硬件中提供對FP8的原生支持。軟件和框架層面,主流深度學習框架(如TensorFlow和PyTorch)以及推理引擎正在積極集成FP8算子庫和優(yōu)化工具鏈。這種從硬件到軟件、從訓練到推理的全面標準化,為開發(fā)者提供了統(tǒng)一的高效編程環(huán)境,進一步推動了FP8在各類模型中的普及。

FP8并非只是在現(xiàn)有格式基礎(chǔ)上簡單“減少比特”,而是面向AI計算真實需求的一次系統(tǒng)級優(yōu)化。它既解決了高性能計算對資源高效利用的迫切需求,又兼顧了模型精度保持的挑戰(zhàn),正迅速成為AI訓練與推理領(lǐng)域的新標準。

FP8的兩種主流格式:

E5M2 (5位指數(shù),2位尾數(shù)):動態(tài)范圍大,適合保存前向傳播的激活值(Activations)和權(quán)重(Weights)。E4M3 (4位指數(shù),3位尾數(shù)):精度更高,適合保存反向傳播的梯度(Gradients)。圖片

當全球科技圈還在討論GPT-5的突破時,中國AI企業(yè)DeepSeek在官宣V3.1模型的留言區(qū)埋下了一顆重磅炸彈——"UE8M0FP8是針對即將發(fā)布的下一代國產(chǎn)芯片設(shè)計"。

那國產(chǎn)芯片實現(xiàn)FP8的核心挑戰(zhàn)有哪些呢?首先是如何在ALU、Tensor Core等計算單元中高效支持兩種格式的混合運算。其次是編譯器、算子庫、驅(qū)動等如何無縫地將AI框架的指令映射到FP8硬件上;設(shè)計先進的量化工具鏈,確保模型從高精度到FP8轉(zhuǎn)換時的精度損失最小。最后是與現(xiàn)有生態(tài)的兼容:支持FP16/BF16等格式的平滑遷移和混合精度計算。

03 國產(chǎn)AI芯片的FP8機遇:突圍與超越

FP8是相對較新的標準,國內(nèi)外差距小于在CUDA生態(tài)上的差距,是難得的機遇窗口。

若以NVIDIA B100的FP8算力(14 petaFLOPS)為基準,在同等制程條件下,DeepSeark架構(gòu)憑借算法與硬件的協(xié)同優(yōu)化,預計可實現(xiàn)20%–30%的有效算力提升。需要說明的是,該推測目前仍基于已公開技術(shù)文檔,實際性能需以流片測試為準。

在生態(tài)建設(shè)方面,華為昇騰910B目前主要支持FP16和BF16格式,在FP8支持方面尚落后至少一代。DeepSeek所采用的“模型即芯片”策略,本質(zhì)上借鑒了谷歌TPU的成功經(jīng)驗,但仍需應(yīng)對諸如PyTorch量化工具鏈適配等實際工程挑戰(zhàn)。

從供應(yīng)鏈安全角度考慮,F(xiàn)P8格式對計算精度要求相對較低,一定程度上降低了對晶體管密度的依賴,這一特點反而成為在國產(chǎn)制程條件下的一項差異化優(yōu)勢。

以華為昇騰系列NPU為例,針對FP8設(shè)計的專用指令集使其在典型ResNet模型上的吞吐量提升40%,同時單位算力的能耗降低至原來的1/3。這種突破性進展源于兩大創(chuàng)新:一是硬件層面的亞穩(wěn)態(tài)電路設(shè)計優(yōu)化,解決了低比特下梯度消失的問題;二是軟件框架對混合精度訓練的支持,允許不同網(wǎng)絡(luò)層靈活切換FP8與其他格式。值得關(guān)注的是,寒武紀思元590等國產(chǎn)芯片已率先集成FP8加速模塊,標志著自主架構(gòu)開始引領(lǐng)精度革新潮流。

DeepSeek的戰(zhàn)略布局揭示了一個關(guān)鍵邏輯:當英偉達A100/H100因出口管制而缺貨時,國產(chǎn)芯片廠商與下游用戶的深度綁定正在形成獨特競爭優(yōu)勢。壁仞科技BR104、沐曦MXC500等新品均將FP8作為核心賣點,配合自研的編譯器工具鏈,可實現(xiàn)從模型轉(zhuǎn)換到部署落地的全流程無縫銜接。

當前,盡管IEEE P754等國際標準組織仍在積極推進FP8的規(guī)范化進程,但產(chǎn)業(yè)應(yīng)用已明顯走在了標準制定的前面。以百度飛槳、智譜AI為代表的AI平臺已率先實現(xiàn)對FP8格式的默認支持,而在PyTorch等開源生態(tài)中,類似AutoFP8的自動化混合精度庫也在不斷涌現(xiàn)。這種以實際應(yīng)用驅(qū)動、自下而上的技術(shù)擴散,為中國企業(yè)在AI基礎(chǔ)軟硬件領(lǐng)域爭取全球話語權(quán)打開了關(guān)鍵窗口期。如果能在未來一年半內(nèi)實現(xiàn)三大關(guān)鍵突破——包括主流框架深度集成FP8、高質(zhì)量開源模型示范驗證,以及國產(chǎn)硬件適配率突破50%——中國完全有能力主導一場以FP8為共識的生態(tài)變革。

然而,F(xiàn)P8的全面推廣仍面臨諸多現(xiàn)實阻力。部分業(yè)界觀點對其在復雜數(shù)據(jù)分布下的穩(wěn)定性存疑,不同平臺間算子兼容性問題也尚未徹底解決。面對這些挑戰(zhàn),一些企業(yè)如摩爾線程提出了“漸進式升級”的思路,通過容器化技術(shù)保障原有模型的兼容性,并引入動態(tài)剖分機制實現(xiàn)推理過程中不同精度策略的智能選擇。這類漸進式路徑不僅緩解了遷移成本高、風險大的核心痛點,也為FP8從試驗階段走向規(guī);涞刳A得了更廣泛的支持與時間窗口。

DeepSeek此次技術(shù)路線的價值,在于證明了算法-硬件協(xié)同創(chuàng)新可能比單純追逐制程進步更具可行性,這或許只是中國AI算力自主化的第一步。

       原文標題 : “FP8精度”如何賦能國產(chǎn)AI?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號