訂閱
糾錯(cuò)
加入自媒體

深讀|谷歌TPU:專為AI推理時(shí)代打造的芯片

TPU,真的不比GPU差

01

TPU的誕生背景與歷史

谷歌張量處理單元(TPU)的誕生,并非源于某項(xiàng)芯片制造技術(shù)的意外突破,而是基于對數(shù)學(xué)模型和運(yùn)營物流的深刻洞察。

大約在2013年,谷歌的領(lǐng)導(dǎo)團(tuán)隊(duì)包括Jeff Dean、Jonathan Ross(Groq公司的現(xiàn)任CEO)以及Google Brain團(tuán)隊(duì),得出了一個(gè)令他們震驚的預(yù)測。

他們計(jì)算后發(fā)現(xiàn),   ,公司就必須將其全球數(shù)據(jù)中心容量翻倍,才能滿足由此產(chǎn)生的巨大計(jì)算負(fù)載需求。

當(dāng)時(shí),谷歌主要依賴標(biāo)準(zhǔn)的CPU和GPU來執(zhí)行這些計(jì)算任務(wù)。盡管這些通用芯片功能強(qiáng)大,但對于深度學(xué)習(xí)所需的特定重度負(fù)載——即大規(guī)模矩陣乘法——其處理效率卻非常低下。如果繼續(xù)采用現(xiàn)有硬件進(jìn)行大規(guī)模擴(kuò)展,無論是從財(cái)務(wù)成本還是運(yùn)營角度來看,都將是一場災(zāi)難性的噩夢。

這一緊迫需求催生了一個(gè)新的項(xiàng)目。谷歌做出了一項(xiàng)對于軟件公司而言極為罕見的決定:著手打造自己的定制芯片。其目標(biāo)是創(chuàng)建一款專為單一任務(wù)設(shè)計(jì)的ASIC(專用集成電路),來高效運(yùn)行Tensor Flow神經(jīng)網(wǎng)絡(luò)。

幾個(gè)關(guān)鍵時(shí)間節(jié)點(diǎn):

2013~2014:谷歌招募了一支能力超強(qiáng)的團(tuán)隊(duì),并且也有著很好的運(yùn)氣,所以該項(xiàng)目進(jìn)展得極其迅速。團(tuán)隊(duì)僅用15個(gè)月的時(shí)間就完成了從設(shè)計(jì)概念到在數(shù)據(jù)中心實(shí)際部署芯片的全部流程——這對于硬件工程項(xiàng)目而言,是一個(gè)極其罕見的短周期。

2015:在世人廣泛知道TPU的存在之前,它們就已經(jīng)開始為谷歌最受歡迎的一系列產(chǎn)品提供強(qiáng)大的計(jì)算支撐。它們在默默地為谷歌地圖、谷歌翻譯等服務(wù)提供服務(wù)。

2016:直到2016年,谷歌才在I/O大會(huì)上正式發(fā)布了TPU。

可以說,解決“數(shù)據(jù)中心容量翻倍”這一緊迫問題,正是TPU存在的根本原因。它并非為游戲娛樂或視頻渲染等通用目的而設(shè)計(jì),而是為了幫助谷歌解決彼時(shí)實(shí)打?qū)嵉腁I問題而出現(xiàn)的。

正因如此,谷歌十多年來一直在嘗試解決高昂的AI推理成本問題。這也是TPU至今在眾多ASIC項(xiàng)目中脫穎而出的主要原因之一。

02

TPU和GPU的核心差異

要理解它們的區(qū)別,最好回顧每種芯片最初的設(shè)計(jì)宗旨。GPU(圖形處理器)是一種“通用型”并行處理器,而TPU(張量處理單元)則是一種“領(lǐng)域?qū)S眯?rdquo;架構(gòu)。

GPU最初是為圖形處理而設(shè)計(jì)的。它們精于并行處理,這使其非常適合AI負(fù)載。然而,正因?yàn)樗鼈儽辉O(shè)計(jì)用來處理從視頻游戲紋理到科學(xué)模擬等各種任務(wù),所以不可避免地帶有“架構(gòu)包袱”。它們將大量的能耗和芯片面積耗費(fèi)在了緩存、分支預(yù)測和獨(dú)立線程管理等復(fù)雜的通用任務(wù)上。 

 而TPU則徹底去除了所有的架構(gòu)包袱。它沒有于光柵化或紋理映射的硬件。相反,它使了種被稱作Systolic Array的獨(dú)特架構(gòu)。

而這正是TPU的關(guān)鍵差異化所在。在標(biāo)準(zhǔn)的CPU或GPU中,芯片在每一次計(jì)算時(shí)都需要在內(nèi)存與計(jì)算單元之間來回傳輸數(shù)據(jù)。這種持續(xù)的數(shù)據(jù)交換會(huì)形成一個(gè)瓶頸(即馮·諾依曼瓶頸)。

但在TPU中,數(shù)據(jù)流經(jīng)芯片的方式如同血液流過心臟一般:它僅加載一次數(shù)據(jù)(即權(quán)重),并通過一個(gè)大規(guī)模的乘法器陣列來傳遞輸入數(shù)據(jù),這讓數(shù)據(jù)可以直接傳遞至陣列中的下一個(gè)計(jì)算單元,全程無需寫回內(nèi)存。

這極大減少了對HBM的讀寫次數(shù)。因此,TPU可以專注于實(shí)際計(jì)算,而非耗費(fèi)在等待數(shù)據(jù)傳輸上。

此外,谷歌最新的TPU設(shè)計(jì)(Ironwood)優(yōu)化了Sparse Core、提升了HBM的容量和帶寬,讓其可以更好地完成大模型訓(xùn)練與推理。

而在規(guī)模擴(kuò)展(Scale-out)方面,谷歌采用了光電路交換(OCS)及其3D環(huán)形拓?fù)渚W(wǎng)絡(luò),該方案與NVIDIA的Infini Band和Spectrum-X以太網(wǎng)形成競爭。

核心區(qū)別在于:OCS消除了電交換機(jī)和光-電-光轉(zhuǎn)換,這使其在成本和功耗方面極為高效。但也正因如此,OCS不如另兩種方案靈活。因此,谷歌的整個(gè)技術(shù)棧再次體現(xiàn)了高度的專業(yè)化,它極其專注于當(dāng)前的任務(wù),但無法提供通用型GPU方案那樣的靈活性。

03

TPU與GPU的性能比較與市場分析

在明確了TPU與GPU的差異后,接下來我們看看實(shí)際數(shù)據(jù)。由于谷歌并未主動(dòng)公開這些數(shù)據(jù),獲取性能細(xì)節(jié)頗為困難。但根據(jù)對大量前谷歌員工、客戶和競爭對手(包括AMD、NVIDIA等)的采訪分析,大多數(shù)人都認(rèn)為,TPU更具成本效益,并且每瓦性能更好。

一位谷歌員工是這么說的:“如果應(yīng)用場景恰當(dāng),TPU相比GPU能夠提供遠(yuǎn)超預(yù)期的每美元性能表現(xiàn)。它們所需的能源消耗更低,產(chǎn)生的熱量也更少。更重要的是,它們具備更高的能源效率和更小的環(huán)境污染,這使得TPU成為理想的解決方案。” 

 “相比GPU,TPU的使用案例確實(shí)有所局限,通用性不強(qiáng)。但對于特定的應(yīng)用,它們能夠帶來高達(dá)1.4倍的性能提升。對于那些在GPU和TPU之間權(quán)衡選擇的客戶而言,這是一筆相當(dāng)可觀的成本節(jié)約。”

一位前谷歌部門主管也就TPU相較于GPU能顯著降低成本的事情發(fā)表了評論:“TPUv6的效率比GPU高出60%至65%,而用前幾代產(chǎn)品進(jìn)行比較也有40%至45%的提升。”

許多專家還提及了TPU在速度上的優(yōu)勢。一位前谷歌高管表示,在訓(xùn)練動(dòng)態(tài)模型(如類似搜索的工作負(fù)載)方面,TPU比GPU快5倍。

此外,一位同時(shí)使用NVIDIAGPU和谷歌TPU的客戶在一次訪談中,也闡述了TPU的長期經(jīng)濟(jì)效益:“在價(jià)格與性價(jià)比方面,TPU一定是能為你帶來更高的價(jià)值回報(bào)的那個(gè)。只要你確定代碼能在TPU上運(yùn)行,那么堅(jiān)持使用TPU就是更好的。”

“我們發(fā)現(xiàn),對于已在TPU上運(yùn)行的工作負(fù)載,未來收益會(huì)更高,因?yàn)殡S著谷歌推出更新一的TPU,舊型號的價(jià)格會(huì)大幅跳水。”

“舉個(gè)例子,我記得v4剛問世時(shí),v2的定價(jià)很快降到了極低,與任何一款NVIDIAGPU相比,使用它幾乎相當(dāng)于免費(fèi)。”

“而且,谷歌也提供了可靠的長期技術(shù)支持,他們會(huì)一直維持舊型號TPU的運(yùn)維,這使它們變得十分廉價(jià)。如果你對模型訓(xùn)練的即時(shí)性沒有硬性要求,愿意接受‘等待一周’的時(shí)間成本(即使訓(xùn)練任務(wù)本身只用三天),你的總成本可以因此降低五分之一。”

此外,另一位AMD員工也承認(rèn)專用集成電路(ASIC)帶來的效益:“根據(jù)我在FPGA領(lǐng)域積累的經(jīng)驗(yàn)以及行業(yè)普遍觀察到的趨勢,我認(rèn)為ASIC完全能夠?qū)崿F(xiàn)與GPU相比尺寸縮小30%、功耗降低約50%的目的。”

我們也從一位曾在谷歌芯片部門工作的前員工那里獲得了性能對比數(shù)據(jù):“當(dāng)我查看已公開的數(shù)據(jù)時(shí),與NVIDIA產(chǎn)品相比,TPU的性能提升幅度非常大。根據(jù)具體的應(yīng)用場景不同,這一提升幅度從25%—30%不等,甚至在某些情況下接近翻倍。”

他進(jìn)一步總結(jié)了其本質(zhì)原因:“這本質(zhì)上就是為完美執(zhí)行單一任務(wù)而設(shè)計(jì)的極致定制化架構(gòu),與通用型設(shè)計(jì)之間的根本區(qū)別。”

而在硬件之外,其實(shí)TPU的真正核心優(yōu)勢并非硬件本身,而是體現(xiàn)在其軟件生態(tài)系統(tǒng)以及谷歌對這一系統(tǒng)的深度優(yōu)化上。

許多人擔(dān)憂,像TPU這樣的英偉達(dá)“競爭者”都面臨著同一個(gè)難題:如何追趕英偉達(dá)飛速的發(fā)展腳步。本月,一位前谷歌云員工直接回應(yīng)了這種擔(dān)憂,他認(rèn)為TPU的改進(jìn)速度實(shí)際上快于英偉達(dá):“TPU新一代產(chǎn)品在‘每美元性能’上的提升幅度,比英偉達(dá)的產(chǎn)品迭代帶來的提升要顯著得多。”

谷歌在HotChips2025活動(dòng)上發(fā)布的最新數(shù)據(jù)也證實(shí)了這一觀點(diǎn):谷歌聲稱,TPUv7相較于TPUv6e(Trillium),在“每瓦性能”上提升了100%。

即使是英偉達(dá)的堅(jiān)定支持者,也不敢輕易小覷TPU,因?yàn)檫B黃仁勛本人也對谷歌TPU給予極高評價(jià)。他在與BradGerstner的播客中提到,在ASIC領(lǐng)域中,谷歌的TPU是一個(gè)“特例”。

幾個(gè)月前,《華爾街日報(bào)》的一篇報(bào)道也側(cè)面印證了TPU的影響力:在科技媒體The Information報(bào)道OpenAI已開始租用谷歌TPU來運(yùn)行ChatGPT后,黃仁勛立即致電Altman求證此事,并暗示愿意重啟(與OpenAI的)投資談判。

值得玩味的是,隨后英偉達(dá)官方X賬號發(fā)布了一張文章截圖,其中OpenAI否認(rèn)了使用谷歌自研芯片的計(jì)劃。至少可以斷言,英偉達(dá)正對TPU保持著高度的警惕與密切的關(guān)注。

那么,在看到這些令人印象深刻的數(shù)據(jù)后,人們不禁要問:既然TPU如此出色,為何沒有更多的客戶使用它呢?

04

推廣TPU的最大難題

在于生態(tài)系統(tǒng)與多云限制

當(dāng)前TPU普及面臨的主要問題是生態(tài)系統(tǒng)。NVIDIA的CUDA已經(jīng)深深烙印在大多數(shù)AI工程師的思維中,這是因?yàn)樗麄儚拇髮W(xué)階段就開始學(xué)習(xí)和使用CUDA。

谷歌雖然在內(nèi)部為TPU開發(fā)了成熟的生態(tài),但直到最近才開始對外開放。TPU采用的是JAX和TensorFlow組合,而行業(yè)主流是CUDA和PyTorch(盡管TPU現(xiàn)在也開始支持PyTorch)。谷歌正努力提高其生態(tài)系統(tǒng)的兼容性和可轉(zhuǎn)換性,但這涉及庫(Libraries)和整個(gè)生態(tài)的構(gòu)建,是需要數(shù)年時(shí)間才能完善的長期工程。

不過,一旦到了“推理”環(huán)節(jié),尤其是Reasoning Inference,CUDA的重要性就會(huì)大幅下降。因此,TPU在推理市場擴(kuò)大市場份額的機(jī)會(huì)要遠(yuǎn)高于訓(xùn)練市場(盡管TPU在訓(xùn)練方面表現(xiàn)同樣出色,Gemini3.0就是最好的證明)。

此外,多云環(huán)境也是TPU普及的又一個(gè)巨大障礙。

眾所周知,AI工作負(fù)載與數(shù)據(jù)存儲(chǔ)位置緊密關(guān)聯(lián),跨云傳輸數(shù)據(jù)會(huì)產(chǎn)生高昂的成本(即出口流量費(fèi))。目前,NVIDIAGPU可在所有三大超大規(guī)模云服務(wù)商(AWS、Azure、GCP)上獲;然而,TPU卻僅限于谷歌云平臺提供。這種單一性極大地限制了多云客戶對TPU的選擇。

一位同時(shí)使用TPU和GPU的客戶對此有精辟的解釋:“目前,NVIDIA最大的優(yōu)勢在于可及性——在我工作過的三家公司都是如此。所有公司和客戶的數(shù)據(jù)幾乎都存儲(chǔ)在AWS、谷歌云或Azure這三大主流云平臺之一,而這三家云都提供NVIDIAGPU。”

“有時(shí)數(shù)據(jù)量很大,并且存儲(chǔ)在特定的云中。這種情況下,將工作負(fù)載運(yùn)行在數(shù)據(jù)所在的云平臺會(huì)便宜得多。將數(shù)據(jù)從一個(gè)云遷出涉及高昂的出口流量費(fèi)用(EgressCost)。”

“如果你使用的是NVIDIA/CUDA工作負(fù)載,我們可以直接在Azure上申請一臺配備相同GPU的虛擬機(jī),無需任何代碼改動(dòng),即可運(yùn)行。”

“但如果完全依賴TPU,一旦谷歌單方面決定‘現(xiàn)在必須多付10倍費(fèi)用’,我們就會(huì)陷入困境。因?yàn)閷脮r(shí)我們將不得不重寫所有的代碼。這正是大家害怕過度依賴TPU的唯一原因。而亞馬遜的Trainium和Inferentia芯片也存在同樣的風(fēng)險(xiǎn)。”

其實(shí),谷歌內(nèi)部對這些問題心知肚明,因此,關(guān)于是將TPU保留為谷歌的內(nèi)部資產(chǎn)以深化GCP的護(hù)城河,還是對外開放銷售,一直是內(nèi)部持續(xù)爭論的話題。

許多前谷歌員工認(rèn)為,谷歌遲早會(huì)向外部提供TPU,也許是通過一些新生云平臺,而非與微軟和亞馬遜這兩大主要競爭對手直接合作。開放生態(tài)系統(tǒng)、提供廣泛的技術(shù)支持,使其更具通用性,是實(shí)現(xiàn)這一戰(zhàn)略的第一步。

一位前谷歌員工還透露,谷歌去年才組建了一支更側(cè)重銷售的團(tuán)隊(duì)來推廣TPU,這表明大力推銷TPU并不是一項(xiàng)持續(xù)多年的策略,而是組織內(nèi)部一個(gè)相對較新的動(dòng)態(tài)。

請注意,本文編譯自文末載明的原始鏈接,不代表深毒商業(yè)立場。如果您對本文有任何想法或見解,歡迎在評論區(qū)留言互動(dòng)探討。

- END-

       原文標(biāo)題 : 深讀|谷歌TPU:專為AI推理時(shí)代打造的芯片

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號