訂閱
糾錯
加入自媒體

英偉達黃仁勛重磅演講:機器人時(shí)代已經(jīng)到來(lái)

   

出品商業(yè)秀

6月2日,英偉達聯(lián)合創(chuàng )始人兼首席執行官黃仁勛在Computex 2024(2024臺北國際電腦展)上發(fā)表主題演講,分享了人工智能時(shí)代如何助推全球新產(chǎn)業(yè)革命。主要涉及以下幾個(gè)關(guān)鍵議題:1)我們共同的工作正在取得哪些進(jìn)展,以及這些進(jìn)展的意義何在?2)生成式人工智能到底是什么?它將如何影響我們的行業(yè),乃至每一個(gè)行業(yè)?3)一個(gè)關(guān)于我們如何前進(jìn)的藍圖,我們將如何抓住這個(gè)令人難以置信的機遇?

-Business Show-1新的計算時(shí)代正在開(kāi)始

但在開(kāi)始深入討論之前,我想先強調一點(diǎn):英偉達位于計算機圖形學(xué)、模擬和人工智能的交匯點(diǎn)上,這構成了我們公司的靈魂。今天,我將向大家展示的所有內容,都是基于模擬的。這些不僅僅是視覺(jué)效果,它們背后是數學(xué)、科學(xué)和計算機科學(xué)的精髓,以及令人嘆為觀(guān)止的計算機架構。沒(méi)有任何動(dòng)畫(huà)是預先制作的,一切都是我們自家團隊的杰作。這就是英偉達的領(lǐng)會(huì ),我們將其全部融入了我們引以為傲的Omniverse虛擬世界中。

現在,請欣賞視頻!全球數據中心的電力消耗正在急劇上升,同時(shí)計算成本也在不斷攀升。我們正面臨著(zhù)計算膨脹的嚴峻挑戰,這種情況顯然無(wú)法長(cháng)期維持。數據將繼續以指數級增長(cháng),而CPU的性能擴展卻難以像以往那樣快速。然而,有一種更為高效的方法正在浮現。近二十年來(lái),我們一直致力于加速計算的研究。CUDA技術(shù)增強了CPU的功能,將那些特殊處理器能更高效完成的任務(wù)卸載并加速。事實(shí)上,由于CPU性能擴展的放緩甚至停滯,加速計算的優(yōu)勢愈發(fā)顯著(zhù)。

我預測,每個(gè)處理密集型的應用都將實(shí)現加速,且不久的將來(lái),每個(gè)數據中心都將實(shí)現全面加速,F在,選擇加速計算是明智之舉,這已成為行業(yè)共識。想象一下,一個(gè)應用程序需要100個(gè)時(shí)間單位來(lái)完成。無(wú)論是100秒還是100小時(shí),我們往往無(wú)法承受運行數天甚至數月的人工智能應用。在這100個(gè)時(shí)間單位中,有1個(gè)時(shí)間單位涉及需要順序執行的代碼,此時(shí)單線(xiàn)程CPU的重要性不言而喻。操作系統的控制邏輯是不可或缺的,必須嚴格按照指令序列執行。然而,還有許多算法,如計算機圖形學(xué)、圖像處理、物理模擬、組合優(yōu)化、圖處理和數據庫處理,特別是深度學(xué)習中廣泛使用的線(xiàn)性代數,它們非常適合通過(guò)并行處理進(jìn)行加速。

為了實(shí)現這一目標,我們發(fā)明了一種創(chuàng )新架構,將GPU與CPU*結合。專(zhuān)用的處理器能夠將原本耗時(shí)的任務(wù)加速至令人難以置信的速度。由于這兩個(gè)處理器能并行工作,它們各自獨立且自主運行。這意味著(zhù),原本需要100個(gè)時(shí)間單位才能完成的任務(wù),現在可能僅需1個(gè)時(shí)間單位即可完成。盡管這種加速效果聽(tīng)起來(lái)令人難以置信,但今天,我將通過(guò)一系列實(shí)例來(lái)驗證這一說(shuō)法。這種性能提升所帶來(lái)的好處是驚人的,加速100倍,而功率僅增加約3倍,成本僅上升約50%。我們在PC行業(yè)早已實(shí)踐了這種策略。在PC上添加一個(gè)價(jià)值500美元的GeForce GPU,就能使其性能大幅提升,同時(shí)整體價(jià)值也增加至1000美元。

在數據中心,我們也采用了同樣的方法。一個(gè)價(jià)值十億美元的數據中心,在添加了價(jià)值5億美元的GPU后,瞬間轉變?yōu)橐粋(gè)強大的人工智能工廠(chǎng)。今天,這種變革正在全球范圍內發(fā)生。節省的成本同樣令人震驚。每投入1美元,你就能獲得高達60倍的性能提升。加速100倍,而功率僅增加3倍,成本僅上升1.5倍。節省的費用是實(shí)實(shí)在在的!顯然,許多公司在云端處理數據上花費了數億美元。當數據得到加速處理時(shí),節省數億美元就變得合情合理。

為什么會(huì )這樣呢?原因很簡(jiǎn)單,我們在通用計算方面經(jīng)歷了長(cháng)時(shí)間的效率瓶頸,F在,我們終于認識到了這一點(diǎn),并決定加速。通過(guò)采用專(zhuān)用處理器,我們可以重新獲得大量之前被忽視的性能提升,從而節省大量金錢(qián)和能源。這就是為什么我說(shuō),你購買(mǎi)得越多,節省得也越多,F在,我已經(jīng)向你們展示了這些數字。雖然它們并非精確到小數點(diǎn)后幾位,但這準確地反映了事實(shí)。這可以稱(chēng)之為“CEO數學(xué)”。CEO數學(xué)雖不追求*的精確,但其背后的邏輯是正確的——你購買(mǎi)的加速計算能力越多,節省的成本也就越多。

-Business Show-2350個(gè)函式庫幫助開(kāi)拓新市場(chǎng)

加速計算帶來(lái)的結果確實(shí)非凡,但其實(shí)現過(guò)程并不容易。為什么它能節省這么多錢(qián),但人們卻沒(méi)有更早地采用這種技術(shù)呢?原因就在于它的實(shí)施難度太大。沒(méi)有現成的軟件可以簡(jiǎn)單地通過(guò)加速編譯器運行,然后應用程序就能瞬間提速100倍。這既不符合邏輯也不現實(shí)。如果這么容易,那么CPU廠(chǎng)商早就這樣做了。事實(shí)上,要實(shí)現加速,軟件必須進(jìn)行全面重寫(xiě)。這是整個(gè)過(guò)程中*挑戰性的部分。軟件需要被重新設計、重新編碼,以便將原本在CPU上運行的算法轉化為可以在加速器上并行運行的格式。

這項計算機科學(xué)研究雖然困難,但我們在過(guò)去的20年里已經(jīng)取得了顯著(zhù)的進(jìn)展。例如,我們推出了廣受歡迎的cuDNN深度學(xué)習庫,它專(zhuān)門(mén)處理神經(jīng)網(wǎng)絡(luò )加速。我們還為人工智能物理模擬提供了一個(gè)庫,適用于流體動(dòng)力學(xué)等需要遵守物理定律的應用。另外,我們還有一個(gè)名為Aerial的新庫,它利用CUDA加速5G無(wú)線(xiàn)電技術(shù),使我們能夠像軟件定義互聯(lián)網(wǎng)網(wǎng)絡(luò )一樣,用軟件定義和加速電信網(wǎng)絡(luò )。這些加速能力不僅提升了性能,還幫助我們將整個(gè)電信行業(yè)轉化為一種與云計算類(lèi)似的計算平臺。

此外,Coolitho計算光刻平臺也是一個(gè)很好的例子,它極大地提升了芯片制造過(guò)程中計算最密集的部分——掩模制作的效率。臺積電等公司已經(jīng)開(kāi)始使用Coolitho進(jìn)行生產(chǎn),不僅顯著(zhù)節省了能源,而且大幅降低了成本。他們的目標是通過(guò)加速技術(shù)棧,為算法的更進(jìn)一步發(fā)展和制造更深更窄的晶體管所需的龐大計算能力做好準備。Pair of Bricks是我們引以為傲的基因測序庫,它擁有世界*的基因測序吞吐量。而Co OPT則是一個(gè)令人矚目的組合優(yōu)化庫,能夠解決路線(xiàn)規劃、優(yōu)化行程、旅行社問(wèn)題等復雜難題。人們普遍認為,這些問(wèn)題需要量子計算機才能解決,但我們卻通過(guò)加速計算技術(shù),創(chuàng )造了一個(gè)運行極快的算法,成功打破了23項世界紀錄,至今我們仍保持著(zhù)每一個(gè)主要的世界紀錄。Coup Quantum是我們開(kāi)發(fā)的量子計算機仿真系統。

對于想要設計量子計算機或量子算法的研究人員來(lái)說(shuō),一個(gè)可靠的模擬器是必不可少的。在沒(méi)有實(shí)際量子計算機的情況下,英偉達CUDA——我們稱(chēng)之為世界上最快的計算機——成為了他們的*工具。我們提供了一個(gè)模擬器,能夠模擬量子計算機的運行,幫助研究人員在量子計算領(lǐng)域取得突破。這個(gè)模擬器已經(jīng)被全球數十萬(wàn)研究人員廣泛使用,并被集成到所有*的量子計算框架中,為世界各地的科學(xué)超級計算機中心提供了強大的支持。此外,我們還推出了數據處理庫Kudieff,專(zhuān)門(mén)用于加速數據處理過(guò)程。數據處理占據了當今云支出的絕大部分,因此加速數據處理對于節省成本至關(guān)重要。

QDF是我們開(kāi)發(fā)的加速工具,能夠顯著(zhù)提升世界上主要數據處理庫的性能,如Spark、Pandas、Polar以及NetworkX等圖處理數據庫。這些庫是生態(tài)系統中的關(guān)鍵組成部分,它們使得加速計算得以廣泛應用。如果沒(méi)有我們精心打造的如cuDNN這樣的特定領(lǐng)域庫,僅憑CUDA,全球深度學(xué)習科學(xué)家可能無(wú)法充分利用其潛力,因為CUDA與TensorFlow、PyTorch等深度學(xué)習框架中使用的算法之間存在顯著(zhù)差異。這就像在沒(méi)有OpenGL的情況下進(jìn)行計算機圖形學(xué)設計,或是在沒(méi)有SQL的情況下進(jìn)行數據處理一樣不切實(shí)際。這些特定領(lǐng)域的庫是我們公司的寶藏,我們目前擁有超過(guò)350個(gè)這樣的庫。

正是這些庫讓我們在市場(chǎng)中保持開(kāi)放和*。今天,我將向你們展示更多令人振奮的例子。就在上周,谷歌宣布他們已經(jīng)在云端部署了QDF,并成功加速了Pandas。Pandas是世界上*的數據科學(xué)庫,被全球1000萬(wàn)數據科學(xué)家所使用,每月下載量高達1.7億次。它就像是數據科學(xué)家的Excel,是他們處理數據的得力助手,F在,只需在谷歌的云端數據中心平臺Colab上點(diǎn)擊一下,你就可以體驗到由QDF加速的Pandas帶來(lái)的強大性能。這種加速效果確實(shí)令人驚嘆,就像你們剛剛看到的演示一樣,它幾乎瞬間就完成了數據處理任務(wù)。

-Business Show-3CUDA實(shí)現良性循環(huán)

CUDA已經(jīng)達到了一個(gè)人們所稱(chēng)的臨界點(diǎn),但現實(shí)情況比這要好。CUDA已經(jīng)實(shí)現一個(gè)良性的發(fā)展循環(huán);仡櫄v史和各種計算架構、平臺的發(fā)展,我們可以發(fā)現這樣的循環(huán)并不常見(jiàn)。以微處理器CPU為例,它已經(jīng)存在了60年,但其加速計算的方式在這漫長(cháng)的歲月里并未發(fā)生根本性改變。要創(chuàng )建一個(gè)新的計算平臺往往面臨著(zhù)“先有雞還是先有蛋”的困境。沒(méi)有開(kāi)發(fā)者的支持,平臺很難吸引用戶(hù);而沒(méi)有用戶(hù)的廣泛采用,又難以形成龐大的安裝基礎來(lái)吸引開(kāi)發(fā)者。這個(gè)困境在過(guò)去20年中一直困擾著(zhù)多個(gè)計算平臺的發(fā)展。然而,通過(guò)持續不斷地推出特定領(lǐng)域的庫和加速庫,我們成功打破了這一困境。

如今,我們已在全球擁有500萬(wàn)開(kāi)發(fā)者,他們利用CUDA技術(shù)服務(wù)于從醫療保健、金融服務(wù)到計算機行業(yè)、汽車(chē)行業(yè)等幾乎每一個(gè)主要行業(yè)和科學(xué)領(lǐng)域。隨著(zhù)客戶(hù)群的不斷擴大,OEM和云服務(wù)提供商也開(kāi)始對我們的系統產(chǎn)生興趣,這進(jìn)一步推動(dòng)了更多系統進(jìn)入市場(chǎng)。這種良性循環(huán)為我們創(chuàng )造了巨大的機遇,使我們能夠擴大規模,增加研發(fā)投入,從而推動(dòng)更多應用的加速發(fā)展。每一次應用的加速都意味著(zhù)計算成本的顯著(zhù)降低。正如我之前展示的,100倍的加速可以帶來(lái)高達97.96%,即接近98%的成本節省。隨著(zhù)我們將計算加速從100倍提升至200倍,再飛躍至1000倍,計算的邊際成本持續下降,展現出了令人矚目的經(jīng)濟效益。當然,我們相信,通過(guò)顯著(zhù)降低計算成本,市場(chǎng)、開(kāi)發(fā)者、科學(xué)家和發(fā)明家將不斷發(fā)掘出消耗更多計算資源的新算法。

直至某個(gè)時(shí)刻,一種深刻的變革將悄然發(fā)生。當計算的邊際成本變得如此低廉時(shí),全新的計算機使用方式將應運而生。事實(shí)上,這種變革正在我們眼前上演。過(guò)去十年間,我們利用特定算法將計算的邊際成本降低了驚人的100萬(wàn)倍。如今,利用互聯(lián)網(wǎng)上的所有數據來(lái)訓練大語(yǔ)言模型已成為一種合乎邏輯且理所當然的選擇,不再受到任何質(zhì)疑。這個(gè)想法——打造一臺能夠處理海量數據以自我編程的計算機——正是人工智能崛起的基石。人工智能的崛起之所以成為可能,完全是因為我們堅信,如果我們讓計算變得越來(lái)越便宜,總會(huì )有人找到巨大的用途。如今,CUDA的成功已經(jīng)證明了這一良性循環(huán)的可行性。

隨著(zhù)安裝基礎的持續擴大和計算成本的持續降低,越來(lái)越多的開(kāi)發(fā)者得以發(fā)揮他們的創(chuàng )新潛能,提出更多的想法和解決方案。這種創(chuàng )新力推動(dòng)了市場(chǎng)需求的激增,F在我們正站在一個(gè)重大轉折點(diǎn)上。然而,在我進(jìn)一步展示之前,我想強調的是,如果不是CUDA和現代人工智能技術(shù)——尤其是生成式人工智能的突破,以下我所要展示的內容將無(wú)法實(shí)現。這就是“地球2號”項目——一個(gè)雄心勃勃的設想,旨在創(chuàng )建地球的數字孿生體。

我們將模擬整個(gè)地球的運行,以預測其未來(lái)變化。通過(guò)這樣的模擬,我們可以更好地預防災難,更深入地理解氣候變化的影響,從而讓我們能夠更好地適應這些變化,甚至現在就開(kāi)始改變我們的行為和習慣。“地球2號”項目可能是世界上*挑戰性、最雄心勃勃的項目之一。我們每年都在這個(gè)領(lǐng)域取得顯著(zhù)的進(jìn)步,而今年的成果尤為突出,F在,請允許我為大家展示這些令人振奮的進(jìn)展。在不遠的將來(lái),我們將擁有持續的天氣預報能力,覆蓋地球上的每一平方公里。你將始終了解氣候將如何變化,這種預測將不斷運行,因為我們訓練了人工智能,而人工智能所需的能量又極為有限。

這將是一個(gè)令人難以置信的成就。我希望你們會(huì )喜歡它,而更加重要的是,這一預測實(shí)際上是由Jensen AI做出的,而非我本人。我設計了它,但最終的預測由Jensen AI來(lái)呈現。由于我們致力于不斷提高性能并降低成本,研究人員在2012年發(fā)現了CUDA,那是英偉達與人工智能的首次接觸。那一天對我們而言至關(guān)重要,因為我們做出了明智的選擇,與科學(xué)家們緊密合作,使深度學(xué)習成為可能。AlexNet的出現實(shí)現了計算機視覺(jué)的巨大突破。

-Business Show-4AI超算的崛起起初并不被認同

但更為重要的智慧在于我們退后一步,深入理解了深度學(xué)習的本質(zhì)。它的基礎是什么?它的長(cháng)期影響是什么?它的潛力是什么?我們意識到,這項技術(shù)擁有巨大的潛力,能夠繼續擴展幾十年前發(fā)明和發(fā)現的算法,結合更多的數據、更大的網(wǎng)絡(luò )和至關(guān)重要的計算資源,深度學(xué)習突然間能夠實(shí)現人類(lèi)算法無(wú)法企及的任務(wù),F在,想象一下,如果我們進(jìn)一步擴大架構,擁有更大的網(wǎng)絡(luò )、更多的數據和計算資源,將會(huì )發(fā)生什么?因此,我們致力于重新發(fā)明一切。

自2012年以來(lái),我們改變了GPU的架構,增加了張量核心,發(fā)明了NV-Link,推出了cuDNN、TensorRT、Nickel,還收購了Mellanox,推出了Triton推理服務(wù)器。這些技術(shù)集成在一臺全新的計算機上,它超越了當時(shí)所有人的想象。沒(méi)有人預料到,沒(méi)有人提出這樣的需求,甚至沒(méi)有人理解它的全部潛力。事實(shí)上,我自己也不確定是否會(huì )有人會(huì )想買(mǎi)它。但在GTC大會(huì )上,我們正式發(fā)布了這項技術(shù)。舊金山一家名叫OpenAI的初創(chuàng )公司迅速注意到了我們的成果,并請求我們提供一臺設備。我親自為OpenAI送去了世界上首臺人工智能超級計算機DGX。2016年,我們持續擴大研發(fā)規模。

從單一的人工智能超級計算機,單一的人工智能應用,擴大到在2017年推出了更為龐大且強大的超級計算機。隨著(zhù)技術(shù)的不斷進(jìn)步,世界見(jiàn)證了Transformer的崛起。這一模型的出現,使我們能夠處理海量的數據,并識別和學(xué)習在長(cháng)時(shí)間跨度內連續的模式。如今,我們有能力訓練這些大語(yǔ)言模型,以實(shí)現自然語(yǔ)言理解方面的重大突破。但我們并未止步于此,我們繼續前行,構建了更大的模型。到了2022年11月,在極為強大的人工智能超級計算機上,我們使用數萬(wàn)顆英偉達GPU進(jìn)行訓練。僅僅5天后,OpenAI宣布ChatGPT已擁有100萬(wàn)用戶(hù)。這一驚人的增長(cháng)速度,在短短兩個(gè)月內攀升至1億用戶(hù),創(chuàng )造了應用歷史上最快的增長(cháng)記錄。其原因十分簡(jiǎn)單——ChatGPT的使用體驗便捷而神奇。用戶(hù)能夠與計算機進(jìn)行自然、流暢的互動(dòng),仿佛與真人交流一般。

無(wú)需繁瑣的指令或明確的描述,ChatGPT便能理解用戶(hù)的意圖和需求。ChatGPT的出現標志著(zhù)一個(gè)劃時(shí)代的變革,這張幻燈片恰恰捕捉到了這一關(guān)鍵轉折。請允許我為大家展示下。直至ChatGPT的問(wèn)世,它才真正向世界揭示了生成式人工智能的無(wú)限潛能。長(cháng)久以來(lái),人工智能的焦點(diǎn)主要集中在感知領(lǐng)域,如自然語(yǔ)言理解、計算機視覺(jué)和語(yǔ)音識別,這些技術(shù)致力于模擬人類(lèi)的感知能力。但ChatGPT帶來(lái)了質(zhì)的飛躍,它不僅僅局限于感知,而是首次展現了生成式人工智能的力量。它會(huì )逐個(gè)生成Token,這些Token可以是單詞、圖像、圖表、表格,甚至是歌曲、文字、語(yǔ)音和視頻。

Token可以代表任何具有明確意義的事物,無(wú)論是化學(xué)物質(zhì)、蛋白質(zhì)、基因,還是之前我們提到的天氣模式。這種生成式人工智能的崛起意味著(zhù),我們可以學(xué)習并模擬物理現象,讓人工智能模型理解并生成物理世界的各種現象。我們不再局限于縮小范圍進(jìn)行過(guò)濾,而是通過(guò)生成的方式探索無(wú)限可能。如今,我們幾乎可以為任何有價(jià)值的事物生成Token,無(wú)論是汽車(chē)的轉向盤(pán)控制、機械臂的關(guān)節運動(dòng),還是我們目前能夠學(xué)習的任何知識。因此,我們所處的已不僅僅是一個(gè)人工智能時(shí)代,而是一個(gè)生成式人工智能引領(lǐng)的新紀元。更重要的是,這臺最初作為超級計算機出現的設備,如今已經(jīng)演化為一個(gè)高效運轉的人工智能數據中心。

它不斷地產(chǎn)出,不僅生成Token,更是一個(gè)創(chuàng )造價(jià)值的人工智能工廠(chǎng)。這個(gè)人工智能工廠(chǎng)正在生成、創(chuàng )造和生產(chǎn)具有巨大市場(chǎng)潛力的新商品。正如19世紀末尼古拉·特斯拉(Nikola Tesla)發(fā)明了交流發(fā)電機,為我們帶來(lái)了源源不斷的電子,英偉達的人工智能生成器也正在源源不斷地產(chǎn)生具有無(wú)限可能性的Token。這兩者都有巨大的市場(chǎng)機會(huì ),有望在每個(gè)行業(yè)掀起變革。這確實(shí)是一場(chǎng)新的工業(yè)革命!我們現在迎來(lái)了一個(gè)全新的工廠(chǎng),能夠為各行各業(yè)生產(chǎn)出前所未有的、*價(jià)值的新商品。

這一方法不僅*可擴展性,而且完全可重復。請注意,目前,每天都在不斷涌現出各種各樣的人工智能模型,尤其是生成式人工智能模型。如今,每個(gè)行業(yè)都競相參與其中,這是前所未有的盛況。價(jià)值3萬(wàn)億美元的IT行業(yè),即將催生出能夠直接服務(wù)于100萬(wàn)億美元產(chǎn)業(yè)的創(chuàng )新成果。它不再僅僅是信息存儲或數據處理的工具,而是每個(gè)行業(yè)生成智能的引擎。這將成為一種新型的制造業(yè),但它并非傳統的計算機制造業(yè),而是利用計算機進(jìn)行制造的全新模式。這樣的變革以前從未發(fā)生過(guò),這確實(shí)是一件令人矚目的非凡之事。

-Business Show-5

生成式AI推動(dòng)軟件全棧重塑

展示NIM云原生微服務(wù)

這開(kāi)啟了計算加速的新時(shí)代,推動(dòng)了人工智能的迅猛發(fā)展,進(jìn)而催生了生成式人工智能的興起。而如今,我們正在經(jīng)歷一場(chǎng)工業(yè)革命。關(guān)于其影響,讓我們深入探討一下。對于我們所在的行業(yè)而言,這場(chǎng)變革的影響同樣深遠。正如我之前所言,這是過(guò)去六十年來(lái)的首次,計算的每一層都正在發(fā)生變革。

從CPU的通用計算到GPU的加速計算,每一次變革都標志著(zhù)技術(shù)的飛躍。過(guò)去,計算機需要遵循指令執行操作,而現在,它們更多地是處理LLM(大語(yǔ)言模型)和人工智能模型。過(guò)去的計算模型主要基于檢索,幾乎每次你使用手機時(shí),它都會(huì )為你檢索預先存儲的文本、圖像或視頻,并根據推薦系統重新組合這些內容呈現給你。但在未來(lái),你的計算機會(huì )盡可能多地生成內容,只檢索必要的信息,因為生成數據在獲取信息時(shí)消耗的能量更少。而且,生成的數據具有更高的上下文相關(guān)性,能更準確地反映你的需求。當你需要答案時(shí),不再需要明確指示計算機“給我獲取那個(gè)信息”或“給我那個(gè)文件”,只需簡(jiǎn)單地說(shuō):“給我一個(gè)答案。”此外,計算機不再僅僅是我們使用的工具,它開(kāi)始生成技能。它執行任務(wù),而不再是一個(gè)生產(chǎn)軟件的行業(yè),這在90年代初是一個(gè)顛覆性的觀(guān)念。

記得嗎?微軟提出的軟件打包理念徹底改變了PC行業(yè)。沒(méi)有打包軟件,我們的PC將失去大部分功能。這一創(chuàng )新推動(dòng)了整個(gè)行業(yè)的發(fā)展,F在我們有了新工廠(chǎng)、新計算機,而在這個(gè)基礎上運行的是一種新型軟件——我們稱(chēng)之為Nim(NVIDIA Inference Microservices)。在這個(gè)新工廠(chǎng)中運行的Nim是一個(gè)預訓練模型,它是一個(gè)人工智能。這個(gè)人工智能本身相當復雜,但運行人工智能的計算堆棧更是復雜得令人難以置信。當你使用ChatGPT這樣的模型時(shí),其背后是龐大的軟件堆棧。這個(gè)堆棧復雜而龐大,因為模型擁有數十億到數萬(wàn)億個(gè)參數,且不僅在一臺計算機上運行,而是在多臺計算機上協(xié)同工作。

為了*化效率,系統需要將工作負載分配給多個(gè)GPU,進(jìn)行各種并行處理,如張量并行、管道并行、數據并行和專(zhuān)家并行。這樣的分配是為了確保工作能盡快完成,因為在一個(gè)工廠(chǎng)中,吞吐量直接關(guān)系到收入、服務(wù)質(zhì)量和可服務(wù)的客戶(hù)數量。如今,我們身處一個(gè)數據中心吞吐量利用率至關(guān)重要的時(shí)代。過(guò)去,雖然吞吐量被認為重要,但并非決定性的因素。然而,現在,從啟動(dòng)時(shí)間、運行時(shí)間、利用率、吞吐量到空閑時(shí)間等每一個(gè)參數都被精確測量,因為數據中心已成為真正的“工廠(chǎng)”。在這個(gè)工廠(chǎng)中,運作效率直接關(guān)聯(lián)到公司的財務(wù)表現。鑒于這種復雜性,我們深知大多數公司在部署人工智能時(shí)面臨的挑戰。

因此,我們開(kāi)發(fā)了一個(gè)集成化的人工智能容器解決方案,將人工智能封裝在易于部署和管理的盒子中。這個(gè)盒子包含了龐大的軟件集合,如CUDA、CUDACNN和TensorRT,以及Triton推理服務(wù)。它支持云原生環(huán)境,允許在Kubernetes(基于容器技術(shù)的分布式架構解決方案)環(huán)境中自動(dòng)擴展,并提供管理服務(wù),方便用戶(hù)監控人工智能服務(wù)的運行狀態(tài)。更令人振奮的是,這個(gè)人工智能容器提供通用的、標準的API接口,使得用戶(hù)可以直接與“盒子”進(jìn)行交互。用戶(hù)只需下載Nim,并在支持CUDA的計算機上運行,即可輕松部署和管理人工智能服務(wù)。如今,CUDA已無(wú)處不在,它支持各大云服務(wù)提供商,幾乎所有計算機制造商都提供CUDA支持,甚至在數億臺PC中也能找到它的身影。當你下載Nim時(shí),即刻擁有一個(gè)人工智能助手,它能如與ChatGPT對話(huà)般流暢交流,F在,所有的軟件都已精簡(jiǎn)并整合在一個(gè)容器中,原先繁瑣的400個(gè)依賴(lài)項全部集中優(yōu)化。

我們對Nim進(jìn)行了嚴格的測試,每個(gè)預訓練模型都在我們的云端基礎設施上得到了全面測試,包括Pascal、Ampere乃至最新的Hopper等不同版本的GPU。這些版本種類(lèi)繁多,幾乎覆蓋了所有需求。Nim的發(fā)明無(wú)疑是一項壯舉,它是我最引以為傲的成就之一。如今,我們有能力構建大語(yǔ)言模型和各種預訓練模型,這些模型涵蓋了語(yǔ)言、視覺(jué)、圖像等多個(gè)領(lǐng)域,還有針對特定行業(yè)如醫療保健和數字生物學(xué)的定制版本。想要了解更多或試用這些版本,只需訪(fǎng)問(wèn)ai.nvidia.com。今天,我們在Hugging Face上發(fā)布了完全優(yōu)化的Llama 3 Nim,你可以立即體驗,甚至免費帶走它。

無(wú)論你選擇哪個(gè)云平臺,都能輕松運行它。當然,你也可以將這個(gè)容器下載到你的數據中心,自行托管,并為你的客戶(hù)提供服務(wù)。我前面提到,我們擁有覆蓋不同領(lǐng)域的Nim版本,包括物理學(xué)、語(yǔ)義檢索、視覺(jué)語(yǔ)言等,支持多種語(yǔ)言。這些微服務(wù)可以輕松集成到大型應用中,其中*潛力的應用之一是客戶(hù)服務(wù)代理。它幾乎是每個(gè)行業(yè)的標配,代表了價(jià)值數萬(wàn)億美元的全球客戶(hù)服務(wù)市場(chǎng)。值得一提的是,護士們作為客戶(hù)服務(wù)的核心,在零售、快餐、金融服務(wù)、保險等行業(yè)中發(fā)揮著(zhù)重要作用。如今,借助語(yǔ)言模型和人工智能技術(shù),數千萬(wàn)的客戶(hù)服務(wù)人員得到了顯著(zhù)的增強。

這些增強工具的核心,正是你所看到的Nim。有些被稱(chēng)為推理智能體(Reasoning Agents),它們被賦予任務(wù)后,能夠明確目標并制定計劃。有的擅長(cháng)檢索信息,有的精于搜索,還有的可能會(huì )使用如Coop這樣的工具,或者需要學(xué)習在SAP上運行的特定語(yǔ)言如ABAP,甚至執行SQL查詢(xún)。這些所謂的專(zhuān)家現在被組成一個(gè)高效協(xié)作的團隊。應用層也因此發(fā)生了變革:過(guò)去,應用程序是由指令編寫(xiě)的,而現在,它們則是通過(guò)組裝人工智能團隊來(lái)構建。

雖然編寫(xiě)程序需要專(zhuān)業(yè)技能,但幾乎每個(gè)人都知道如何分解問(wèn)題并組建團隊。因此,我堅信,未來(lái)的每家公司都會(huì )擁有一個(gè)龐大的Nim集合。你可以根據需要選擇專(zhuān)家,將它們連接成一個(gè)團隊。更神奇的是,你甚至不需要弄清楚如何去連接它們。只需給代理分配一個(gè)任務(wù),Nim會(huì )智能地決定如何分解任務(wù)并分配給最適合的專(zhuān)家。它們就像應用程序或團隊的中央*,能夠協(xié)調團隊成員的工作,最終將結果呈現給你。整個(gè)過(guò)程就像人類(lèi)團隊協(xié)作一樣高效、靈活。這不僅僅是未來(lái)的趨勢,而是即將在我們身邊成為現實(shí)。這就是未來(lái)應用程序將要呈現的全新面貌。

-Business Show-6

PC將成為數字人主要載體 

當我們談?wù)撆c大型人工智能服務(wù)的交互時(shí),目前我們已經(jīng)可以通過(guò)文本和語(yǔ)音提示來(lái)實(shí)現。但展望未來(lái),我們更希望以更人性化的方式——即數字人,來(lái)進(jìn)行互動(dòng)。英偉達在數字人技術(shù)領(lǐng)域已經(jīng)取得了顯著(zhù)的進(jìn)展。數字人不僅具有成為出色交互式代理的潛力,它們還更加吸引人,并可能展現出更高的同理心。然而,要跨越這個(gè)令人難以置信的鴻溝,使數字人看起來(lái)和感覺(jué)更加自然,我們仍需付出巨大的努力。這不僅是我們的愿景,更是我們不懈追求的目標。

在我向大家展示我們目前的成果之前,請允許我表達對中國臺灣的熱情問(wèn)候。在深入探索夜市的魅力之前,讓我們先一同領(lǐng)略數字人技術(shù)的前沿動(dòng)態(tài)。這確實(shí)令人覺(jué)得不可思議。ACE(Avatar Cloud Engine,英偉達數字人技術(shù))不僅能在云端高效運行,同時(shí)也兼容PC環(huán)境。我們前瞻性地將Tensor Core GPU集成到所有RTX系列中,這標志著(zhù)人工智能GPU的時(shí)代已經(jīng)到來(lái),我們?yōu)榇俗龊昧顺浞譁蕚。背后的邏輯十分清晰:要構建一個(gè)新的計算平臺,必須先奠定堅實(shí)的基礎。有了堅實(shí)的基礎,應用程序自然會(huì )隨之涌現。如果缺乏這樣的基礎,那么應用程序便無(wú)從談起。

所以,只有當我們構建了它,應用程序的繁榮才有可能實(shí)現。因此,我們在每一款RTX GPU中都集成了Tensor Core處理單元,目前全球已有1億臺GeForce RTX AI PC投入使用,而且這個(gè)數字還在不斷增長(cháng),預計將達到2億臺。在最近的Computex展會(huì )上,我們更是推出了四款全新的人工智能筆記本電腦。這些設備都具備運行人工智能的能力。未來(lái)的筆記本電腦和PC將成為人工智能的載體,它們將在后臺默默地為你提供幫助和支持。同時(shí),這些PC還將運行由人工智能增強的應用程序,無(wú)論你是進(jìn)行照片編輯、寫(xiě)作還是使用其他工具,都將享受到人工智能帶來(lái)的便利和增強效果。

此外,你的PC還將能夠托管帶有人工智能的數字人類(lèi)應用程序,讓人工智能以更多樣化的方式呈現并在PC上得到應用。顯然,PC將成為至關(guān)重要的人工智能平臺。那么,接下來(lái)我們將如何發(fā)展呢?之前我談到了我們數據中心的擴展,每次擴展都伴隨著(zhù)新的變革。當我們從DGX擴展到大型人工智能超級計算機時(shí),我們實(shí)現了Transformer在巨大數據集上的高效訓練。這標志著(zhù)一個(gè)重大的轉變:一開(kāi)始,數據需要人類(lèi)的監督,通過(guò)人類(lèi)標記來(lái)訓練人工智能。

然而,人類(lèi)能夠標記的數據量是有限的,F在,隨著(zhù)Transformer的發(fā)展,無(wú)監督學(xué)習成為可能。如今,Transformer能夠自行探索海量的數據、視頻和圖像,從中學(xué)習并發(fā)現隱藏的模式和關(guān)系。為了推動(dòng)人工智能向更高層次發(fā)展,下一代人工智能需要根植于物理定律的理解,但大多數人工智能系統缺乏對物理世界的深刻認識。為了生成逼真的圖像、視頻、3D圖形,以及模擬復雜的物理現象,我們急需開(kāi)發(fā)基于物理的人工智能,這要求它能夠理解并應用物理定律。在實(shí)現這一目標的過(guò)程中,有兩個(gè)主要方法。首先,通過(guò)從視頻中學(xué)習,人工智能可以逐步積累對物理世界的認知。

其次,利用合成數據,我們可以為人工智能系統提供豐富且可控的學(xué)習環(huán)境。此外,模擬數據和計算機之間的互相學(xué)習也是一種有效的策略。這種方法類(lèi)似于A(yíng)lphaGo的自我對弈模式,讓兩個(gè)相同能力的實(shí)體長(cháng)時(shí)間相互學(xué)習,從而不斷提升智能水平。因此,我們可以預見(jiàn),這種類(lèi)型的人工智能將在未來(lái)逐漸嶄露頭角。

-Business Show-7

Blackwell全面投產(chǎn)

八年間算力增長(cháng)1000倍

當人工智能數據通過(guò)合成方式生成,并結合強化學(xué)習技術(shù)時(shí),數據生成的速率將得到顯著(zhù)提升。隨著(zhù)數據生成的增長(cháng),對計算能力的需求也將相應增加。我們即將邁入一個(gè)新時(shí)代,在這個(gè)時(shí)代中,人工智能將能夠學(xué)習物理定律,理解并基于物理世界的數據進(jìn)行決策和行動(dòng)。因此,我們預計人工智能模型將繼續擴大,對GPU性能的要求也將越來(lái)越高。為滿(mǎn)足這一需求,Blackwell應運而生。這款GPU專(zhuān)為支持新一代人工智能設計,擁有幾項關(guān)鍵技術(shù)。

這種芯片尺寸之大在業(yè)界首屈一指。我們采用了兩片盡可能大的芯片,通過(guò)每秒10太字節的高速鏈接,結合世界上*進(jìn)的SerDes(高性能接口或連接技術(shù))將它們緊密連接在一起。進(jìn)一步地,我們將兩片這樣的芯片放置在一個(gè)計算機節點(diǎn)上,并通過(guò)Grace CPU進(jìn)行高效協(xié)調。Grace CPU的用途廣泛,不僅適用于訓練場(chǎng)景,還在推理和生成過(guò)程中發(fā)揮關(guān)鍵作用,如快速檢查點(diǎn)和重啟。此外,它還能存儲上下文,讓人工智能系統擁有記憶,并能理解用戶(hù)對話(huà)的上下文,這對于增強交互的連續性和流暢性至關(guān)重要。我們推出的第二代Transformer引擎進(jìn)一步提升了人工智能的計算效率。

這款引擎能夠根據計算層的精度和范圍需求,動(dòng)態(tài)調整至較低的精度,從而在保持性能的同時(shí)降低能耗。同時(shí),Blackwell GPU還具備安全人工智能功能,確保用戶(hù)能夠要求服務(wù)提供商保護其免受盜竊或篡改。在GPU的互聯(lián)方面,我們采用了第五代NV Link技術(shù),它允許我們輕松連接多個(gè)GPU。此外,Blackwell GPU還配備了*代可靠性和可用性引擎(Ras系統),這一創(chuàng )新技術(shù)能夠測試芯片上的每一個(gè)晶體管、觸發(fā)器、內存以及片外內存,確保我們在現場(chǎng)就能準確判斷特定芯片是否達到了平均故障間隔時(shí)間(MTBF)的標準。對于大型超級計算機來(lái)說(shuō),可靠性尤為關(guān)鍵。擁有10,000個(gè)GPU的超級計算機的平均故障間隔時(shí)間可能以小時(shí)為單位,但當GPU數量增加至100,000個(gè)時(shí),平均故障間隔時(shí)間將縮短至以分鐘為單位。

因此,為了確保超級計算機能夠長(cháng)時(shí)間穩定運行,以訓練那些可能需要數個(gè)月時(shí)間的復雜模型,我們必須通過(guò)技術(shù)創(chuàng )新來(lái)提高可靠性。而可靠性的提升不僅能夠增加系統的正常運行時(shí)間,還能有效降低成本。最后,我們還在Blackwell GPU中集成了先進(jìn)的解壓縮引擎。在數據處理方面,解壓縮速度至關(guān)重要。通過(guò)集成這一引擎,我們可以從存儲中拉取數據的速度比現有技術(shù)快20倍,從而極大地提升了數據處理效率。Blackwell GPU的上述功能特性使其成為一款令人矚目的產(chǎn)品。在之前的GTC大會(huì )上,我曾向大家展示了處于原型狀態(tài)的Blackwell。而現在,我們很高興地宣布,這款產(chǎn)品已經(jīng)投入生產(chǎn)。各位,這就是Blackwell,使用了令人難以置信的技術(shù)。這是我們的杰作,是當今世界上最復雜、性能最高的計算機。

其中,我們特別要提到的是Grace CPU,它承載了巨大的計算能力。請看,這兩個(gè)Blackwell芯片,它們緊密相連。你注意到了嗎?這就是世界上*的芯片,而我們使用每秒高達A10TB的鏈接將兩片這樣的芯片融為一體。那么,Blackwell究竟是什么呢?它的性能之強大,簡(jiǎn)直令人難以置信。請仔細觀(guān)察這些數據。在短短八年內,我們的計算能力、浮點(diǎn)運算以及人工智能浮點(diǎn)運算能力增長(cháng)了1000倍。這速度,幾乎超越了摩爾定律在*時(shí)期的增長(cháng)。Blackwell計算能力的增長(cháng)簡(jiǎn)直驚人。而更值得一提的是,每當我們的計算能力提高時(shí),成本卻在不斷下降。讓我給你們展示一下。我們通過(guò)提升計算能力,用于訓練GPT-4模型(2萬(wàn)億參數和8萬(wàn)億Token)的能量下降了350倍。想象一下,如果使用Pascal進(jìn)行同樣的訓練,它將消耗高達1000吉瓦時(shí)的能量。

這意味著(zhù)需要一個(gè)吉瓦數據中心來(lái)支持,但世界上并不存在這樣的數據中心。即便存在,它也需要連續運行一個(gè)月的時(shí)間。而如果是一個(gè)100兆瓦的數據中心,那么訓練時(shí)間將長(cháng)達一年。顯然,沒(méi)有人愿意或能夠創(chuàng )造這樣的數據中心。這就是為什么八年前,像ChatGPT這樣的大語(yǔ)言模型對我們來(lái)說(shuō)還是遙不可及的夢(mèng)想。但如今,我們通過(guò)提升性能并降低能耗實(shí)現了這一目標。我們利用Blackwell將原本需要高達1000吉瓦時(shí)的能量降低到僅需3吉瓦時(shí),這一成就無(wú)疑是令人震驚的突破。想象一下,使用1000個(gè)GPU,它們所消耗的能量竟然只相當于一杯咖啡的熱量。而10,000個(gè)GPU,更是只需短短10天左右的時(shí)間就能完成同等任務(wù)。八年間取得的這些進(jìn)步,簡(jiǎn)直令人難以置信。Blackwell不僅適用于推理,其在Token生成性能上的提升更是令人矚目。

在Pascal時(shí)代,每個(gè)Token消耗的能量高達17,000焦耳,這大約相當于兩個(gè)燈泡運行兩天的能量。而生成一個(gè)GPT-4的Token,幾乎需要兩個(gè)200瓦特的燈泡持續運行兩天?紤]到生成一個(gè)單詞大約需要3個(gè)Token,這確實(shí)是一個(gè)巨大的能量消耗。然而,現在的情況已經(jīng)截然不同。Blackwell使得生成每個(gè)Token只需消耗0.4焦耳的能量,以驚人的速度和極低的能耗進(jìn)行Token生成。這無(wú)疑是一個(gè)巨大的飛躍。但即使如此,我們仍不滿(mǎn)足。為了更大的突破,我們必須建造更強大的機器。這就是我們的DGX系統,Blackwell芯片將被嵌入其中。這款系統采用空氣冷卻技術(shù),內部配備了8個(gè)這樣的GPU?纯催@些GPU上的散熱片,它們的尺寸之大令人驚嘆。整個(gè)系統功耗約為15千瓦,完全通過(guò)空氣冷卻實(shí)現。這個(gè)版本兼容X86,并已應用于我們已發(fā)貨的服務(wù)器中。然而,如果你更傾向于液體冷卻技術(shù),我們還有一個(gè)全新的系統——MGX。它基于這款主板設計,我們稱(chēng)之為“模塊化”系統。

MGX系統的核心在于兩塊Blackwell芯片,每個(gè)節點(diǎn)都集成了四個(gè)Blackwell芯片。它采用了液體冷卻技術(shù),確保了高效穩定的運行。整個(gè)系統中,這樣的節點(diǎn)共有九個(gè),共計72個(gè)GPU,構成了一個(gè)龐大的計算集群。這些GPU通過(guò)全新的NV鏈接技術(shù)緊密相連,形成了一個(gè)無(wú)縫的計算網(wǎng)絡(luò )。NV鏈接交換機堪稱(chēng)技術(shù)奇跡。它是目前世界上*進(jìn)的交換機,數據傳輸速率令人咋舌。這些交換機使得每個(gè)Blackwell芯片高效連接,形成了一個(gè)巨大的72 GPU集群。這一集群的優(yōu)勢何在?首先,在GPU域中,它現在表現得就像一個(gè)單一的、超大規模的GPU。這個(gè)“超級GPU”擁有72個(gè)GPU的核心能力,相較于上一代的8個(gè)GPU,性能提升了9倍。同時(shí),帶寬增加了18倍,AI FLOPS(每秒浮點(diǎn)運算次數)更是提升了45倍,而功率僅增加了10倍。

也就是說(shuō),一個(gè)這樣的系統能提供100千瓦的強勁動(dòng)力,而上一代僅為10千瓦。當然,你還可以將更多的這些系統連接在一起,形成更龐大的計算網(wǎng)絡(luò )。但真正的奇跡在于這個(gè)NV鏈接芯片,隨著(zhù)大語(yǔ)言模型的日益龐大,其重要性也日益凸顯。因為這些大語(yǔ)言模型已經(jīng)不適合單獨放在一個(gè)GPU或節點(diǎn)上運行,它們需要整個(gè)GPU機架的協(xié)同工作。就像我剛才提到的那個(gè)新DGX系統,它能夠容納參數達到數十萬(wàn)億的大語(yǔ)言模型。NV鏈接交換機本身就是一個(gè)技術(shù)奇跡,擁有500億個(gè)晶體管,74個(gè)端口,每個(gè)端口的數據速率高達400 GB。

但更重要的是,交換機內部還集成了數學(xué)運算功能,可以直接進(jìn)行歸約操作,這在深度學(xué)習中具有極其重要的意義。這就是現在的DGX系統的全新面貌。許多人對我們表示好奇。他們提出疑問(wèn),對英偉達的業(yè)務(wù)范疇存在誤解。人們疑惑,英偉達怎么可能僅憑制造GPU就變得如此龐大。因此,很多人形成了這樣一種印象:GPU就應該是某種特定的樣子。

然而,現在我要展示給你們的是,這確實(shí)是一個(gè)GPU,但它并非你們想象中的那種。這是世界上*進(jìn)的GPU之一,但它主要用于游戲領(lǐng)域。但我們都清楚,GPU的真正力量遠不止于此。各位,請看這個(gè),這才是GPU的真正形態(tài)。這是DGX GPU,專(zhuān)為深度學(xué)習而設計。這個(gè)GPU的背面連接著(zhù)NV鏈接主干,這個(gè)主干由5000條線(xiàn)組成,長(cháng)達3公里。這些線(xiàn),就是NV鏈接主干,它們連接了70個(gè)GPU,形成一個(gè)強大的計算網(wǎng)絡(luò )。這是一個(gè)電子機械奇跡,其中的收發(fā)器讓我們能夠在銅線(xiàn)上驅動(dòng)信號貫穿整個(gè)長(cháng)度。因此,這個(gè)NV鏈接交換機通過(guò)NV鏈接主干在銅線(xiàn)上傳輸數據,使我們能夠在單個(gè)機架中節省20千瓦的電力,而這20千瓦現在可以完全用于數據處理,這的確是一項令人難以置信的成就。這就是NV鏈接主干的力量。

-Business Show-8

為生成式AI推以太網(wǎng) 

但這還不足以滿(mǎn)足需求,特別是對于大型人工智能工廠(chǎng)來(lái)說(shuō)更是如此,那么我們還有另一種解決方案。我們必須使用高速網(wǎng)絡(luò )將這些人工智能工廠(chǎng)連接起來(lái)。我們有兩種網(wǎng)絡(luò )選擇:InfiniBand和以太網(wǎng)。其中,InfiniBand已經(jīng)在全球各地的超級計算和人工智能工廠(chǎng)中廣泛使用,并且增長(cháng)迅速。然而,并非每個(gè)數據中心都能直接使用InfiniBand,因為他們在以太網(wǎng)生態(tài)系統上進(jìn)行了大量投資,而且管理InfiniBand交換機和網(wǎng)絡(luò )確實(shí)需要一定的專(zhuān)業(yè)知識和技術(shù)。

因此,我們的解決方案是將InfiniBand的性能帶到以太網(wǎng)架構中,這并非易事。原因在于,每個(gè)節點(diǎn)、每臺計算機通常與互聯(lián)網(wǎng)上的不同用戶(hù)相連,但大多數通信實(shí)際上發(fā)生在數據中心內部,即數據中心與互聯(lián)網(wǎng)另一端用戶(hù)之間的數據傳輸。然而,在人工智能工廠(chǎng)的深度學(xué)習場(chǎng)景下,GPU并不是與互聯(lián)網(wǎng)上的用戶(hù)進(jìn)行通信,而是彼此之間進(jìn)行頻繁的、密集的數據交換。它們相互通信是因為它們都在收集部分結果。然后它們必須將這些部分結果進(jìn)行規約(reduce)并重新分配(redistribute)。這種通信模式的特點(diǎn)是高度突發(fā)性的流量。重要的不是平均吞吐量,而是最后一個(gè)到達的數據,因為如果你正在從所有人那里收集部分結果,并且我試圖接收你所有的部分結果,如果最后一個(gè)數據包晚到了,那么整個(gè)操作就會(huì )延遲。

對于人工智能工廠(chǎng)而言,延遲是一個(gè)至關(guān)重要的問(wèn)題。所以,我們關(guān)注的焦點(diǎn)并非平均吞吐量,而是確保最后一個(gè)數據包能夠準時(shí)、無(wú)誤地抵達。然而,傳統的以太網(wǎng)并未針對這種高度同步化、低延遲的需求進(jìn)行優(yōu)化。為了滿(mǎn)足這一需求,我們創(chuàng )造性地設計了一個(gè)端到端的架構,使NIC(網(wǎng)絡(luò )接口卡)和交換機能夠通信。為了實(shí)現這一目標,我們采用了四種關(guān)鍵技術(shù):*,英偉達擁有業(yè)界*的RDMA(遠程直接內存訪(fǎng)問(wèn))技術(shù),F在,我們有了以太網(wǎng)網(wǎng)絡(luò )級別的RDMA,它的表現非常出色。第二,我們引入了擁塞控制機制。交換機具備實(shí)時(shí)遙測功能,能夠迅速識別并響應網(wǎng)絡(luò )中的擁塞情況。

當GPU或NIC發(fā)送的數據量過(guò)大時(shí),交換機會(huì )立即發(fā)出信號,告知它們減緩發(fā)送速率,從而有效避免網(wǎng)絡(luò )熱點(diǎn)的產(chǎn)生。第三,我們采用了自適應路由技術(shù)。傳統以太網(wǎng)按固定順序傳輸數據,但在我們的架構中,我們能夠根據實(shí)時(shí)網(wǎng)絡(luò )狀況進(jìn)行靈活調整。當發(fā)現擁塞或某些端口空閑時(shí),我們可以將數據包發(fā)送到這些空閑端口,再由另一端的Bluefield設備重新排序,確保數據按正確順序返回。這種自適應路由技術(shù)極大地提高了網(wǎng)絡(luò )的靈活性和效率。

第四,我們實(shí)施了噪聲隔離技術(shù)。在數據中心中,多個(gè)模型同時(shí)訓練產(chǎn)生的噪聲和流量可能會(huì )相互干擾,并導致抖動(dòng)。我們的噪聲隔離技術(shù)能夠有效地隔離這些噪聲,確保關(guān)鍵數據包的傳輸不受影響。通過(guò)采用這些技術(shù),我們成功地為人工智能工廠(chǎng)提供了高性能、低延遲的網(wǎng)絡(luò )解決方案。在價(jià)值高達數十億美元的數據中心中,如果網(wǎng)絡(luò )利用率提升40%而訓練時(shí)間縮短20%,這實(shí)際上意味著(zhù)價(jià)值50億美元的數據中心在性能上等同于一個(gè)60億美元的數據中心,揭示了網(wǎng)絡(luò )性能對整體成本效益的顯著(zhù)影響。幸運的是,帶有Spectrum X的以太網(wǎng)技術(shù)正是我們實(shí)現這一目標的關(guān)鍵,它大大提高了網(wǎng)絡(luò )性能,使得網(wǎng)絡(luò )成本相對于整個(gè)數據中心而言幾乎可以忽略不計。

這無(wú)疑是我們在網(wǎng)絡(luò )技術(shù)領(lǐng)域取得的一大成就。我們擁有一系列強大的以太網(wǎng)產(chǎn)品線(xiàn),其中最引人注目的是Spectrum X800。這款設備以每秒51.2 TB的速度和256路徑(radix)的支持能力,為成千上萬(wàn)的GPU提供了高效的網(wǎng)絡(luò )連接。接下來(lái),我們計劃一年后推出X800 Ultra,它將支持高達512路徑的512 radix,進(jìn)一步提升了網(wǎng)絡(luò )容量和性能。而X 1600則是為更大規模的數據中心設計的,能夠滿(mǎn)足數百萬(wàn)個(gè)GPU的通信需求。隨著(zhù)技術(shù)的不斷進(jìn)步,數百萬(wàn)個(gè)GPU的數據中心時(shí)代已經(jīng)指日可待。這一趨勢的背后有著(zhù)深刻的原因。一方面,我們渴望訓練更大、更復雜的模型;但更重要的是,未來(lái)的互聯(lián)網(wǎng)和計算機交互將越來(lái)越多地依賴(lài)于云端的生成式人工智能。這些人工智能將與我們一起工作、互動(dòng),生成視頻、圖像、文本甚至數字人。

因此,我們與計算機的每一次交互幾乎都離不開(kāi)生成式人工智能的參與。并且總是有一個(gè)生成式人工智能與之相連,其中一些在本地運行,一些在你的設備上運行,很多可能在云端運行。這些生成式人工智能不僅具備強大的推理能力,還能對答案進(jìn)行迭代優(yōu)化,以提高答案的質(zhì)量。這意味著(zhù)我們未來(lái)將產(chǎn)生海量的數據生成需求。今晚,我們共同見(jiàn)證了這一技術(shù)革新的力量。Blackwell,作為NVIDIA平臺的*代產(chǎn)品,自推出以來(lái)便備受矚目。如今,全球范圍內都迎來(lái)了生成式人工智能的時(shí)代,這是一個(gè)全新的工業(yè)革命的開(kāi)端,每個(gè)角落都在意識到人工智能工廠(chǎng)的重要性。我們深感榮幸,獲得了來(lái)自各行各業(yè)的廣泛支持,包括每一家OEM(原始設備制造商)、電腦制造商、CSP(云服務(wù)提供商)、GPU云、主權云以及電信公司等。

Blackwell的成功、廣泛的采用以及行業(yè)對其的熱情都達到了前所未有的高度,這讓我們深感欣慰,并在此向大家表示衷心的感謝。然而,我們的腳步不會(huì )因此而停歇。在這個(gè)飛速發(fā)展的時(shí)代,我們將繼續努力提升產(chǎn)品性能,降低培訓和推理的成本,同時(shí)不斷擴展人工智能的能力,使每一家企業(yè)都能從中受益。我們堅信,隨著(zhù)性能的提升,成本將進(jìn)一步降低。而Hopper平臺,無(wú)疑可能是歷史上最成功的數據中心處理器。

-Business Show-9Blackwell Ultra將于明年發(fā)布下一代平臺名為Rubin

這確實(shí)是一個(gè)震撼人心的成功故事。Blackwell平臺的誕生,正如大家所見(jiàn),并非單一組件的堆砌,而是一個(gè)綜合了CPU、GPU、NVLink、NICK(特定技術(shù)組件)以及NVLink交換機等多個(gè)元素的完整系統。我們致力于通過(guò)每代產(chǎn)品使用大型、超高速的交換機將所有GPU緊密連接,形成一個(gè)龐大且高效的計算域。我們將整個(gè)平臺集成到人工智能工廠(chǎng)中,但更為關(guān)鍵的是,我們將這一平臺以模塊化的形式提供給全球客戶(hù)。這樣做的初衷在于,我們期望每一位合作伙伴都能根據自身的需求,創(chuàng )造出獨特且富有創(chuàng )新性的配置,以適應不同風(fēng)格的數據中心、不同的客戶(hù)群體和多樣化的應用場(chǎng)景。

從邊緣計算到電信領(lǐng)域,只要系統保持開(kāi)放,各種創(chuàng )新都將成為可能。為了讓你們能夠自由創(chuàng )新,我們設計了一個(gè)一體化的平臺,但同時(shí)又以分解的形式提供給你們,使你們能夠輕松構建模塊化系統,F在,Blackwell平臺已經(jīng)全面登場(chǎng)。英偉達始終堅持每年一次的更新節奏。我們的核心理念非常明確:1)構建覆蓋整個(gè)數據中心規模的解決方案;2)將這些解決方案分解為各個(gè)部件,以每年一次的頻率向全球客戶(hù)推出;3)我們不遺余力地將所有技術(shù)推向極限,無(wú)論是臺積電的工藝技術(shù)、封裝技術(shù)、內存技術(shù),還是光學(xué)技術(shù)等,我們都追求*的性能表現。在完成硬件的極限挑戰后,我們將全力以赴確保所有軟件都能在這個(gè)完整的平臺上順暢運行。在計算機技術(shù)中,軟件慣性至關(guān)重要。當我們的計算機平臺能夠向后兼容,且架構上與已有軟件*契合時(shí),產(chǎn)品的上市速度將顯著(zhù)提升。

因此,當Blackwell平臺問(wèn)世時(shí),我們能夠充分利用已構建的軟件生態(tài)基礎,實(shí)現驚人的市場(chǎng)響應速度。明年,我們將迎來(lái)Blackwell Ultra。正如我們曾推出的H100和H200系列一樣,Blackwell Ultra也將引領(lǐng)新一代產(chǎn)品的熱潮,帶來(lái)前所未有的創(chuàng )新體驗。同時(shí),我們將繼續挑戰技術(shù)的極限,推出下一代頻譜交換機,這是行業(yè)內的首次嘗試。這一重大突破已經(jīng)成功實(shí)現,盡管我現在對于公開(kāi)這個(gè)決定還心存些許猶豫。在英偉達內部,我們習慣于使用代碼名并保持一定的保密性。很多時(shí)候,連公司內部的大多數員工都不甚了解這些秘密。然而,我們的下一代平臺已被命名為Rubin。關(guān)于Rubin,我不會(huì )在此過(guò)多贅述。

我深知大家的好奇心,但請允許我保持一些神秘感。你們或許已經(jīng)迫不及待想要拍照留念,或是仔細研究那些小字部分,那就請隨意吧。我們不僅有Rubin平臺,一年后還將推出Rubin Ultra平臺。在此展示的所有芯片都處于全面開(kāi)發(fā)階段,確保每一個(gè)細節都經(jīng)過(guò)精心打磨。我們的更新節奏依然是一年一次,始終追求技術(shù)的*,同時(shí)確保所有產(chǎn)品都保持100%的架構兼容性;仡欉^(guò)去的12年,從Imagenet誕生的那一刻起,我們就預見(jiàn)到計算領(lǐng)域的未來(lái)將會(huì )發(fā)生翻天覆地的變化。如今,這一切都成為了現實(shí),與我們當初的設想不謀而合。從2012年之前的GeForce到如今的英偉達,公司經(jīng)歷了巨大的轉變。在此,我要衷心感謝所有合作伙伴的一路支持與陪伴。

-Business Show-10

機器人時(shí)代已經(jīng)到來(lái)

這就是英偉達的Blackwell平臺,接下來(lái),讓我們談?wù)勅斯ぶ悄芘c機器人相結合的未來(lái)。

物理人工智能正引領(lǐng)人工智能領(lǐng)域的新浪潮,它們深諳物理定律,并能自如地融入我們的日常生活。為此,物理人工智能不僅需要構建一個(gè)精準的世界模型,以理解如何解讀和感知周?chē)澜,更需具?的認知能力,以深刻理解我們的需求并高效執行任務(wù)。展望未來(lái),機器人技術(shù)將不再是一個(gè)遙不可及的概念,而是日益融入我們的日常生活。當提及機器人技術(shù)時(shí),人們往往會(huì )聯(lián)想到人形機器人,但實(shí)際上,它的應用遠不止于此。機械化將成為常態(tài),工廠(chǎng)將全面實(shí)現自動(dòng)化,機器人將協(xié)同工作,制造出一系列機械化產(chǎn)品。它們之間的互動(dòng)將更加密切,共同創(chuàng )造出一個(gè)高度自動(dòng)化的生產(chǎn)環(huán)境。

為了實(shí)現這一目標,我們需要克服一系列技術(shù)挑戰。接下來(lái),我將通過(guò)視頻展示這些前沿技術(shù)。這不僅僅是對未來(lái)的展望,它正逐步成為現實(shí)。我們將通過(guò)多種方式服務(wù)市場(chǎng)。首先,我們致力于為不同類(lèi)型的機器人系統打造平臺:機器人工廠(chǎng)與倉庫專(zhuān)用平臺、物體操縱機器人平臺、移動(dòng)機器人平臺,以及人形機器人平臺。這些機器人平臺與我們其他眾多業(yè)務(wù)一樣,依托于計算機加速庫和預訓練模型。我們運用計算機加速庫、預訓練模型,并在Omniverse中進(jìn)行全方位的測試、訓練和集成。正如視頻所示,Omniverse是機器人學(xué)習如何更好地適應現實(shí)世界的地方。當然,機器人倉庫的生態(tài)系統極為復雜,需要眾多公司、工具和技術(shù)來(lái)共同構建現代化的倉庫。如今,倉庫正逐步邁向全面機械化,終有一天將實(shí)現完全自動(dòng)化。

在這樣一個(gè)生態(tài)系統中,我們?yōu)檐浖袠I(yè)、邊緣人工智能行業(yè)和公司提供了SDK和API接口,同時(shí)也為PLC和機器人系統設計了專(zhuān)用系統,以滿(mǎn)足國防部等特定領(lǐng)域的需求。這些系統通過(guò)集成商整合,最終為客戶(hù)打造高效、智能的倉庫。舉個(gè)例子,Ken Mac正在為Giant Giant集團構建一座機器人倉庫。接下來(lái),讓我們聚焦工廠(chǎng)領(lǐng)域。工廠(chǎng)的生態(tài)系統截然不同。以富士康為例,他們正在建設世界上一些*進(jìn)的工廠(chǎng)。這些工廠(chǎng)的生態(tài)系統同樣涵蓋了邊緣計算機、機器人軟件,用于設計工廠(chǎng)布局、優(yōu)化工作流程、編程機器人,以及用于協(xié)調數字工廠(chǎng)和人工智能工廠(chǎng)的PLC計算機。我們同樣為這些生態(tài)系統中的每一個(gè)環(huán)節提供了SDK接口。這樣的變革正在全球范圍內上演。富士康和Delta正為其工廠(chǎng)構建數字孿生設施,實(shí)現現實(shí)與數字的*融合,而Omniverse在其中扮演了至關(guān)重要的角色。同樣值得一提的是,和碩與Wistron也在緊隨潮流,為各自的機器人工廠(chǎng)建立數字孿生設施。

這確實(shí)令人興奮。接下來(lái),請欣賞一段富士康新工廠(chǎng)的精彩視頻。機器人工廠(chǎng)由三個(gè)主要計算機系統組成,在NVIDIA AI平臺上訓練人工智能模型,我們確保機器人在本地系統上高效運行以編排工廠(chǎng)流程。同時(shí),我們利用Omniverse這一模擬協(xié)作平臺,對包括機械臂和AMR(自主移動(dòng)機器人)在內的所有工廠(chǎng)元素進(jìn)行模擬。值得一提的是,這些模擬系統均共享同一個(gè)虛擬空間,實(shí)現無(wú)縫的交互與協(xié)作。當機械臂和AMR進(jìn)入這個(gè)共享的虛擬空間時(shí),它們能夠在Omniverse中模擬出真實(shí)的工廠(chǎng)環(huán)境,確保在實(shí)際部署前進(jìn)行充分的驗證和優(yōu)化。為了進(jìn)一步提升解決方案的集成度和應用范圍,我們提供了三款高性能計算機,并配備了加速層和預訓練人工智能模型。此外,我們已成功將NVIDIA Manipulator和Omniverse與西門(mén)子的工業(yè)自動(dòng)化軟件和系統相結合。這種合作使得西門(mén)子在全球各地的工廠(chǎng)中都能夠實(shí)現更高效的機器人操作和自動(dòng)化。除了西門(mén)子,我們還與多家知名企業(yè)建立了合作關(guān)系。

例如,Symantec Pick AI已經(jīng)集成了NVIDIA Isaac Manipulator,而Somatic Pick AI則成功運行并操作了ABB、KUKA、Yaskawa Motoman等知名品牌的機器人。機器人技術(shù)和物理人工智能的時(shí)代已經(jīng)到來(lái),它們正在各地被廣泛應用,這并非科幻,而是現實(shí),令人倍感振奮。展望未來(lái),工廠(chǎng)內的機器人將成為主流,它們將制造所有的產(chǎn)品,其中兩個(gè)高產(chǎn)量機器人產(chǎn)品尤為引人注目。首先是自動(dòng)駕駛汽車(chē)或具備高度自主能力的汽車(chē),英偉達再次憑借其全面的技術(shù)堆棧在這一領(lǐng)域發(fā)揮了核心作用。明年,我們計劃與梅賽德斯-奔馳車(chē)隊攜手,隨后在2026年與捷豹路虎(JLR)車(chē)隊合作。我們提供完整的解決方案堆棧,但客戶(hù)可根據需求選擇其中的任何部分或層級,因為整個(gè)驅動(dòng)堆棧都是開(kāi)放和靈活的。接下來(lái),另一個(gè)可能由機器人工廠(chǎng)高產(chǎn)量制造的產(chǎn)品是人形機器人。近年來(lái),在認知能力和世界理解能力方面取得了巨大突破,這一領(lǐng)域的發(fā)展前景令人期待。

我對人形機器人特別興奮,因為它們最有可能適應我們?yōu)槿祟?lèi)所構建的世界。與其他類(lèi)型的機器人相比,訓練人形機器人需要大量的數據。由于我們擁有相似的體型,通過(guò)演示和視頻能力提供的大量訓練數據將*價(jià)值。因此,我們預計這一領(lǐng)域將取得顯著(zhù)的進(jìn)步,F在,讓我們歡迎一些特別的機器人朋友。機器人時(shí)代已經(jīng)來(lái)臨,這是人工智能的下一波浪潮。中國臺灣制造的計算機種類(lèi)繁多,既有配備鍵盤(pán)的傳統機型,也有小巧輕便、便于攜帶的移動(dòng)設備,以及為云端數據中心提供強大算力的專(zhuān)業(yè)設備。但展望未來(lái),我們將見(jiàn)證一個(gè)更為激動(dòng)人心的時(shí)刻——制造會(huì )走路、四處滾動(dòng)的計算機,即智能機器人。這些智能機器人與我們所熟知的計算機在技術(shù)上有著(zhù)驚人的相似性,它們都是基于先進(jìn)的硬件和軟件技術(shù)構建的。因此,我們有理由相信,這將是一段真正非凡的旅程!綜合參考來(lái)源:騰訊科技等

       原文標題 : 英偉達黃仁勛重磅演講:機器人時(shí)代已經(jīng)到來(lái)

聲明: 本文由入駐維科號的作者撰寫(xiě),觀(guān)點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權或其他問(wèn)題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長(cháng)度6~500個(gè)字

您提交的評論過(guò)于頻繁,請輸入驗證碼繼續

暫無(wú)評論

暫無(wú)評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內容
文章糾錯
x
*文字標題:
*糾錯內容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號