狂飆一年,算法進(jìn)步和應用落地的爆發(fā),讓中國云計算廠(chǎng)商感受著(zhù)切實(shí)的變化" />
訂閱
糾錯
加入自媒體

AIGC時(shí)代,需要什么樣的云存儲?

文|白    鴿

編|王一粟

AIGC狂飆一年,算法進(jìn)步和應用落地的爆發(fā),讓中國云計算廠(chǎng)商感受著(zhù)切實(shí)的變化。

“今年一季度,大模型企業(yè)在云存儲的消耗同比在增加。”

4月8日,在騰訊云AIGC云存儲解決方案升級發(fā)布會(huì )上,騰訊云存儲總經(jīng)理馬文霜同時(shí)預計,今年AIGC對于云端的調用量一定是爆發(fā)式的增長(cháng)。

馬文霜還開(kāi)半玩笑地說(shuō),“可能這些企業(yè)拿到的投資更多了”。

隨著(zhù)多模態(tài)技術(shù)的進(jìn)化和落地應用的逐漸爆發(fā),讓大模型的訓練和推理迎來(lái)了一些新的挑戰。

事實(shí)上,從語(yǔ)言和圖像為主的GPT,到視頻生成模型Sora,大模型參數正在指數級增長(cháng)。比如ChatGPT在GPT-2時(shí)是10億參數量,到現在GPT-4已經(jīng)有1.8萬(wàn)億參數。Sora為主的多模態(tài)技術(shù),更會(huì )讓需要處理的數據量急劇增加,而這才剛剛是視頻生成模型的GPT-1.0時(shí)代。

參數越大,對云存儲的需求就會(huì )越高,包括云存儲的數據量以及吞吐量等,如果云存儲能力不能夠滿(mǎn)足大模型的需求,則會(huì )直接影響到大模型的訓練速度和推理效率。

在大模型加速發(fā)展的階段,大模型企業(yè)也越來(lái)越重視云存儲這一重要的底層基礎設施能力。但AIGC時(shí)代,究竟需要什么樣的云存儲技術(shù)?

AIGC數據訓練的新需求

云存儲的新挑戰

“內卷”之下,大模型企業(yè)開(kāi)始拼算力、拼參數,更拼大模型的更新速度。

如百川智能,前期平均一個(gè)月發(fā)布升級一款大模型,百度文心一言在發(fā)布之初,甚至一個(gè)月內就完成了4次技術(shù)版本的升級。

想要保持大模型的更新頻率和速度,就要保證整個(gè)大模型數據訓練過(guò)程的高效,其中某一個(gè)環(huán)節出現問(wèn)題,就可能會(huì )拉長(cháng)整個(gè)訓練時(shí)長(cháng),增加訓練成本。

因此,作為整個(gè)大模型數據訓練的底座,云存儲的重要性日益凸顯。那么,AIGC時(shí)代到底需要什么樣的云存儲技術(shù)?

存儲作為數據的載體,現如今已經(jīng)不僅僅只承擔“存”的作用,更需要打通數據從“存”到“用”的最后一公里。

始于19年前QQ空間的騰訊云存儲,如今在國內云廠(chǎng)商中存儲能力一直處于領(lǐng)導者象限(沙利文報告),他們的做法對行業(yè)頗有借鑒意義。

馬文霜向光錐智能提到,在A(yíng)IGC數據訓練的4個(gè)環(huán)節中,存儲需要提供的具體能力,包括:

數據采集階段,需要一個(gè)大容量、低成本、高可靠的數據存儲底座;

數據清洗階段,需要提供更多協(xié)議的支持,以及至少GB甚至TB級的數據訪(fǎng)問(wèn)性能;

數據訓練階段,作為大模型訓練的關(guān)鍵環(huán)節,則需要一個(gè)TB級的帶寬存儲保證訓練過(guò)程中Checkpoint能夠快速保存,以便于保障訓練的連續性和提升CPU的有效使用時(shí)長(cháng),也需要存儲提供百萬(wàn)級IOPS能力,來(lái)保證訓練時(shí)海量小樣本讀取不會(huì )成為訓練瓶頸;

數據應用階段,則需要存儲提供比較豐富的數據審核能力,來(lái)滿(mǎn)足鑒黃、鑒暴等安全合規的訴求,保證大模型生成的內容以合法、合規的方式使用;

在這4個(gè)環(huán)節中,騰訊云AIGC云存儲解決方案,分別由4款產(chǎn)品提供專(zhuān)屬服務(wù),包括對象存儲COS、高性能并行文件存儲CFS Turbo、數據加速器GooseFS和數據萬(wàn)象CI。

而這次騰訊云存儲面向AIGC場(chǎng)景的升級,就是基于上述4款產(chǎn)品將大模型的數據清洗和訓練效率提升1倍,整體訓練時(shí)長(cháng)縮短一半。

首先,在數據采集環(huán)節,基于自研的對象存儲引擎YottaStore,騰訊云對象存儲COS可支持單集群管理百EB級別存儲規模,多種協(xié)議和不同數據公網(wǎng)接入能力,可以讓采集的原始數據便捷入湖。

數據清洗環(huán)節,COS訪(fǎng)問(wèn)鏈路比較長(cháng),數據讀取效率并不高,所以騰訊云在這中間添加了一層自研的數據加速器GooseFS。

COS通過(guò)自研數據加速器GooseFS提升數據訪(fǎng)問(wèn)性能,可實(shí)現高達數TBps的讀取帶寬,提供亞毫秒級的數據訪(fǎng)問(wèn)延遲、百萬(wàn)級的IOPS和TBps級別的吞吐能力。

“這讓單次數據清洗任務(wù)耗時(shí)減少一半。”馬文霜說(shuō)道。

相比采集和清潔,大模型的訓練則更加耗時(shí),短則數周、長(cháng)則數月,這期間如果任何一個(gè)CPU/GPU的節點(diǎn)掉線(xiàn),都會(huì )導致整個(gè)訓練前功盡棄。

業(yè)內通常會(huì )采用2~4個(gè)小時(shí)保存一次訓練成果,即Checkpoint(檢查點(diǎn)),以便能在GPU故障時(shí)能回滾。

此時(shí)則需要將保存的Checkpoint時(shí)間縮短到越短越好,但數千上萬(wàn)個(gè)節點(diǎn)都需要保存Checkpoint,這就對文件存儲的讀寫(xiě)吞吐提出了非常高的要求。

馬文霜表示:“兩年前我們發(fā)布高性能并行文件存儲CFS Turbo第一個(gè)版本,是100GB的讀寫(xiě)吞吐,當時(shí)覺(jué)得這個(gè)讀寫(xiě)吞吐已經(jīng)足夠大,很多業(yè)務(wù)用不到。但去年大模型出來(lái)以后,用CFS Turbo再去寫(xiě)Checkpoint,我們發(fā)現100G還遠遠不夠。”

CFS Turbo底層技術(shù)來(lái)自于騰訊云自研的引擎Histor。此次升級,騰訊云將CFS Turbo的讀寫(xiě)吞吐能力從100GB直接升級至TiB/s級別,讓3TB checkpoint 寫(xiě)入時(shí)間從10分鐘,縮短至10秒內,時(shí)間降低90%,大幅提升大模型訓練效率。

針對數據訪(fǎng)問(wèn)延遲問(wèn)題,騰訊云引擎Histor可支持單個(gè)節點(diǎn)GPU與所有存儲節點(diǎn)進(jìn)行通信,進(jìn)行并行數據訪(fǎng)問(wèn)。“另外,我們通過(guò)RDMA(遠程直接地址訪(fǎng)問(wèn))等技術(shù)不斷優(yōu)化數據訪(fǎng)問(wèn)延遲,縮短IO路徑,最終可做到亞毫秒級訪(fǎng)問(wèn)延遲。”馬文霜說(shuō)道。

同時(shí),騰訊云Histor還可以將元數據目錄打散至所有存儲節點(diǎn)上,提供線(xiàn)性擴張能力,從而實(shí)現文件打開(kāi)、讀取、刪除的百萬(wàn)級IOPS能力。

應用階段,大模型推理場(chǎng)景則對數據安全與可追溯性提出更高要求。騰訊云數據萬(wàn)象CI是一站式內容治理服務(wù)平臺,它可以對AI生成的內容進(jìn)行一站式管理,可以提供圖片隱式水印、AIGC內容審核、智能數據檢索MetaInsight等能力。

此次升級,騰訊云重點(diǎn)講述了智能數據檢索MetaInsight,其能夠基于大模型和向量數據庫進(jìn)行跨模態(tài)搜索服務(wù),也就是可以文搜圖、文搜視頻、圖搜圖、視頻搜視頻,并憑借95%以上的召回率,可以幫助用戶(hù)快速鎖定目標內容,提升審核效率。

基于這套AIGC云存儲技術(shù)底座,騰訊云存儲總經(jīng)理陳崢表示,騰訊自研項目(比如混元大模型)的整體效率至少提升了2倍以上。

目前,除騰訊自己的混元大模型,數據顯示,已有80%的頭部大模型企業(yè)使用了這套AIGC云存儲解決方案,包括百川智能、智譜、元象等明星大模型企業(yè)。

而針對解決方案升級后的產(chǎn)品價(jià)格,馬文霜則表示,“不會(huì )有變化”。在阿里云和京東云都宣布降價(jià)時(shí),騰訊云并沒(méi)有選擇降價(jià),而是“加量不加價(jià)”。

“穩定性、高性能,以及性?xún)r(jià)比,是大模型時(shí)代云存儲的核心。”騰訊云智能存儲總監葉嘉梁說(shuō)道。

當然,在A(yíng)IGC時(shí)代,云廠(chǎng)商都想抓住這一次用云需求爆發(fā)的機會(huì )。除了騰訊云外,阿里云、華為云等其他云廠(chǎng)商在A(yíng)IGC云存儲領(lǐng)域也都有相應的布局。

比如2023年,華為云針對大模型時(shí)代的云存儲發(fā)布了OceanStor A310 深度學(xué)習數據湖存儲和FusionCube A3000 訓/推超融合一體機兩款產(chǎn)品。

阿里云面向AI時(shí)代的云存儲解決方案,也覆蓋了底層對象存儲 OSS數據湖、高性能文件存儲、并行文件存儲 CPFS、PAI-靈駿智算服務(wù)以及智能媒體管理IMM平臺等產(chǎn)品。

可以看到,圍繞AIGC的需求,云廠(chǎng)商在云存儲領(lǐng)域迅速更新?lián)Q代。阿里云的思路與騰訊云非常接近,而華為云則加入了自己在硬件方面的優(yōu)勢。

云存儲技術(shù)僅是云計算眾多底層核心技術(shù)之一,隨著(zhù)大模型深度發(fā)展,云廠(chǎng)商們已經(jīng)開(kāi)始在整個(gè)PaaS層、IaaS層、MaaS層,都在圍繞AIGC進(jìn)行迭代升級,為行業(yè)提供全鏈路大模型云服務(wù)。

云廠(chǎng)商狂飆

爭做“最適合大模型”的云

云已經(jīng)成為大模型的最佳載體,大模型也正在重塑云服務(wù)的形態(tài)。

馬文霜認為,云上豐富的資源、計算、存儲、網(wǎng)絡(luò )、容器技術(shù)和PaaS,都能夠解決AIGC在各個(gè)環(huán)節上對資源的訴求。云還能夠給AIGC提供成熟的方案和豐富的生態(tài)支持,讓客戶(hù)可以聚焦在自己產(chǎn)品競爭力的方向進(jìn)行開(kāi)發(fā),加速整體研發(fā)效率以及應用落地的速度。

面對AIGC帶來(lái)的大模型發(fā)展浪潮,騰訊集團副總裁、騰訊云與智慧產(chǎn)業(yè)事業(yè)群COO兼騰訊云總裁邱躍鵬曾表示,大模型將開(kāi)創(chuàng )下一代云服務(wù),騰訊云要打造“最適合大模型的云”。

自從大模型熱潮爆發(fā)以來(lái),騰訊云在大模型業(yè)務(wù)推出上不是最快的一個(gè),但卻是最扎實(shí)的一個(gè)。

在2023年9月的騰訊全球數字生態(tài)大會(huì )上,騰訊云面向AIGC場(chǎng)景推出了基于星脈網(wǎng)絡(luò )的大模型訓練集群HCC、向量數據庫以及行業(yè)大模型的MaaS服務(wù)。

也就是說(shuō),騰訊云從底層智算能力,到中間件,再到上層MaaS,已經(jīng)實(shí)現了全鏈路大模型云化能力升級迭代,每個(gè)業(yè)務(wù)都很務(wù)實(shí)。

比如,針對大模型對算力的迫切需求,騰訊云高性能計算集群HCC為大模型訓練提供高性能、高帶寬、低延遲的智能算力支撐。通過(guò)自研星脈網(wǎng)絡(luò ),能提升40%GPU利用率,節省30%~60%模型訓練成本,提升AI大模型10倍通信性能。利用星星海自研服務(wù)器的6U超高密度設計和并行計算理念,確保高性能計算。

針對在中間層對數據調度應用的需求,騰訊云向量數據庫,可為多維向量數據提供高效存儲、檢索和分析能力?蛻(hù)可將私有數據經(jīng)過(guò)文本處理和向量化后,存儲至騰訊云向量數據庫,從而創(chuàng )建一個(gè)定制化外部知識庫。在后續查詢(xún)任務(wù)中,這個(gè)知識庫也能為大模型提供必要的提示,輔助AIGC應用產(chǎn)生更精確的輸出。

而針對行業(yè)大模型開(kāi)發(fā)與落地應用服務(wù),騰訊云則在整個(gè)云底座之上推出了MaaS服務(wù)解決方案,為企業(yè)客戶(hù)提供涵蓋模型預訓練、模型精調、智能應用開(kāi)發(fā)等一站式行業(yè)大模型解決方案。

其中,值得一提的是騰訊云是業(yè)界最早提出走“向量數據庫”路線(xiàn)的云廠(chǎng)商,在大家對大模型部署還尚有技術(shù)路線(xiàn)爭議之初,騰訊就做了這個(gè)選擇。目前,向量數據庫+RAG(檢索增強)也已經(jīng)成為業(yè)內使用頻率最多的大模型部署路線(xiàn)。

可以看到,在回歸“產(chǎn)品優(yōu)先”戰略后,騰訊云在大模型時(shí)代的打法也逐漸清晰——不盲目追隨行業(yè),而是基于對AIGC的理解,做自己的產(chǎn)品迭代。

不過(guò),面對十年一遇的大模型機會(huì ),華為云、阿里云、百度云等云廠(chǎng)商也都在2023年爭先恐后地布局,騰訊云的壓力并不小。

過(guò)去一年,華為云構建了包括以華為云昇騰AI云服務(wù)為算力底座、行業(yè)首個(gè)大模型混合云Stack 8.3,在MaaS層用盤(pán)古大模型在千行百業(yè)中落地。華為云還上線(xiàn)了昇騰AI云服務(wù)百模千態(tài)專(zhuān)區,收錄了業(yè)界主流開(kāi)源大模型。可以看到,華為云集成了算力、政企、行業(yè)、生態(tài)等多方面的優(yōu)勢,可謂火力全開(kāi)。

阿里云則是國內大廠(chǎng)中唯一做開(kāi)源大模型的公司,說(shuō)明心態(tài)最為開(kāi)放、做平臺的決心最強。阿里云在智能算力底座之上,打造了以機器學(xué)習平臺PAI為核心的PaaS服務(wù),以及上層MaaS服務(wù)。其中,在開(kāi)發(fā)者生態(tài)層,截至2023年11月1日,阿里云發(fā)起的AI模型社區魔搭已經(jīng)有超過(guò)2300個(gè)模型,開(kāi)發(fā)者超過(guò)280萬(wàn),模型下載次數也超過(guò)了1億多次。

云廠(chǎng)商們掀起了新一輪廝殺,是因為大模型的紅利。

AI的發(fā)展正在帶動(dòng)用云需求的增長(cháng),并已成為云計算產(chǎn)業(yè)發(fā)展的第二增長(cháng)曲線(xiàn)。畢竟,大模型的算力使用幾乎可以說(shuō)是“無(wú)底洞”,此前業(yè)界曾預測OpenAI訓練GPT-4可能使用了大約10000-25000張GPU,以及微軟的云上算力支撐。

因此,在A(yíng)IGC時(shí)代,各大云廠(chǎng)商都在探索如何基于A(yíng)I重塑云計算技術(shù)和服務(wù)體系,開(kāi)辟全新的服務(wù)場(chǎng)景和服務(wù)內容,從而能夠抓住這輪AI大模型升級發(fā)展所帶來(lái)的機會(huì )。

大趨勢下,Cloud for AI不僅是云廠(chǎng)商的新機會(huì ),也是必答題。陳崢也表示,云廠(chǎng)商現階段所能夠做的就是提前進(jìn)行技術(shù)產(chǎn)品布局,并將整個(gè)數據價(jià)值開(kāi)放給客戶(hù),從而讓客戶(hù)更好的利用數據。

       原文標題 : AIGC時(shí)代,需要什么樣的云存儲?

聲明: 本文由入駐維科號的作者撰寫(xiě),觀(guān)點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權或其他問(wèn)題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長(cháng)度6~500個(gè)字

您提交的評論過(guò)于頻繁,請輸入驗證碼繼續

暫無(wú)評論

暫無(wú)評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內容
文章糾錯
x
*文字標題:
*糾錯內容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號