聊聊大模型推理系統(tǒng)之 BlendServe:通過資源感知批處理策略,最大化硬件資源利用率和推理吞吐量
作者:InternLM、Qwen 等 LLM
全文約 2600 字,預計閱讀 7 分鐘
近年來,大型語言模型(LLM)的廣泛應用推動了推理服務系統(tǒng)的不斷優(yōu)化。然而,在離線批量推理場景中,如何平衡計算資源利用效率和性能仍是一個亟待解決的問題。
因此,今天我們來聊聊加州大學伯克利分校、華盛頓大學等團隊聯(lián)合提出的一種名為BlendServe的系統(tǒng),通過創(chuàng)新的資源感知批處理策略,顯著提升了硬件利用率與推理吞吐量。本文將帶您快速了解這項研究的核心亮點、背景、方法創(chuàng)新及行業(yè)意義。
核心看點
BlendServe的核心目標是通過重新排序和重疊請求來最大化硬件資源利用率,同時保持高前綴共享率。實驗表明,該系統(tǒng)在多種合成多模態(tài)工作負載下表現(xiàn)出色:
吞吐量提升:相比現(xiàn)有的行業(yè)標準(如vLLM和SGLang),BlendServe實現(xiàn)了高達1.44 倍的吞吐量加速。資源重疊優(yōu)化:通過資源感知前綴樹的設計,系統(tǒng)能夠有效結合計算密集型和內(nèi)存密集型請求,實現(xiàn)資源調(diào)度的最佳平衡。前綴共享保持:即使在優(yōu)化資源使用的同時,BlendServe仍能保持接近最優(yōu)的前綴共享率(超過 97% )。通用性強:無論是文本生成、視頻理解還是多模態(tài)任務,BlendServe均展現(xiàn)出穩(wěn)定的性能優(yōu)勢。
這些突破為離線推理任務提供了全新的解決方案,特別是在大規(guī)模多模態(tài)數(shù)據(jù)處理中具有重要應用價值。
研究背景
在傳統(tǒng)的在線推理服務中,低延遲是首要目標,因此系統(tǒng)設計通常采用嚴格的“先到先服務”策略(FCFS)。然而,在離線批量推理場景中,延遲要求相對寬松,這為更靈活的請求調(diào)度和資源優(yōu)化提供了可能。近年來,隨著Transformer架構的普及,模型的輸入輸出長度變得更加多樣化,例如長上下文推理(如Tree of Thoughts)、復雜推理鏈路(如Chain of Thought)以及多模態(tài)擴展(如LWM、Unified-IO等)。
這種多樣性帶來了新的挑戰(zhàn):一方面,不同請求對計算資源(如 GPU 算力)和內(nèi)存帶寬的需求差異顯著;另一方面,現(xiàn)有技術(如NanoFlow)雖然嘗試通過操作級重疊優(yōu)化資源使用,但忽略了請求間的資源互補性,導致整體性能受限。因此,如何在離線推理中實現(xiàn)高效資源調(diào)度成為了一個關鍵問題。
BlendServe正是從這一痛點切入,提出了一種兼顧資源重疊和前綴共享的全新調(diào)度方法,從而在保證高吞吐量的同時降低推理成本。
核心貢獻
方法創(chuàng)新:資源感知前綴樹
為了實現(xiàn)資源調(diào)度的全局優(yōu)化,BlendServe引入了一種新穎的資源感知前綴樹結構。這一結構不僅能夠捕獲請求之間的前綴共享關系,還能通過節(jié)點的計算密度值量化其資源需求特性。具體而言:
計算密度定義:計算密度(ρ(r))是計算時間與內(nèi)存綁定操作時間的比值。通過這一指標,系統(tǒng)能夠區(qū)分計算密集型和內(nèi)存密集型請求,并將其分別排列在樹的左側和右側。雙掃描算法:在排序后的前綴樹上,BlendServe采用一種啟發(fā)式雙掃描算法,從左至右和從右至左同時掃描葉子節(jié)點,動態(tài)構建混合型請求批次。這種方法確保了計算與內(nèi)存資源的均衡使用,同時保留了高前綴共享率。
實驗結果表明,相較于僅依賴深度優(yōu)先搜索(DFS)的傳統(tǒng)方法,BlendServe在吞吐量上平均提升了 20.84% (基準:NanoFlow-DFS)。
理論突破:前綴共享與資源重疊的權衡
傳統(tǒng)方法通常在前綴共享和資源重疊之間存在權衡:追求高前綴共享率可能導致資源分配不均,而單純優(yōu)化資源重疊則可能犧牲前綴共享帶來的性能增益。BlendServe通過理論建模解決了這一問題:
首先,系統(tǒng)基于計算密度對請求進行分層排序,確保計算密集型和內(nèi)存密集型請求的分布均勻。其次,通過動態(tài)調(diào)整 GPU 內(nèi)存分區(qū),系統(tǒng)能夠在每個批次內(nèi)實現(xiàn)最佳資源重疊比例(即計算密度接近 1),從而最大化硬件利用率。
在實際測試中,BlendServe達到了 86.55% 的理論最優(yōu)吞吐量,顯著優(yōu)于現(xiàn)有基線。
實證成果:廣泛適用的性能提升
研究團隊在多個合成工作負載上驗證了BlendServe的性能,包括WildChat、ShareGPT、Azure-Trace和OpenVid等代表性數(shù)據(jù)集。結果顯示:
在高前綴共享率場景下,系統(tǒng)性能穩(wěn)定,吞吐量提升幅度達 19.34%-22.65% 。在低前綴共享率場景下,系統(tǒng)仍能通過高效的資源重疊策略實現(xiàn) 14%-34% 的性能提升。
此外,BlendServe的靈活性使其適用于分布式環(huán)境,能夠輕松擴展至多 GPU 或多節(jié)點部署,契合當前大規(guī)模推理服務的發(fā)展趨勢。
行業(yè)意義
BlendServe的研究成果不僅為離線推理任務提供了全新的思路,還對整個 AI 推理服務領域產(chǎn)生了深遠影響:
推動多模態(tài)推理發(fā)展:隨著多模態(tài)模型(如EMU、VILA-U)的興起,推理系統(tǒng)需要處理更加復雜的資源需求。BlendServe的資源感知機制為這類任務提供了高效解決方案,有助于進一步降低計算成本。契合綠色計算趨勢:通過提高硬件利用率,BlendServe能夠顯著減少推理任務的能耗,符合碳中和政策導向,助力綠色數(shù)據(jù)中心建設。引領技術變革:該研究為未來的推理系統(tǒng)設計提供了重要參考,特別是在分布式環(huán)境下的資源調(diào)度優(yōu)化方面,有望推動新一代推理框架的誕生。結語
BlendServe以其獨特的資源感知批處理策略,成功突破了離線推理中的資源調(diào)度瓶頸,為多模態(tài)任務和大規(guī)模推理服務帶來了顯著的性能提升。未來,隨著更多應用場景的落地,這一技術有望成為 AI 推理領域的核心工具之一,為行業(yè)帶來更大的變革力量。
???? 論文鏈接:
https://arxiv.org/abs/2411.16102
第一作者Yilong Zhao和Shuo Yang深耕AI 系統(tǒng)優(yōu)化領域多年,曾參與多項高性能計算與機器學習系統(tǒng)的研究項目。本研究得到了加州大學伯克利分校、華盛頓大學以及 xAI 實驗室的聯(lián)合支持。
-- 完 --
原文標題 : 聊聊大模型推理系統(tǒng)之 BlendServe:通過資源感知批處理策略,最大化硬件資源利用率和推理吞吐量

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字