發布地址: 上海
關注我們
全球約有12,000個數據中心,并且越來越多的數據中心正在被新建或改造,以專門處理AI工作負載。高功率對于此類運營至關重要,并且與所有尺寸的計算電子設備一樣,冷卻散熱問題顯得尤為重要。
埃隆·馬斯克的xAI團隊在短短幾個月內就將孟菲斯郊外的一座工廠改造成了一個尖端的、擁有10萬GPU的數據中心,用于訓練Colossus超級計算機——Grok聊天機器人的家。Colossus僅用了19天就安裝了首批10萬塊芯片。如今,它運行著20萬塊GPU,并計劃在2025年底前達到100萬塊GPU。
圖1 – 埃隆·馬斯克位于田納西州孟菲斯附近、占地100萬平方英尺的xAI Colossus超級計算機設施。
生成式AI (GenAI)
數據中心增長的一個關鍵驅動力是生成式人工智能(GenAI)——利用深度學習技術創建文本、圖像、音頻、視頻和代碼的AI。聊天機器人和大型語言模型ChatGPT是GenAI的實例,能夠根據文本描述生成圖像的文生圖模型也是。
管理這一切依賴于新一代處理器,主要是GPU。它們都消耗更高的電力并產生更多的熱量。
圖2 – 先進的AI處理器,英偉達GH200 Grace Hopper超級芯片,集成CPU以提高速度和性能。
AI數據中心優先考慮高性能計算(HPC)硬件:GPU、FPGA、ASIC和超高速網絡。與CPU(150-200瓦)相比,當今的AI GPU通常運行功率>1000瓦。為了實時處理海量數據集和復雜計算,它們需要強大的電力和冷卻基礎設施。
數據中心冷卻基礎知識
傳統的暖通空調(HVAC)對于舊式CPU驅動的數據中心來說已經足夠。當今的AI GPU在芯片層面和整個設施層面都要求遠高于以往的冷卻能力。這推動了對更高效熱管理系統的需求,無論是微觀層面(服務器板和芯片)還是宏觀層面(服務器機架和整個設施)。
圖3 – Colossus AI超級計算機現運行20萬塊GPU。其運行功率為150兆瓦,相當于8萬戶家庭的用電量。
在Colossus,超微(Supermicro)4U服務器容納了英偉達Hopper GPU,并通過以下方式冷卻:
冷板 (Cold plates)
冷卻液分配分流器 (Coolant distribution manifolds)(每臺服務器之間放置一個1U分流器)
冷卻液分配單元 (CDUs),每個機架底部配備冗余泵
每臺4U服務器配備八塊英偉達H100 Tensor Core GPU。每個機架包含八臺4U服務器,總計每機架64塊GPU。
每臺服務器之間有一個用于液冷的1U分流器。它們連接到位于每個機架底部的CDU(熱交換冷卻液分配單元),這些CDU包含冗余泵系統。冷卻液的選擇取決于一系列硬件和環境因素。
圖4 – 每個Colossus機架包含八臺4U服務器,總計每機架64塊GPU。每臺服務器之間是一個用于液冷的1U分流器。
圖5 – 每個機架底部都有一個帶冗余液冷的4U CDU泵送系統。
冷卻風扇的作用
風扇對于DIMM內存條、電源、控制器和網卡(NIC)仍然至關重要。
圖6 – 后門液冷熱交換器。
在Colossus,服務器內的風扇從機架前部吸入較冷的空氣,并在服務器后部排出熱空氣。隨后,這些熱空氣被吸入后門熱交換器。熱交換器使熱空氣通過液冷、帶鰭片的熱交換器/散熱器,在其離開機架之前降低其溫度。
直接芯片冷卻 (Direct-to-Chip Cooling)
英偉達的DGX H100和H200服務器系統配備八塊GPU和兩塊CPU,必須在5°C至30°C之間運行。一個具有高機架密度的AI數據中心容納著數千個這樣的系統,在最大負載下執行HPC任務。這就需要直接的液冷解決方案。
圖7 – 一個配備八塊GPU的英偉達DGX H100/H200系統 。
圖8 – 英偉達H100 SmartPlate連接到液冷系統,提供微對流芯片級冷卻,性能比風冷高82%。
直接液冷(冷板接觸GPU芯片)是最有效的方法——性能比風冷高出82%。它是H100或GH200高密度部署的首選方案。
可擴展的冷卻模塊 (Scalable Cooling Modules)
Colossus代表著全球最大的液冷AI集群,采用英偉達+超微技術。對于較小的AI數據中心,冷卻分配模塊(CDMs)提供了一個緊湊、自成一體的解決方案。
圖9 – ATS公司的iCDM-X冷卻分配模塊包含泵、熱交換器和液態冷卻劑,用于管理AI GPU及其他組件的熱量。
大多數AI數據中心規模較小,電力和冷卻需求較低,但冷卻仍然至關重要。許多散熱問題可以使用獨立的冷卻分配模塊來解決。
緊湊型iCDM-X冷卻分配模塊可為各種AI GPU及其他芯片提供高達1.6兆瓦的冷卻能力。該模塊測量并記錄所有重要的液冷參數。它僅消耗3千瓦功率,且無需外部冷卻劑。
這些模塊包括:泵、熱交換器、冷板、數字監控(溫度、壓力、流量)。
它們唯一的外部組件是一個或多個從AI芯片散熱的冷板。ATS提供業內領先的定制和標準冷板選擇,包括高性能的ICEcrystal系列。
圖10 – ATS的ICEcrystal冷板系列直接在AI芯片熱點處提供1.5千瓦的射流沖擊液冷。
冷卻邊緣AI和嵌入式應用 (Cooling Edge AI and Embedded Applications)
AI不僅適用于大型數據中心——邊緣AI、機器人和嵌入式系統(例如英偉達Jetson Orin、AMD Kria K26)使用的處理器功率通常在100瓦以下。這些處理器可以通過Advanced Thermal Solutions等供應商提供的散熱器和風扇散熱器進行有效冷卻。
圖11 – 用于嵌入式及邊緣應用中英偉達和AMD AI處理器的高性能散熱器。
英偉達還與聯想合作,聯想的第六代海王星(Neptune)冷卻系統使其ThinkSystem SC777 V4服務器能夠實現全液冷(無風扇)——目標是為配備英偉達Blackwell + GB200 GPU的企業部署提供支持。
圖12 – 聯想的海王星直接水冷系統從電源中移除熱量,實現完全無風扇運行。
海王星系統帶來的優勢包括:
全系統冷卻(GPU、CPU、內存、I/O、存儲、穩壓器)
高效支持10萬億參數模型
提升性能、能效和可靠性
隨著需求激增,AI數據中心已成為主要的建設重點。歷史上,冷卻問題是數據中心停機的第二大原因(僅次于電力問題)。
文章來源:《數據中心液冷系統技術規程》
版權聲明: 我們尊重原創,也樂于分享。
若涉及版權問題,敬請第一時間聯系我司4001100509進行刪除處理,謝謝!
關注微信公眾號
免費查看免費推送