加入收藏 設為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
數(shù)據(jù)中心功耗密度持續(xù)攀升,特別是用于人工智能和高性能計算的服務器,其單個芯片的熱流密度已逼近甚至超越風冷散熱的能力邊界。在此背景下,冷板式液冷作為一種解決方案,正從特定領域走向更廣泛的產(chǎn)業(yè)應用。
與服務器“浸沒”在冷卻液中的浸沒式液冷不同,冷板式方案將液體循環(huán)的路徑準確地引導至發(fā)熱核心部件,實現(xiàn)更為準確和可控的熱量移除。
1、技術(shù)背景:從“房間降溫”到“芯片直連”
傳統(tǒng)數(shù)據(jù)中心主要依賴空氣作為冷卻介質(zhì)。這種方式需要先將空氣降溫,再吹向設備,通過強制對流帶走熱量。但面對數(shù)百瓦乃至上千瓦功耗的CPU、GPU,空氣的比熱容低、導熱性一般的物理特性成為瓶頸。
空氣冷卻如同為整個房間開啟空調(diào)以降低人體體溫,而冷板式液冷則類似于為高燒患者佩戴冰帽,進行局部降溫。
其核心思路是將液態(tài)冷卻介質(zhì)通過密閉管路,直接輸送至發(fā)熱芯片的表面。液體(通常是水或特定介電流體)具有遠高于空氣的比熱容和導熱系數(shù),能夠在單位時間內(nèi)、單位面積上帶走更多的熱量,滿足高熱流密度芯片的散熱需求。
2、工作原理:間接接觸與熱交換
冷板式液冷之所以稱為“冷板”,關鍵在于其核心傳熱部件——液冷冷板。它的工作方式可以分解為幾個清晰的步驟:
首先,在服務器的內(nèi)部,發(fā)熱量大的關鍵部件(如CPU、GPU)的金屬頂蓋上,會安裝一塊內(nèi)部蝕刻有復雜微通道的金屬板,這就是冷板。冷板底部與芯片表面通過導熱材料(如導熱硅脂、導熱墊片)緊密貼合,確保熱接觸良好。
然后,循環(huán)冷卻液從外部管路泵入冷板內(nèi)部的微通道網(wǎng)絡。當冷卻液流經(jīng)這些通道時,與僅有一板之隔的高溫芯片進行熱交換,液體的溫度隨之上升,從而將芯片產(chǎn)生的熱量持續(xù)帶走。
最后,被加熱的冷卻液流出服務器,進入機房級別的循環(huán)系統(tǒng),將熱量傳遞給室外的冷卻塔或干冷器,降溫后再被泵回服務器冷板,形成一個閉合的、持續(xù)的散熱循環(huán)。
整個過程,液體與電子器件本身不直接接觸,而是在密封的金屬管路內(nèi)流動,避免了兼容性和絕緣性風險。
3、系統(tǒng)架構(gòu):從機架到數(shù)據(jù)中心的三層循環(huán)
一套完整的冷板式液冷系統(tǒng)并非只是服務器的內(nèi)部改造,它是一個涉及三個層級循環(huán)的系統(tǒng)工程。
第一層:服務器內(nèi)部循環(huán)
這是蕞貼近熱源的環(huán)節(jié)。在部分設計中,服務器內(nèi)部會有一個小型的、準確的泵和微型管路,負責將CDU分配過來的冷卻液,按需輸送給CPU、GPU等不同位置的冷板,形成一個服務器內(nèi)部的二次分配回路。
第二層:機架級分配循環(huán)
這是系統(tǒng)的關鍵樞紐,其核心設備是冷卻液分配單元。一臺CDU通常服務于一個或幾個機柜。CDU的主要功能包括:為機柜內(nèi)的服務器提供壓力和流量穩(wěn)定的冷卻液;過濾液體中的雜質(zhì);監(jiān)測液體的溫度、壓力和泄漏情況;并通過板式換熱器,將服務器循環(huán)回路的熱量傳遞給下級的機房循環(huán)回路。
CDU實現(xiàn)了兩個重要隔離:一是將服務器內(nèi)的循環(huán)與大樓級的粗獷循環(huán)隔離開,提升了可靠性;二是當使用水等導電液體作為機房級介質(zhì)時,CDU可通過換熱器確保去離子水在服務器內(nèi)循環(huán),保障了電氣安全。
第三層:機房級外循環(huán)
這是將熱量蕞終排出數(shù)據(jù)中心的環(huán)節(jié)。被CDU換熱器加熱的冷卻水(通常是水),通過水泵和管道輸送至機房外的散熱設施,如冷卻塔、干冷器或與樓宇空調(diào)系統(tǒng)結(jié)合,完成蕞終的熱量耗散。
4、設計考量:關鍵部件與工程權(quán)衡
實施冷板式液冷需要進行多方面的細致設計和權(quán)衡。
冷板本身的設計是核心,其內(nèi)部微通道的流道形狀、分布、壓降與散熱能力需要根據(jù)芯片的熱圖進行仿真優(yōu)化,力求在流動阻力、制造成本和散熱效果間取得平衡。
冷卻工質(zhì)的選擇也影響很大。去離子水因其高比熱容、低成本和易獲取成為主流選擇,但須嚴格監(jiān)控其電導率以防腐蝕和漏電。在一些特殊場景,也會使用介電流體。
系統(tǒng)的冗余設計和可靠性至關重要。CDU、泵、室外冷卻設備等都需要考慮N+1或備用配置,如同數(shù)據(jù)中心的供電系統(tǒng)一樣,防止單點故障導致服務器過熱。
與現(xiàn)有基礎設施的兼容與改造是需要面對的現(xiàn)實問題。新建數(shù)據(jù)中心可以整體規(guī)劃管路布局,而對現(xiàn)有風冷數(shù)據(jù)中心進行改造,則需要評估樓板承重、空間布局和管道敷設路徑。
5、應用特點與適用場景
冷板式液冷技術(shù)展現(xiàn)出的特點,決定了其應用方向。
它在散熱能力上具備優(yōu)勢,可穩(wěn)定支持單芯片功耗超過500瓦甚至更高的場景,輕松應對高密度計算集群的熱負荷。通常,采用該技術(shù)的數(shù)據(jù)中心,其電能利用效率有望降低至1.15甚至更優(yōu)的水平。
其次,它在部署上具有一定的靈活性。服務器可以采用部分液冷(僅冷卻CPU/GPU)+部分風冷(冷卻內(nèi)存、硬盤等其他部件)的混合模式,降低了技術(shù)導入的復雜度和風險。
從投資和運維角度看,其技術(shù)復雜性和初期投入高于傳統(tǒng)風冷系統(tǒng)。專用冷板、CDU、管路及監(jiān)控系統(tǒng)都增加了成本。運維團隊也需要掌握液體化學管理、管路維護等新技能。
因此,該技術(shù)當前主要應用于對算力密度和能效有明確需求的場景,例如人工智能訓練平臺、高性能計算中心、超大規(guī)模云數(shù)據(jù)中心的特定高密度機柜,以及軍事、科研等特殊領域。
6、未來展望:技術(shù)演進與生態(tài)成熟
冷板式液冷并非散熱技術(shù)的終點,而是通向更高熱管理路徑上的重要階段。隨著芯片功耗的持續(xù)增長,冷板的設計將更加精細化,與芯片封裝的結(jié)合可能更緊密。
未來,系統(tǒng)設計的標準化將是推動其規(guī);瘧玫年P鍵,包括冷板接口、快換接頭、CDU規(guī)格等方面的統(tǒng)一,可以降低成本并提升互操作性。
與此同時,智能化管理也將成為標準配置。通過傳感器監(jiān)測各路冷卻液的流量、溫度和壓力,結(jié)合服務器負載數(shù)據(jù),動態(tài)調(diào)整冷卻策略,實現(xiàn)從“充分冷卻”到“準確冷卻”的演進,進一步挖掘節(jié)能潛力。
當人工智能等前沿科技持續(xù)推高算力需求,服務器內(nèi)的熱量管理已從輔助課題變?yōu)楹诵奶魬?zhàn)之一。冷板式液冷技術(shù)通過將液體準確引至熱源,提供了一條可行的散熱路徑。
它背后反映的是數(shù)據(jù)中心基礎設施與IT技術(shù)協(xié)同演進的大趨勢,即在追求更高計算密度的同時,須構(gòu)建與之匹配的、更具針對性的物理環(huán)境支持系統(tǒng)。
關鍵詞: