前篇文章中『伺服器散熱效能不佳有解嗎?專家建議這麼做』提到氣冷式的伺服器其散熱效能對於系統穩定度是非常重要的關鍵因素,同時也說明了百佳泰對於散熱效能能提供的協助與服務。

本篇將為您延伸說明百佳泰如何進行評估,同時也會舉例在測試過程中發現的問題及改善後的數據。

AI伺服器的散熱架構三大重點:

  1. GPU導風罩:嘗試不同的GPU導風罩架構,用以集中伺服器進風量,加強對GPU的降溫效果。
  2. GPU托盤:改動GPU托盤架構,驗證出風面積大小對GPU散熱的影想程度。
  3. CPU導風罩:嘗試封閉CPU導風罩間隙,集中風流,驗證CPU降溫效果。

百佳泰專業技術團隊會先與您討論現況,並實際確認散熱架構後,將開始進行溫度監控的熱電偶佈點,完成佈點後,開始執行加壓程式及溫度數據的收集。加壓過程中會有不同部件的加壓(ex. GPU or CPU)及加壓的程度 (ex. 30%~100%),同時也會嘗試對風扇的轉速控制或製造風扇的故障來模擬各種情境以收集相關的數據做分析,以確保伺服器在遇到突發狀況時仍能夠保持散熱的穩定性。

百佳泰針對此專案嘗試了兩個散熱架構的數據收集,經過分析後確認散熱架構1的表現較符合預期,測試結果如下圖:

在數據收集的過程中,我們也發現了一個異常的現象,在收集PSU佈點的電熱偶數據中發現:溫度的曲線並非是越靠近中心溫度越高,有兩個點呈現相反的狀態。經過分析、與客戶討論後找出其實際原因是因為熱風回流所導致,而發生的地方就是在PSU附近的機殼側面或縫隙。數據資料及過程如下:

改善前PSU溫度異常 : 靠近核心的Temperature_2溫度竟低於外側溫度Temperature_1 ➔ 可能的原因為機構設計導致積熱/熱回流等散熱問題

改善後系統PSU溫度正常 : PSU核心Temperature_3溫度 > 靠近核心的Temperature_2溫度 > 外側溫度Temperature_1

百佳泰對於伺服器散熱架構的評估服務有豐富的經驗及相關的能力,能夠協助客戶在最短時間內完成各種架構的評估及最終方案的選定。同時,百佳泰亦建置下列各種不同熱負載的Walk-in Chamber,能滿足各類型的伺服器進行散熱架構評估。

  1. 13KW Walk-in Chamber
    • Temperature Range: -20 ℃ ~ 80 ℃
  2. 20KW Walk-in Chamber
    • Temperature Range: -40 ℃ ~ 150 ℃
  3. 65KW Walk-in Chamber
    • Temperature Range: -40 ℃ ~ 90 ℃

一站式客製化顧問諮詢,有效改善伺服器散熱效能

若您對於伺服器散熱相關的顧問服務有進一步需求,歡迎填寫表單與我們聯繫,百佳泰服務團隊將誠摯為您服務!更深入、更有效的解決方案,敬請期待下集文章!

百佳泰致力於提供客戶Faster、Easier、Better的高品質服務體驗

 

聯繫表單

Contact Us

百佳泰 LINE官方帳號

延伸閱讀