AI與高速運算時代來臨:採購白牌伺服器會有什麼潛在風險?

隨著32GT/s 的PCIe 5.0產品問市後,高速運算及AI人工智慧開始顯露出其效能,特別是生成式AI更迅速地融入進入人們的日常生活,逐漸在各產業扮演重要角色,同時也帶動對高速服務的依賴需求不斷增長。這個效應帶動了伺服器產業的持續成長,同時也加速了伺服器的世代升級周期縮短。

客製化數量不大的白牌市場或DIY伺服器市場客戶在採購時,通常會考量到成本因素,因此會分散採購後,再客製化組成所需的系統規格,其中機殼、主機板及儲存裝置更是系統穩定性與否的重要關鍵部分,但隨著主機板開始導入高速的PCIe 5.0技術後,此類型的伺服器將面臨更嚴峻的潛在風險挑戰。

白牌伺服器五大潛在風險

1. 散熱不平均

支援PCIe 5.0的CPU,其TDP(Thermal Design Power)都大於350W以上,對散熱要求非常高!不同的主機板其CPU設計的位置也不同,不一定能跟機殼風扇完全對應,此時就會引發CPU的散熱不平均問題。

2. 機殼風扇效能不夠

當CPU的TDP大於350W時,通常必須搭配高轉速或高電流的風扇來滿足其散熱需求,當機殼廠商所安裝的風扇規格不夠時,就會導致整體散熱效能不足,造成系統溫度不斷升高,影響運算存取速度,甚至嚴重致系統熱當機。

Source:雙鴻、富果研究部

3. Cable走線無法最佳化

由於機殼與主機板是分開採購,主機板的連接器位置可能與機殼設計的走線不一致,這時就會造成散熱風流的干擾,也會降低散熱的效能,此類風險問題較不容易於第一時間察覺。

4. 內部線材品質問題

進入高速的PCIe 5.0時,對於纜線的高頻特性要求非常的高,通常機殼廠商對於高頻技術並不專業,此時所配置的纜線有可能因為高頻特性不佳而導致系統效能降低。

5. 高頻背板設計挑戰

同樣的情境還會引發另一個潛在問題,因機殼廠商對高頻技術並不專業,因此在設計儲存裝置的背板時會面臨極高的挑戰,如Impedance mismatch、Insertion loss/Return loss過大及Cross talk等問題的產生,導致訊號干擾過多而降低伺服器效能及系統穩定性。

上述的潛在風險,除了會導致系統效能大幅降低、CPU壽命縮短及系統不穩定外,更嚴重時將導致系統不斷重啟、關機或熱當機。所影響的會是佈署在伺服器上的應用服務狀態長時間不穩定或中斷服務,甚至造成資料的流失,這些將會造成嚴重的使用者負面體驗,並引起眾多客訴,進而影響業績及客戶整體數量,品牌的聲望也岌岌可危。

百佳泰使用者可靠度模擬解決方案

百佳泰針對這些潛在風險,提供一個使用者可靠度模擬解決方案來驗證,確保伺服器的出貨品質,可靠度模擬可根據下面四個方向去做規劃及評估:

百佳泰會參考伺服器硬體的工作溫度上下限,再衡量其應用情境,規劃出不同的高低溫循環週期,以確認在循環的高溫期間或低溫期間伺服器運作狀態。

此外,百佳泰也會參考此伺服器所佈署的應用服務類型來規劃工作負戴的項目及強度,例如:針對高速運算伺服器加強CPU & DDR負載、針對資料儲存伺服器則加強Storage負載等。每個工作負載驗證週期都會再次確認各部位的功能狀態,同步我們也會詳細記錄每個結果報告,可運用此份報告比對其效能是否有任何異常變化。

Faster, Easier, Better!您最佳的伺服器生態應用顧問

百佳泰身為高頻高速生態及應用顧問公司,具備完整的設備環境及豐富的專案經驗,能夠提供Faster/Easier/Better的高品質服務:

Faster:
1. 具有完善的各型式Temperature Chamber,溫度範圍為-100C~+200C、內部空間最大的步進式可支援三座52U機櫃置放、熱負載最大可達65KW。
2. 擁有豐富的專案經驗,能在最短的時間內規劃其解決方案並執行。

Easier:
1. 可靠度模擬解決方案只需要3-5天即能驗證上述可能的潛在風險,不需要花費大量的金錢與時間。
2. 如果驗證出問題,百佳泰可提供Problem isolation、Debug support及solution suggestion讓您快速找出問題並解決。

Better:
1. 百佳泰也可以利用可靠度模擬解決方案提供伺服器生命週期的評估,讓您能預估伺服器運作的年限並做佈署計劃。
2. 百佳泰可以跟您合作在關鍵組件的品質做把關,提前預防可能的潛在風險並把發生機率降到最低。

百佳泰致力於提供客戶Faster、Easier、Better的高品質服務體驗

若您對於伺服器生態圈有任何測試、驗證或是顧問諮詢服務有相關的進一步需求,歡迎線上瀏覽以下服務,或是透過線上表單與我們聯繫,百佳泰服務團隊將誠摯為您服務!

百佳泰 LINE官方帳號

延伸閱讀