項目概況
項目背景
某知名AI企業正在建設基礎硬件平臺,目的是為科研機構、初創企業和開發者提供靈活的算力支持,構建互聯互通的AI創新生態,推動民生應用發展。
隨著越來越多AI初創者的加入和越來越多大模型方向的項目開展,現有算力平臺資源難以為繼,項目間的資源爭搶已成常態,嚴重影響了多個項目的研發進度。為此,公司亟需進行現有算力平臺升級,同時考慮到新建數據中心PUE要求,液冷方案成為客戶首選。
解決方案
面對客戶需求,提供定制化智算解決方案,包括CPU、GPU、存儲和網絡模塊,以滿足客戶的特定算力需求,避免標準化方案中的性能過剩和額外成本。通過創新的液冷改造及建設方案,不僅實現了低于1.1的全年平均PUE,還大幅擺脫了室內環境溫度依賴,無需增設列間空調等設備,極大降低了系統整體能耗及建設投入成本。同時,部署了PlatforMax平臺,統一管理和調度算力資源,通過圖形化界面實時監控使用情況,支持分布式訓練和細粒度資源管理。通過資源配額及多級權限設置,實際需求用戶可在線進行資源的分鐘級申請及快速提取,有效避免內部資源使用矛盾,使整體算力資源得到更合理、更高效使用。

客戶價值
通過液冷升級,不僅幫助客戶將全年平均PUE從原來的1.5降低到了1.1以下,更進一步保障了關鍵算力芯片的穩定性(最高溫度較風冷下降約20%),規避了超溫下降頻、掉卡造成的算力衰減問題。通過PlatforMax下的資源統一化管理,解決了多項目間資源爭奪問題同時,帶來了運維成本的縮減,整體運維效率提升達到90%以上。