PlatforMax 智能軟件平臺
PlatforMax是超集信息自主研發的面向人工智能+科學計算的容器云平臺,能夠實現異構資源的高效管理、調度和監控;覆蓋「模型開發→訓練→部署→推理」全流程,適配科學計算與大模型應用雙重場景;廣泛應用于教育、科研、金融、醫療、能源等需AI、HPC或融合場景的行業,及大模型落地場景:智能交互、輔助研究、行業解決方案構建;降低AI/HPC/大模型開發應用成本,提升研發與生產效率;實現「AI引導方向+HPC驗證結果+大模型加速創新」的閉環協同。

產品架構
-
基礎層基礎設施以硬件服務器為載體,支持主流 X86/C86 服務器,配置 NVIDIA GPU 適配大模型/高性能計算等高算力需求,采用主流分布式存儲設備,支持 TCP/IP,InfiniBand 高速網絡互聯。
-
平臺層平臺層是整個系統的核心內容,底層封裝了容器調度系統以及Slurm資源調度系統, 通過調度系統,分別調度AI及HPC任務資源,同時通過平臺預設的多種AI鏡像及HPC鏡像,可以快速提交任務,達到降低AI及HPC門檻,提高生產效率。

核心功能
集群管理
提供集群資源監控、集群節點管理、集群分區管理、用戶權限管理、數據存儲、任務鏡像等管理服務,對集群內資源進行HPC分區節點、AI分區節點的管理,采用圖形化表工作界面,菜單界面平滑直觀,功能化繁為簡,一目了然。

用戶管理
管理員對用戶和用戶組的CPU、GPU、內存和存儲配額進行設定,限定資源配額。系統具備管理員、分區用戶、項目用戶、普通用戶等多級多角色管理,用戶的數據存儲空間相互隔離,無法訪問未授權的數據,支持設置用戶有效期,以及批量導入用戶。

鏡像管理
平臺內置Tensorflow、PyTorch、MxNet、CUDA、Gromacs、NAMD、LAMPPS、PaddlePaddle、oneAPI等鏡像,還可連接NGC、Docker HUB等獲取鏡像,支持用戶上傳鏡像與自定義鏡像,滿足不同用戶對鏡像制作的要求。

數據存儲
平臺通過NFS實現統一的網絡文件存儲系統,支持多種單機,分布式等多種存儲方式,支持數據上傳、下載、刪除、壓縮、解壓、復制、移動和內容瀏覽等,不同用戶的私有數據相互隔離,用戶不同的項目數據之間相互隔離。

作業調度
平臺支持HPC、AI、大模型任務,AI任務可選單機或分布式任務,分布式任務支持容器之間SR-IOV高速虛擬網卡通信;HPC任務支持Web、Shell、命令行等方式提交任務,Slurm調度器根據資源需求,調度任務到最優節點,保障任務高效運行,平臺支持用戶快速部署GPU Stack和快速部署Dify。

監控中心
監控系統資源、節點狀態、任務運行情況,通過圖形化界面,從分區、用戶、集群等各個層次和維度展示當前CPU、GPU等使用率、使用趨勢、配額雷達圖、任務運行概況;平臺通過折線圖、旭日圖、直方圖、分布雷達圖、桑基圖、氣泡圖等多種監控、統計方式,滿足不同用戶使用需求。

推薦機型