PlatforMax 智能軟件平臺
PlatforMax是超集信息自主研發(fā)的面向人工智能+科學(xué)計算的容器云平臺,能夠?qū)崿F(xiàn)異構(gòu)資源的高效管理、調(diào)度和監(jiān)控;覆蓋「模型開發(fā)→訓(xùn)練→部署→推理」全流程,適配科學(xué)計算與大模型應(yīng)用雙重場景;廣泛應(yīng)用于教育、科研、金融、醫(yī)療、能源等需AI、HPC或融合場景的行業(yè),及大模型落地場景:智能交互、輔助研究、行業(yè)解決方案構(gòu)建;降低AI/HPC/大模型開發(fā)應(yīng)用成本,提升研發(fā)與生產(chǎn)效率;實現(xiàn)「AI引導(dǎo)方向+HPC驗證結(jié)果+大模型加速創(chuàng)新」的閉環(huán)協(xié)同。

產(chǎn)品架構(gòu)
-
基礎(chǔ)層基礎(chǔ)設(shè)施以硬件服務(wù)器為載體,支持主流 X86/C86 服務(wù)器,配置 NVIDIA GPU 適配大模型/高性能計算等高算力需求,采用主流分布式存儲設(shè)備,支持 TCP/IP,InfiniBand 高速網(wǎng)絡(luò)互聯(lián)。
-
平臺層平臺層是整個系統(tǒng)的核心內(nèi)容,底層封裝了容器調(diào)度系統(tǒng)以及Slurm資源調(diào)度系統(tǒng), 通過調(diào)度系統(tǒng),分別調(diào)度AI及HPC任務(wù)資源,同時通過平臺預(yù)設(shè)的多種AI鏡像及HPC鏡像,可以快速提交任務(wù),達到降低AI及HPC門檻,提高生產(chǎn)效率。

核心功能
集群管理
提供集群資源監(jiān)控、集群節(jié)點管理、集群分區(qū)管理、用戶權(quán)限管理、數(shù)據(jù)存儲、任務(wù)鏡像等管理服務(wù),對集群內(nèi)資源進行HPC分區(qū)節(jié)點、AI分區(qū)節(jié)點的管理,采用圖形化表工作界面,菜單界面平滑直觀,功能化繁為簡,一目了然。

用戶管理
管理員對用戶和用戶組的CPU、GPU、內(nèi)存和存儲配額進行設(shè)定,限定資源配額。系統(tǒng)具備管理員、分區(qū)用戶、項目用戶、普通用戶等多級多角色管理,用戶的數(shù)據(jù)存儲空間相互隔離,無法訪問未授權(quán)的數(shù)據(jù),支持設(shè)置用戶有效期,以及批量導(dǎo)入用戶。

鏡像管理
平臺內(nèi)置Tensorflow、PyTorch、MxNet、CUDA、Gromacs、NAMD、LAMPPS、PaddlePaddle、oneAPI等鏡像,還可連接NGC、Docker HUB等獲取鏡像,支持用戶上傳鏡像與自定義鏡像,滿足不同用戶對鏡像制作的要求。

數(shù)據(jù)存儲
平臺通過NFS實現(xiàn)統(tǒng)一的網(wǎng)絡(luò)文件存儲系統(tǒng),支持多種單機,分布式等多種存儲方式,支持?jǐn)?shù)據(jù)上傳、下載、刪除、壓縮、解壓、復(fù)制、移動和內(nèi)容瀏覽等,不同用戶的私有數(shù)據(jù)相互隔離,用戶不同的項目數(shù)據(jù)之間相互隔離。

作業(yè)調(diào)度
平臺支持HPC、AI、大模型任務(wù),AI任務(wù)可選單機或分布式任務(wù),分布式任務(wù)支持容器之間SR-IOV高速虛擬網(wǎng)卡通信;HPC任務(wù)支持Web、Shell、命令行等方式提交任務(wù),Slurm調(diào)度器根據(jù)資源需求,調(diào)度任務(wù)到最優(yōu)節(jié)點,保障任務(wù)高效運行,平臺支持用戶快速部署GPU Stack和快速部署Dify。

監(jiān)控中心
監(jiān)控系統(tǒng)資源、節(jié)點狀態(tài)、任務(wù)運行情況,通過圖形化界面,從分區(qū)、用戶、集群等各個層次和維度展示當(dāng)前CPU、GPU等使用率、使用趨勢、配額雷達圖、任務(wù)運行概況;平臺通過折線圖、旭日圖、直方圖、分布雷達圖、?;鶊D、氣泡圖等多種監(jiān)控、統(tǒng)計方式,滿足不同用戶使用需求。

推薦機型