方案背景
深度學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)重要學(xué)科。從人類(lèi)發(fā)明計(jì)算機(jī)開(kāi)始,就一直嘗試讓計(jì)算機(jī)具有學(xué)習(xí)的能力,特別是從20世紀(jì)80年代以來(lái),深度學(xué)習(xí)在算法、理論和應(yīng)用等方面都獲得巨大成功。2006 年以來(lái),“深度學(xué)習(xí)”開(kāi)始成為一個(gè)新的科研熱點(diǎn),目前已經(jīng)深入到很多行業(yè),在很多應(yīng)用領(lǐng)域獲得成功,相關(guān)的研究工作也得到了大力推廣。
HPC應(yīng)用往往基于第一性原理的探索,在面對(duì)大量的數(shù)據(jù)庫(kù)數(shù)據(jù)和樣本數(shù)據(jù)時(shí),對(duì)于數(shù)據(jù)的處理顯得有些捉襟見(jiàn)肘,同時(shí)對(duì)于大量的仿真結(jié)果與大量計(jì)算結(jié)果數(shù)值的分析,也需要更多的時(shí)間完成,但AI是基于大量數(shù)據(jù)結(jié)合算法誕生的技術(shù),擅長(zhǎng)對(duì)于大量樣本數(shù)據(jù)的提取,同時(shí)對(duì)于大量仿真結(jié)果與計(jì)算結(jié)果的加速分析,用AI的方式處理HPC任務(wù)時(shí),不僅可以有效處理樣本數(shù)據(jù),對(duì)于得到的大量計(jì)算結(jié)果,可以利用AI的迭代細(xì)化的底層模型,完成大量結(jié)果的快速分析計(jì)算,實(shí)現(xiàn)降本增效。同時(shí)HPC的大量結(jié)果數(shù)據(jù)又可以為AI提供原始數(shù)據(jù),為模型的預(yù)測(cè)提供更好的支持,二者相輔相成。
大模型的誕生源于深度學(xué)習(xí)與大數(shù)據(jù)、大算力的結(jié)合。2017年Transformer架構(gòu)提出后,模型規(guī)模迅速擴(kuò)大。以2018年BERT、2020年GPT-3為代表,大模型展現(xiàn)出強(qiáng)大語(yǔ)言理解和生成能力,隨著Deepseek、千問(wèn)等優(yōu)質(zhì)大模型的發(fā)布,人工智能領(lǐng)域算力提升、海量互聯(lián)網(wǎng)文本積累及自監(jiān)督學(xué)習(xí)技術(shù)進(jìn)步,共同推動(dòng)了大模型快速發(fā)展,并廣泛應(yīng)用于搜索、對(duì)話(huà)、創(chuàng)作等領(lǐng)域。
HPC應(yīng)用往往基于第一性原理的探索,在面對(duì)大量的數(shù)據(jù)庫(kù)數(shù)據(jù)和樣本數(shù)據(jù)時(shí),對(duì)于數(shù)據(jù)的處理顯得有些捉襟見(jiàn)肘,同時(shí)對(duì)于大量的仿真結(jié)果與大量計(jì)算結(jié)果數(shù)值的分析,也需要更多的時(shí)間完成,但AI是基于大量數(shù)據(jù)結(jié)合算法誕生的技術(shù),擅長(zhǎng)對(duì)于大量樣本數(shù)據(jù)的提取,同時(shí)對(duì)于大量仿真結(jié)果與計(jì)算結(jié)果的加速分析,用AI的方式處理HPC任務(wù)時(shí),不僅可以有效處理樣本數(shù)據(jù),對(duì)于得到的大量計(jì)算結(jié)果,可以利用AI的迭代細(xì)化的底層模型,完成大量結(jié)果的快速分析計(jì)算,實(shí)現(xiàn)降本增效。同時(shí)HPC的大量結(jié)果數(shù)據(jù)又可以為AI提供原始數(shù)據(jù),為模型的預(yù)測(cè)提供更好的支持,二者相輔相成。
大模型的誕生源于深度學(xué)習(xí)與大數(shù)據(jù)、大算力的結(jié)合。2017年Transformer架構(gòu)提出后,模型規(guī)模迅速擴(kuò)大。以2018年BERT、2020年GPT-3為代表,大模型展現(xiàn)出強(qiáng)大語(yǔ)言理解和生成能力,隨著Deepseek、千問(wèn)等優(yōu)質(zhì)大模型的發(fā)布,人工智能領(lǐng)域算力提升、海量互聯(lián)網(wǎng)文本積累及自監(jiān)督學(xué)習(xí)技術(shù)進(jìn)步,共同推動(dòng)了大模型快速發(fā)展,并廣泛應(yīng)用于搜索、對(duì)話(huà)、創(chuàng)作等領(lǐng)域。
應(yīng)用領(lǐng)域
用戶(hù)價(jià)值
算力靈活擴(kuò)展
一體機(jī)計(jì)算能力可根據(jù)用戶(hù)需求靈活調(diào)配,可支持單機(jī)環(huán)境深度學(xué)習(xí)全流程設(shè)計(jì)或HPC單機(jī)計(jì)算,也可根據(jù)用戶(hù)算力需求擴(kuò)展為單柜或多柜的分布式AI、HPC、大模型任務(wù),適應(yīng)不用應(yīng)用場(chǎng)景及用戶(hù)對(duì)于計(jì)算的需求。
智能管理監(jiān)控
一體機(jī)可實(shí)時(shí)監(jiān)控系統(tǒng)資源、節(jié)點(diǎn)狀態(tài)、任務(wù)運(yùn)行情況,通過(guò)圖形化界面,從分區(qū)、用戶(hù)、集群等各個(gè)層次和維度展示當(dāng)前CPU、GPU等使用率、使用趨勢(shì)、配額雷達(dá)圖、任務(wù)運(yùn)行概況;平臺(tái)通過(guò)折線(xiàn)圖、旭日?qǐng)D、直方圖、分布雷達(dá)圖、桑基圖、氣泡圖等多種監(jiān)控、統(tǒng)計(jì)方式,滿(mǎn)足不同用戶(hù)使用需求。
AI+HPC+大模型作業(yè)管理
用戶(hù)可以提交配置調(diào)試任務(wù)、HPC、交互式開(kāi)發(fā)任務(wù)、AI任務(wù)以及快速部署GPU Stack和Dify,完成從配置、腳本、代碼驗(yàn)證到AI、HPC、大模型的運(yùn)行,同時(shí)展示AI、HPC作業(yè)、大模型的任務(wù)名稱(chēng)、節(jié)點(diǎn)、分區(qū)、項(xiàng)目、狀態(tài)、以及對(duì)任務(wù)的操作。
高效數(shù)據(jù)存儲(chǔ)
采用軟件定義存儲(chǔ),通過(guò)分布式存儲(chǔ)系統(tǒng)構(gòu)建統(tǒng)一存儲(chǔ)資源池,支持塊、文件、對(duì)象等多種存儲(chǔ)協(xié)議,滿(mǎn)足業(yè)務(wù)平臺(tái)的存儲(chǔ)需求,可實(shí)現(xiàn)統(tǒng)一管理,實(shí)現(xiàn)簡(jiǎn)化運(yùn)維。分布式存儲(chǔ)支持IB高速網(wǎng)絡(luò)和RDMA,數(shù)據(jù)讀寫(xiě)效率高。
產(chǎn)品特點(diǎn)
算力靈活擴(kuò)展
一體機(jī)計(jì)算能力可根據(jù)用戶(hù)需求靈活調(diào)配,可支持單機(jī)環(huán)境深度學(xué)習(xí)全流程設(shè)計(jì)或HPC單機(jī)計(jì)算,也可根據(jù)用戶(hù)算力需求擴(kuò)展為單柜或多柜的分布式AI或HPC任務(wù),適應(yīng)不用應(yīng)用場(chǎng)景及用戶(hù)對(duì)于計(jì)算的需求。
智能管理監(jiān)控
一體機(jī)可實(shí)時(shí)監(jiān)控管理集群資源使用情況和硬件狀態(tài),包括任務(wù)監(jiān)控、GPU使用看板、節(jié)點(diǎn)健康等,并提供用戶(hù)、集群、分區(qū)、節(jié)點(diǎn)維度的詳細(xì)使用報(bào)表,大幅提高資源使用效率,用戶(hù)通過(guò)遠(yuǎn)程控制臺(tái)監(jiān)控一體機(jī)的運(yùn)行和健康狀態(tài)。
AI+HPC作業(yè)管理
用戶(hù)可以在線(xiàn)提交配置調(diào)試任務(wù)、HPC、交互式開(kāi)發(fā)任務(wù)、AI任務(wù),完成從配置、腳本、代碼驗(yàn)證到AI及HPC的運(yùn)行,同時(shí)展示AI和HPC作業(yè)的任務(wù)名稱(chēng)、節(jié)點(diǎn)、分區(qū)、項(xiàng)目、狀態(tài)、以及對(duì)任務(wù)的操作。
高效數(shù)據(jù)存儲(chǔ)
采用軟件定義存儲(chǔ),通過(guò)分布式存儲(chǔ)系統(tǒng)構(gòu)建統(tǒng)一存儲(chǔ)資源池,支持塊、文件、對(duì)象等多種存儲(chǔ)協(xié)議,滿(mǎn)足業(yè)務(wù)平臺(tái)的存儲(chǔ)需求,可實(shí)現(xiàn)統(tǒng)一管理,實(shí)現(xiàn)簡(jiǎn)化運(yùn)維。分布式存儲(chǔ)支持IB高速網(wǎng)絡(luò)和RDMA,數(shù)據(jù)讀寫(xiě)效率高。
任務(wù)作業(yè) — 智算融合平臺(tái)
數(shù)據(jù)存儲(chǔ) — 分布式存儲(chǔ)系統(tǒng)
推薦機(jī)型