當(dāng)前AI超大模型的參數(shù)已達(dá)千億甚至萬(wàn)億級(jí)別,組網(wǎng)規(guī)模的大幅增長(zhǎng),導(dǎo)致網(wǎng)絡(luò)管理更加復(fù)雜,擁塞控制、負(fù)載均衡的難度增加等問(wèn)題,為智算中心發(fā)展帶來(lái)嚴(yán)峻挑戰(zhàn)。
在AI大模型訓(xùn)練場(chǎng)景下,機(jī)內(nèi)與機(jī)外的集合通信操作產(chǎn)生大量通信數(shù)據(jù)。服務(wù)器內(nèi)GPU要求支持高速互聯(lián)協(xié)議,機(jī)間GPU的高速互聯(lián)對(duì)網(wǎng)絡(luò)的單端口帶寬、節(jié)點(diǎn)間的可用鏈路數(shù)量,及網(wǎng)絡(luò)總帶寬提出了更高需求。
AI大模型訓(xùn)練中集群規(guī)模更大,進(jìn)一步增大配置的復(fù)雜度,如何實(shí)現(xiàn)多臺(tái)并行部署配置、自動(dòng)選擇擁塞控制機(jī)制相關(guān)參數(shù),以及根據(jù)網(wǎng)卡類型與業(yè)務(wù)類型選擇相關(guān)配置等自動(dòng)化部署,是智算中心發(fā)展面臨的又一大挑戰(zhàn)。
智算中心的建設(shè)往往側(cè)重于前期投資,忽視運(yùn)營(yíng)模式的可持續(xù)性。高效的維保服務(wù)也是對(duì)智算中心可持續(xù)運(yùn)行的保障,智算中的運(yùn)營(yíng)與維保是目前亟待解決的問(wèn)題。