3月21日,中國本土AI創(chuàng)新企業(yè)寒武紀(jì)正式發(fā)布了新款訓(xùn)練加速卡“MLU370-X8”,搭載雙芯片四芯粒封裝的思元370,集成寒武紀(jì)MLU-Link多芯互聯(lián)技術(shù),主要面向AI訓(xùn)練任務(wù)。
寒武紀(jì)MLU370-X8智能加速卡首次整合了雙芯片四芯粒的思元370,也就是每張卡兩顆芯片,每顆芯片內(nèi)封裝兩個Die,因此可提供兩倍于思元370加速卡的內(nèi)存、編解碼資源。
架構(gòu)基于Cambricon MLUarch03,支持AI訓(xùn)練加速中常見的FP32、FP16、BF16、INT16、INT8、INT4數(shù)據(jù)格式計算,峰值性能分別為32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。
該卡采用7nm制造工藝,集成48GB LPDDR5內(nèi)存,內(nèi)存帶寬614.4GB/s,PCIe 4.0 x16系統(tǒng)接口,整卡最大訓(xùn)練功耗250W,全高全長雙插槽設(shè)計,系統(tǒng)被動散熱。
通過MLU-Link多芯互聯(lián)技術(shù),提供卡內(nèi)、卡間互聯(lián)功能,并專門設(shè)計了MLU-Link橋接卡,可實現(xiàn)4張加速卡為一組、8顆思元370芯片全互聯(lián)。
每張加速卡通訊吞吐性能200GB/s,帶寬為PCIe 4.0的大約3.1倍,可高效執(zhí)行多芯多卡訓(xùn)練、分布式推理任務(wù)。(作者:上方文Q)
關(guān)鍵詞: 寒武紀(jì)發(fā)布 全新AI訓(xùn)練GPU 八卡并行 最大訓(xùn)練功耗