華為最近推出了最新的 AI 系統架構CloudMatrix 384 Supernode,此系統使用了多達384顆Ascend 910C晶片,總計算力達到300 PFLOPS,性能相較於NVIDIA的GB200 NVL72提升了約1.7倍。這一技術是中國針對美國晶片禁令的重要回應。然而,此技術以增加數量來提升性能的策略也帶來了高耗電的問題,其總功耗是競爭者的近4倍。
CloudMatrix 384 Supernode已經在中國安徽蕪湖市的數據中心部署。華為將此系統定義為「原子能級」的AI解決方案,主要競爭對象是NVIDIA的NVL72架構。NVL72配備72顆Blackwell GPU,通過高速NVLink互連,整體算力達180 PFLOPS。雖然單顆Ascend 910C的效能約為Blackwell的三分之一,但華為通過增加五倍的硬體數量,並搭配3.6倍的記憶體容量和2.1倍的記憶體頻寬,成功超越NVIDIA的旗艦系統。
華為還計劃與中國AI初創企業SiliconFlow合作,利用CloudMatrix架構支援中國自研推理模型DeepSeek-R1。這項部署顯示中國正在實現AI計算基礎設施的自主化,有助於加強中美科技對抗的局面。
儘管CloudMatrix 384在系統層面展現了工程創新,包括大規模光學互連和軟件優化,但其效能在耗電方面相對低下。總功耗是NVL72的3.9倍,每FLOP的耗電量是其2.3倍,每TB/S記憶體頻寬下的耗電為1.8倍,而記憶體容量的耗電比則為1.1倍。在中國,由於電力供應足夠,這種效能差異並未構成重大限制。
根據分析,中國的電力供應主要依賴燃煤發電,並正在快速擴展太陽能、水力、風能和核能。中國自2011年以來新增的電網容量已經相當於美國電網的總規模,這種電力優勢使中國能夠以犧牲效率的方式擴大AI計算的能力。
報告指出,CloudMatrix架構使用了16個機櫃,其中12個為運算櫃,裝載32顆Ascend晶片,其餘4個作為光學互連核心。整體系統使用6,912個400G LPO光模組來提升互連密度和延展能力,這類設計與NVIDIA曾計劃但未量產的DGX H100 NVL256「Ranger」架構有相似之處。
需注意的是,儘管Ascend 910C由華為完全設計,其生產仍高度依賴國外供應鏈,包括來自韓國的HBM高頻寬記憶體、台灣TSMC提供的晶圓,以及美國、荷蘭和日本製的半導體制造設備。據說華為透過第三方公司從TSMC採購約2.9百萬顆晶圓裸晶,還與三星合作獲得大量HBM供應。
雖然中國本土的SMIC技術尚未完全追上先進製程,但正在上海、深圳及北京擴充產能,預計今年月產量將達5萬片晶圓。若能持續獲得外國供應的光阻材料與維護支援,SMIC的產量仍有上升空間。
總結來看,CloudMatrix 384展示出中國透過系統整合來補足晶片製造短板的策略。即便單晶片效能不及NVIDIA,華為透過大規模堆疊與光學網絡擴展,實現了整體計算性能的提升,並縮小與西方科技巨頭的差距。未來的挑戰在於如何增強供應鏈的自主性及提高製造良率。