12月18日,在光合組織2025人工智能創新大會(HAIC2025)上,中科曙光發布并展出了大規模智能計算系統——scaleX萬卡超集群,這也是國產萬卡級AI集群系統首次以真機形式亮相。
中科曙光高級副總裁李斌表示,面對人工智能基礎設施對性能、效率、可靠性、可擴展性等方面的極致需求,scaleX萬卡超集群在超節點架構、高速互連網絡、存儲性能優化、系統管理調度等方面實現了多項創新突破,部分技術與能力已超越海外同類產品研發路線圖的2027年NVL576里程節點,其核心技術優勢如下:
優勢1:全球首創單機柜級640卡超節點。scaleX萬卡超集群由16個曙光scaleX640超節點通過scaleFabric高速網絡互連而成,可實現10240塊AI加速卡部署,總算力規模超5EFlops。作為世界首個單機柜級640卡超節點,scaleX640采用超高密度刀片、浸沒相變液冷等技術,將單機柜算力密度提升20倍,PUE值低至1.04。
優勢2:自主研發原生RDMA高速網絡。曙光scaleFabric網絡,基于國內首款400G 類InfiniBand的原生RDMA網卡與交換芯片,可實現400Gb/s超高帶寬、低于1微秒端側通信延遲,超節點間的通信性能達到業內領先水平,充分釋放萬卡超集群算力,并可將超集群規模輕松擴展至10萬卡以上,相比傳統IB網絡提升2.33倍,同時網絡總體成本降低30%。
優勢3:存、算、傳緊耦合深度優化。通過“超級隧道”、AI數據加速等設計,實現從芯片級、系統級到應用級的三級數據傳輸協同優化,使存力平臺高效應對大模型訓練時萬卡并發讀寫帶寬極致需求挑戰,提升高通量AI推理時的響應速度與結果精準度,并可將AI加速卡資源利用率提高55%。
優勢4:超集群數字孿生與智能調度。通過物理集群數字孿生,實現故障定位、修復等全流程可視化智能管理;智能化運維平臺可支撐集群長期可用性達99.99%;智能調度引擎可管理萬級節點、服務十萬級用戶,支持每秒萬級作業調度。
據介紹,作為 “AI計算開放架構”最新重磅成果,scaleX萬卡超集群可支持多品牌加速卡以及主流計算生態,并實現400+主流大模型、世界模型等適配優化。在實際應用中,該超集群可覆蓋大模型訓練、金融風控、地質能源勘探及科學智能等多元場景。
本次大會上,商湯科技、中科曙光、大曉無限機器人、麒麟軟件、華大九天、海光信息等企業達成多項戰略合作,圍繞AI算力軟硬件系統優化、世界模型與具身智能應用創新等開啟跨層開放協作。
本文鏈接:中科曙光展出萬卡超集群,部分能力超英偉達NVL576http://m.sq15.cn/show-3-161812-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。