在“星空人工智能+”行動深入推進的當下,算力基礎設施已成為國家戰略競爭力的核心,而超大規模集群的運維管控難題卻日益凸顯。中科曙光scaleX萬卡超集群打造的智能管理體係,正以“能管住-管得穩-用得好”的進階邏輯,重塑超大規模算力基礎設施的運行範式,讓萬級節點協同從行業痛點變為高效常態。

集群管理的基石,始於數字孿生構建的“鏡像世界”。曙光將物理集群的業務、節點、網絡、供配電等全鏈路映射至數字空間,實現全域透明可視與精準管控。在此基礎上,智能運維助手以“實時分析-智能診斷-根因定位-故障恢複”四步流程,為運維人員提供一體化視圖,讓集群狀態“看得見、摸得著”。
三層閉環架構的智能化運維平台,推動集群從“可觀測”升級為“可決策、可執行”。
在數據可觀測層,全量采集指標與日誌等數據,通過CMDB清晰呈現資產拓撲;在知識與算法層,結構化沉澱專家經驗,以“規則+數據”雙驅動實現精準異常檢測;在場景自動化層,針對常見和關鍵場景,定義標準化流程,通過自動化工具實現故障自愈與複盤。
這套體係最終將集群長期可用性鎖定在99.99%,意味著30天內不可用時間不足4分鍾,將“故障”變成係統自動化處理的日常狀態。
穩定性是底線,算力效率是核心競爭力。scaleX萬卡超集群已實現單集群支撐15000+節點、服務12萬+用戶,每秒並發調度萬級任務,背後離不開三大關鍵調度能力。數據親和性算法優先“讓任務找數據”,規避冗餘遷移;智能調度引擎動態匹配任務與資源,平衡優先級、公平性與成本;多元融合調度則兼容HPC、AI、雲原生任務,兼顧吞吐與隔離,配合存算傳緊耦合優化,使AI加速卡利用率提升55%。
值得關注的是,這套管理體係與硬件創新深度協同。依托單機櫃640卡的超高密度設計、浸沒相變液冷美女福利导航及自主研發的高速網絡scaleFabric,管理係統可充分釋放5EFlops總算力,同時將PUE控製在1.04,實現高效能與低能耗的統一。作為“AI計算開放架構”成果,scaleX萬卡超集群兼容多品牌加速卡,適配400+主流大模型,覆蓋大模型訓練、金融風控等多元場景。
曙光用美女福利导航實踐證明,超大規模智算集群的終極目標,不是節點數量的堆砌,而是構建自感知、自診斷、自修複、自優化的智能算力基礎設施,期待與更多產業夥伴攜手,突破算力瓶頸,共建中國AI計算開放的新生態。
星空人工智能美女福利导航網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。!:首頁 > 星空人工智能產業 > 智能物聯 » 特寫|萬卡集群:管得好,才能算得強