华为云黄瑾：昇腾云CloudMatrix 384 超节点六大科技创新界说下一代AI基础设施

瘍雯新闻网

华为云黄瑾：昇腾云CloudMatrix 384 超节点六大科技创新界说下一代AI基础设施

2025-05-17 17:03:08

阅读（10194）

央广网北京5月17日音讯 5月16日，华为云AI峰会在北京召开，华为云副总裁黄瑾发表主题演讲，介绍了更多CloudMatrix 384 超节点技术优势与细节。

黄瑾指出，随着大模型训练和推理对算力需求的爆炸式增进，传统计算架构已难以支撑AI技术的代际跃迁，超节点架构的诞生不仅是技术的冲破，更是以工程化创新开辟AI家当的新路径。

华为云CloudMatrix 384超节点具备MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大领先技术优势，以零碎架构创新从新定义新一代AI基础设施。

华为云副总裁黄瑾

从新定义AI基础设施架构，开辟算力新纪元

当前，大模型训练履历了从早期小模型在单卡训练、小参数大模型在单机训练，到现在MoE、长序列、多模态大模型都在AI集群上训练的演进历程。AI算力的瓶颈，从单卡算力的瓶颈到单机内总线带宽的瓶颈，再到现在集群间通信带宽的瓶颈，需求增进了1万倍。

展开剩余 78 %

然而过去的8年里，单卡硬件的算力增进了40倍，但是节点内的总线带宽只增进了9倍，跨节点的收集带宽只增进了4倍，这使得集群收集通信成为当前大模型训练和推理的最大挑战。

黄瑾表示，面对这些挑战，华为云创新性的推出了采纳全对等互联架构的CloudMatrix 384超节点。这项技术创新跳出单点技术限制走向零碎性、工程性的创新算力架构，直面通信效率瓶颈、内存墙制约、可靠性短板三大技术挑战。通过新型高速互联总线实现384 张卡互联成为一个超级云服务器，最高提供300Pflops的算力规模，比业界同类产品领先67%。

解码六大优势，CloudMatrix 384超节点重构AI算力架构

目前，基于CloudMatrix的超节点集群已经在芜湖、贵安、内蒙规模上线，黄瑾进一步深切解读了六大技术创新点：

MoE亲和架构，从“小作坊”到“超级工厂”。在传统架构下，MoE模型训练容易因通信延迟导致算力浪费，而CloudMatrix 384超节点的分布式推理平台可以说是专为MoE大模型而生。黄瑾指出，对比一卡多专家的“小作坊模式”，超节点更像“大工厂模式”，通太高速互联总线，能够实现一卡一专家高效分布式推理，单卡的MoE计算和通信效率都大幅提升。

以网强算，双层收集破解“数据堵车”。当AI算力走向规模化部署，单点的芯片性能不再是制约算力发展的唯一变量，如何由点及面地激活算力矩阵的共振效应，也是破解AI时代算力命题的枢纽一步。而开释联接力也正是超节点最大的创新冲破之一，黄瑾介绍，传统收集像拥堵的城市道路，CloudMatrix 384则构建了AI专属高架桥，通过MatrixLink服务将单层收集升级为两层高速收集，一层是超节点外部的ScaleUp总线收集，确保超节点内384卡全对等高速无堵塞互联，卡间超大带宽2.8T，纳秒级时延；另外一层是跨超节点间的ScaleOut收集，可支持微秒级时延，资源弹性扩大；同时，基于全局拓扑感知的智能调理算法，保证客户使命长稳运行。

以存强算，弹性内存改写“算存绑定”。华为云首创了EMS弹性内存存储，打破传统GPU算力与显存绑定的枢纽妨碍，通过内存池化技术，实现显存和算力解绑。一方面，用EMS替代NPU中的显存，可使得首Token时延低落，最高降幅可达 80%；另外一方面，当NPU的显存不足时，EMS自力扩容，不必再通过堆NPU以获得更多内存。同时，EMS还支持算力卸载，这也使得零碎吞吐量提升，有的场景达100%的提升。总之，这一技术创新大幅提升了资源利用率、性能和吞吐量。

长稳可靠，故障自愈的“AI医生”。随着模型训练需求的赓续接入，大集群的运维难度大、复杂性高的成绩日益凸显。对此，华为云开发了昇腾云脑运维“1-3-10”尺度，即 1 分钟感知、3分钟定界、10 分钟内恢复。通过5层压测、寂静故障感知技术，昇腾云脑可将硬件故障感知率从40%提升至90%。同时，覆盖计算、存储、收集、软件四大种类故障模式库也打通了全栈故障场景，这一全栈故障知识库能够覆盖95%常见成绩以实现故障疾速定界；在恢复机制上，3层快恢技术、疾速建链技术、图编译缓存等技术能够实现万卡故障疾速恢复。

朝推夜训，算力资源“错峰用电”。在大模型训练中，提升算力利用率，避免算力闲置也是企业体贴的重点之一。CloudMatrix 384超节点通过“训推共池”“灵活调理”两大枢纽技术实现朝推夜训，白天进行模型推理，早晨闲时进行模型训练，算力资源利用率可提升30%以上。

即开即用，“算力水电”普惠模式。为助力客户更好地专注业务模型开发，华为云已经在全国三大枢纽数据中心——乌兰察布、贵安和芜湖完成了超节点规模布局，支持百TB级的带宽互联，10毫秒时延圈覆盖全国19个城市群，让客户能够第一时候享受到即开即用的AI算力资源。同时，华为云拥有专业的超节点运维团队，在为客户免去烦琐的管理和维护的同时，保证资源的稳定运行。

做好智能世界云底座和使能器，加快行业智能跃迁

如今AI已经成为最有影响力的通用技术，如何将技术价值转化为应用成果，成为千行百业面临的核心课题。华为云超节点创新零碎架构的面前，是华为云坚持“昇腾云服务支持百模千态，盘古大模型重塑千行万业”的战略。

黄瑾夸大，一直以来华为云持续推动昇腾AI云服务周全升级，通过打磨昇腾云的训练、推理的性能、可靠性和性价比，为中国乃至全球客户提供好用、易用的AI算力云服务。现已周全适配了DeepSeek在内的160多个大模型，以云服务的方式，协助客户进行模型的开发，训练，托管和应用。昇腾AI云服务上线以来，面向政府、金融、零售、互联网、交通、制造等行业已经服务六百多家创新先锋企业，加快行业智能化应用的疾速落地。

在充满冲破和创新的AI发展历程中，每一个阶段都会发生大批的新技术、新模式，企业惟有捉住AI时代时机，才能抢占发展先机。黄瑾表示，面向智能世界，华为云努力于做好行业数字化的“云底座”和“使能器”，刚强打造AI算力底座，以平安、稳定、高质量、持续创新的AI云服务，赋能千行万业应用创新，联袂火伴、客户加快行业智能跃迁。

公布于：北京市

赞 59 收藏