
这两天国内算力市场彻底炸锅了!
据传,中科曙光将发布业内首个千卡级超节点,不仅规模高出此前的“昇腾384”三倍以上,还能广泛兼容主流AI计算生态(CUDA),并适配不同类型国产加速卡。这意味着该产品将带动中国智算协同发力,以系统化形式加速拉近与英伟达算力的差距。
相较于“千卡超节点”的算力规模突破,更值得注意的是其开放式架构的前瞻性。
相关报道显示,今年9月,中科曙光就协同产业链上下游20余家企业共同发布了AI计算开放架构,并把计算、存储、网络、供电、冷却、管理、软件等子系统,以GPU为核心进行一体化紧耦合设计,形成了更大规模、更高效的超级集群系统。

众所周知,以开放架构发展大规模智算集群,存在着技术复杂性和生态复杂性等诸多挑战:
一方面,大规模智算集群由算、存、网、电、冷、管等诸多子系统构成,技术难点多,研发周期长;
另一方面,相比单一巨头企业主导的封闭生态,开放的生态系统更加复杂,面临着行业统一标准欠缺、自主软硬件生态不成熟等棘手问题…
当然,如果能打通开放式生态堵点,对于上下游厂商乃至整个算力产业都极具战略性意义,此次国产超节点突破千卡规模就是实证。
从中科曙光的AI计算开放架构理念来看,其中包含了“部件-系统-基础设施-软件-数据集”五层技术能力开放。并且,中科曙光还依托先进计算产业创新中心,联合产业伙伴共建“AI计算开放架构联合实验室”,推进产业链跨层优化协作。
比如开展底层基础软件与工具链协同优化、模型-硬件协同设计与深度优化、异构算力资源统一调度与管理、开放标准与接口的制定和推广、关键场景跨层优化验证与示范等,这些都将成为贯穿算力产业“硬件墙”、“软件墙”、“生态墙”的有力武器。
毋庸置疑,这种模式的价值不仅在于集群算力本身的突破,更将把上下游各个环节联动起来促进产业全栈协作共赢,进而真正降低计算成本、提高算力应用能效,建成开放普惠的智能计算产业生态。
目前,千卡超节点几乎代表了国产计算集群的尖端水平,并且开放式计算架构在兼容性、扩展性、协同性方面具备无限潜力。
以昇腾384超节点为例,该产品最大可达到16万卡Scale-out集群,曙光AI超集群则支持百万卡超大规模集群扩展,这也将为下一阶段的全球算力体系化比拼奠定坚实基础。
或许正如黄仁勋所说,“我们正处在一个新的十年建设周期的开端。随着AI时代的到来,整个计算架构的每一层都在被彻底改变。”而国产计算架构最大的变数,无疑是从单点突破到系统创新的全面进阶。这一次,中国超节点在开放式创新赛道上领先一步。
