计算速度与系统稳定性的双重挑战,正推动 AI 基础设施向新一代集合通信技术迈进。
在人工智能迅猛发展的今天,超大规模智算集群已成为推动技术突破的核心基础设施。
海外科技巨头纷纷布局,OpenAI 与甲骨文和软银正在推进「星际之门」项目,计划配备数百万个 GPU,预计耗资超千亿美元;微软、谷歌、xAI 陆续完成十万卡集群交付使用。
在国内,运营商也加速向 AI 基础底座供应商转型,累计投资已超百亿元,建成 4 个万卡级智能计算中心,智算规模增长超 2 倍。
超大规模智算集群需要应对诸多挑战:硬件配套投入大、运营维护费用高。更重要的是,单纯堆砌硬件并不能解决所有问题,如何设计软件系统,将成千上万个计算单元高度组织起来才是核心挑战。在万卡甚至百万卡规模的集群中,设备故障几乎成为常态而非例外,任何一个组件的失效都可能导致整个训练任务中断,算力利用率系统稳定性成为比纯粹算力更为关键的指标。
AI 基础设施由计算 + 通信构成,集合通信库作为智算集群的 “神经系统”,其重要性日益凸显。集合通信库是 GPU 计算芯片与高性能网络的交汇所在,是 GPU 软件栈基座组件。如英伟达的集合通信库(NVIDIA Collective Communication Library,NCCL),可提供高性能、拓扑感知型集合运算,包括 P2P(Point-to-Point) Send/Recv、AllReduce、AllGather 和 ReduceScatter 等。这些通信原语针对 NVIDIA GPU 和各种互连产品进行了优化,包括 PCIe、NVLink、RoCE 以太网和 InfiniBand。
在这种背景下,创智、基流、智谱、联通、北航、清华、东南联合打造了高效率、高可靠、高可视的 GPU 集合通信库 VCCL(Venus Collective Communication Library),VCCL 已部署于多个生产环境集群中。
