人工智能技术在大型模型训练和推广方面取得了显著成就,尤其是在硬件层面。除了加速卡的应用日益广泛,网络互联架构的重要性也日益显现。同时,这一领域相关技术的发展动态同样受到了广泛关注。
海外与国内规模增长
海外训练集群的规模持续扩大,目前已从数万张卡的水平提升到十万甚至二十万张。在国内,训练规模同样不容小觑,尽管单张卡的算力并不突出,但整体发展势头强劲,以DeepSeek等为代表的新兴热门项目不断涌现。这种增长态势明显,使得对算力硬件互联的需求不断攀升,同时,这一趋势也为网络互联架构带来了新的挑战和机遇。
传统与大模型网络架构差异
传统数据中心网络结构较为简单,而通用计算网络则实行多租户机制,为众多用户提供服务,并共享云端数据中心资源。与此形成对比的是,AI大型模型在执行有限的训练任务时,需要依赖庞大的集群,这给算力硬件间的互联互通设定了极高的要求。传输带宽正在逐步从100G/200G提升至400G/800G,甚至达到1.6T,这一演变显著增加了数据交互的规模。这一变化进一步导致AI算力集群的网络性能、规模和复杂性以指数级速度快速增长。
云端推理集群变化
以往,人们通常使用的是一种卡片对应一个用户或一个卡片服务于多个用户的单一模式。然而,随着推理系统规模的持续扩大,例如DeepSeek的云端推理集群已扩展到数百甚至上千张卡片。在这种情况下,由多台机器组成的高性能节点(HBD)方案数量急剧增加,这对网络的扩展能力提出了更高的要求。这揭示了云端AI互联架构的一个重要发展趋势,同时揭示了云端领域在大型模型训练与推理方面的崭新动向及新增需求。
奇异摩尔的应对方案
奇异摩尔在Chiplet及互联技术领域表现卓越。该公司能够为我国算力集群提供全方位的互联架构服务,涵盖单卡内部的快速互联技术、多卡间的高效扩展接口技术,以及不同网络间的高速互联技术。所谓的超节点,可视为数据中心内的一种小型、带宽极高的机柜集群,由多台服务器构成。该企业凭借这些技术实力,有力地推动了我国算力集群的发展。
RDMA技术分享
远程直接内存访问(RDMA)技术在算力集群网络领域受到了广泛关注。这一技术对网络物理层提出了对无损伤支持的要求。然而,在大规模网络环境中,实现完全无损伤的网络所需的成本相当高昂。鉴于此,研究人员研发了新型的链路层协议。这些协议能够在存在损伤的网络环境中稳定运行,并且在数据传输速度上仍能保持较高水平。其次,大规模训练对网络提出了复杂的需求,这通常会导致网络出现拥堵状况;为了解决这一难题,相关产品引入了创新的拥堵监测与处理算法,显著提升了拥堵处理的效果。通过这些技术的应用,十万卡以上的集群可以达成高达95%甚至更高的传输效率。
未来发展思考
AI大型模型训练技术的普及正不断取得进展,同时,支撑其发展的网络互联架构技术也在同步提升。尽管如此,未来仍面临诸多待克服的难题,例如如何在更为复杂的网络环境中提高数据传输效率,以及如何应对集群规模扩大引发的新挑战。在展望AI大模型训练技术的推广领域,网络互联架构技术有望实现哪些具有决定性的技术突破?我们热切希望各位读者能够对本篇文章给予充分的肯定,广泛地进行分享,同时积极留下您的宝贵意见和见解。