人工智能技术的快速发展显著,数据通信在AI驱动的数据中心趋势中逐渐凸显其关键地位,目前该领域市场份额已超过六成,对数据中心未来网络发展趋势的影响显著。
AI 发展催生数据需求
目前,大型语言模型(LLM)的普及推动了人工智能工作负载的显著指数级增长。伴随这些模型功能的持续增强,采用生成式AI的用户基数也在不断膨胀。这一发展态势直接导致了对于大模型在训练与推理环节的需求迅猛上升。根据美国市场调查的数据,去年一年内,大模型的使用者数量增长了50%。这种增长趋势导致了对高性能AI集群提出了更严格的标准,并加速了数据处理需求的激增,从而迫切需要更多的内存和存储资源。
数据传输面临高要求
确保数据传输的高效性以及资源分配的科学性对于AI技术的应用至关重要。在众多GPU协同工作的环境下,GPU之间互联网络的标准已经超越了普通网络的标准。目前,互联网需求增速明显快于XPU增速。例如,部分领先的云服务提供商,随着业务领域的拓展,半年内互联网需求增幅高达30%。他们急需寻找具备高带宽和低延迟特性的网络解决方案。
传统方案难承重任
目前,无论是云计算服务提供商还是人工智能领域的头部企业,它们所拥有的AI集群规模正持续扩大,同时,网络负荷也在不断攀升。但是,现有的互联网技术方案已经无法满足AI集群对高性能的渴求,这可能导致延迟问题的出现以及带宽的限制,进而对AI集群的性能造成不利影响。以某人工智能企业为例,该企业所采用的互联网连接方案存在缺陷,这一缺陷导致了其若干项目处理效率的下降,具体降低了20%。
可插拔光学连接应用
需求连接已从机箱内部向外扩展,延伸至机架之间,甚至触及多个机架的领域。在此阶段,可插拔的光学连接变得极其重要。在人工智能数据中心,光网络互联主要可分为两大类。这些连接技术能够在一定程度上减轻数据传输的负担,并为高速数据交换创造了有利环境。
光学方案优势凸显
网络横向扩展速度的加快是为了适应大型语言模型对增长和数据处理量的需求,但这一加快导致网络功率超过了加速器机架所能承受的功率极限。启用节能模式能够提高GPU的部署密度,即便数据中心的总功率维持不变,理论上GPU的数量有望增至原来的三倍。此外,光学解决方案必须保证故障率极低;这一目标通过执行严格的测试流程和大量样品的验证得以达成,从而确保生产流程的顺利进行。
光子技术与未来趋势
光子技术的迅猛进步,为大规模人工智能集群提供了更为灵活且性能优异的网络支撑,有效突破了互联带宽的瓶颈,同时超越了传统互联网的局限。尽管Nvidia的产品规划已延伸至NVLink576,且持续采用铜缆进行连接,但数据传输速率与信号完整性问题仍需借助光学技术来加以解决。网络企业规模的扩大预计将触发向CPO技术转型的步伐,这一变革预计将在2030年代完成,届时可插拔光学器件将得到普遍的替换。台积电在今年四月对外发布了一项技术发展规划,该规划揭示了其在共封装光学器件领域的技术进展情况。
在探讨人工智能数据中心网络互联的未来走向时,请问您认为哪项技术路径有可能占据主导地位?我们热切期待您宝贵的观点,并衷心邀请您对本文给予点赞并广为传播。