运营商已经部署了拥有超过20万GPU的AI数据中心——而且他们正更快地朝着100万个XPU的目标迈进。受带宽增加以及AI应用所需集群规模和数量不断增加的推动,我们正处于互联解决方案的巨大增长市场中。因此,自2020年以来,全球光互连市场已翻一番,至2025年接近200亿美元,预计到2030年将再次翻一番,行业复合年增长率(CAGR)约为18%。1

人工智能也推动了向更高带宽光学的转型。传统计算服务器的 IO 带宽至少落后网络 IO 带宽一代。然而,AI服务器带宽却跃升了一代。这一转变激发了对更高带宽连接的需求,以及加速创新的诞生。

Marvell持续以加速的速度发布光学连接领域的新创新,推动AI应用的扩展。
大规模支持现代人工智能工作负载的挑战
尤其是随着人工智能进入网络边缘,它需要高效的数据传输,这在连接性和网络连接中带来了诸多挑战。
大量协同工作的GPU需要更大的结构来连接它们。一个拥有10万GPU的集群可能需要50万个互联,以及数千台服务器和交换机。一百万块GPU可能需要一千万个互连,但总共跨越数公里。2功耗可能接近一千兆瓦——这只是企业在支持现代AI工作负载时面临的众多问题之一。
看支持AI的系统,有两个独立且互联的网络:扩展网络,通过合并所有资源提升单一服务器或系统的容量;扩展扩展,将这些服务器带入网络。
在规模化过程中,主要挑战是延迟,其次是功耗。Scale Up 是连接性的新市场,因此乐观地认为,未来几年这些问题将通过采用超低延迟网络基础设施、高密度共封光学系统和低功耗直接 I/O 接口等新创新得到解决。

在规模化扩展中,最大的挑战是可扩展性。还有潜在的相应创新,比如采用相干轻量和高带宽400G光学器件,以及支持这些应用场景所需的新调制方案。

在大规模化的演进中,进步正在加速,以应对由人工智能塑造的新需求。Marvell不再是每三年翻倍带宽,而是每两年翻倍。3

通过连接解决方案实现下一代人工智能
Marvell是推动下一代人工智能的合作伙伴生态系统的一部分,与他们携手实现这一目标。这个新兴行业蕴含着许多机遇,Marvell带来了诸如低延迟网络、更高带宽光学和相干轻度技术等创新技术,以实现多站点、高带宽、大规模网络。
人工智能基本上依赖于光收发器和有源电缆(AEC)等技术,用于大多数三米及以上的连接,随着网络扩展节点规模的增加,这些技术尤为必要。
在下一代人工智能中,集群的XPU数量将提升至100万个。在这一层面,需求如同高带宽低延迟的织物,同时兼具成本和功耗效率。这反过来又推动了新的连接解决方案和广泛的创新。在板级层面,新一代SerDes IO正以更快的节奏部署和开发。在集群层面,针对不同应用场景的优化电气和光学解决方案正在逐步推出。在数据中心各地点,Marvell正在提供最初仅限于长途电信的相干传输技术,如今已应用于数据中心园区。
所有这些创新都成为下一代人工智能的推动力。关键不是谁拥有最好的加速器,而是谁拥有最好的连接解决方案。随着AI集群数量和规模的快速增长,运营商需要一个灵活且可互换的解决方案,以支持其需求。支持可插拔生态系统的庞大生态系统合作伙伴网络是大规模网络的首选解决方案。
LightCounting,2025年4月市场预测
Marvell 加速基础设施以迎合人工智能时代日,2024年4月
列宁·帕特拉,Marvell在OFC的演讲,2025年3月