人工智能就是关于二分法的。针对训练和推理工作负载,开发了不同的计算架构和处理器。在过去两年里,规模扩大和规模扩展网络逐渐出现。
很快,存储也会有同样的变化。
人工智能基础设施的需求促使存储公司开发SSD、控制器、NAND等技术,这些技术经过微调以支持GPU——重点是更高的IOPS(每秒输入输出作数)以进行AI推断——这将与CPU连接硬盘的技术有根本不同,后者更关注延迟和容量。这次驱动分岔很可能也不会是最后一次;预计还会看到针对训练或推理优化的硬盘。
与其他技术市场一样,这些变化由人工智能的快速增长以及同样快速提升人工智能基础设施性能、效率和总运用成本的需求推动。预计到2028年,数据中心内SSD总容量将翻倍至约2泽字节,主要增长得益于人工智能。1到那一年,SSD将占数据中心硬盘安装基数的41%,高于2023年的25%。1
然而,更大的存储容量也可能意味着更多的存储网络复杂度、延迟和存储管理开销。这也意味着可能更多的电力。2023年,SSD贡献了4太瓦时的数据中心电力,约占存储所耗16太瓦时的25%。到2028年,SSD预计将占11太瓦时,占全年存储总量的50%。1虽然存储占总数据功耗不到5%,但总量依然庞大,并激励节约。即使减少1太瓦时的储能功率,也少于10%,也足以为9万户美国家庭节省一年的电力。2在容量、速度、功耗和成本之间找到精确平衡,对AI数据中心运营商和客户来说至关重要。创建不同类别的技术是优化产品以可扩展性的方式的第一步。
想到存储时,最初的冲动是按照熟悉的流程来划分,比如训练和推理,或者放大和扩展。存储类型之间的分界线最终根植于由AI工作负载驱动的处理器,即存储负载由GPU或CPU发起。GPU发起的存储通常与推理工作负载相关联,CPU发起的存储与训练相关联,但并非总是如此。GPU和CPU发起的存储请求可以从本地SSD或远程SSD中的数据请求开始。数据流是双向的。关键问题依然是哪个处理器发起请求。

GPU/CPU存储架构:GPU或CPU可以访问本地或远程SSD来发起存储请求。
GPU发起的存储
在每个扩展型AI环境中,多个SSD(目前最多八个)通过PCIe总线直接连接到GPU(目前最多四个),位于PCIe交换机后面。GPU在围绕内存语义构建的SCADA框架内发起存储事务。
对于AI推理工作负载,GPU需要处理超过一千个数据密集型并行线程,这通常需要较小的数据集,无法以所需速度获取这些数据集会导致昂贵的GPU周期被低估。
当前一代SSD无法扩展小于4KB的数据集的IOPS,导致PCIe总线被低估,导致GPU数据匮乏,浪费周期。目前,这通过部署更多并行SSD来实现,这不仅增加了系统成本,还增加了功耗,同时仍无法实现目标性能。为解决这个问题,NVIDIA提出了“Storage-Next”架构,要求PCIe 7.0 SSD运行1亿IOPS。3
闪存媒体供应商正在研发更快的低延迟NAND媒体,但更大、更深远的变革将发生在闪存存储控制器领域,Marvell已成为其领先地位。这些新型闪存控制器不仅需要加速器功能,还需要针对较小有效载荷的最佳纠错方案。鉴于Marvell在加速器、多NAND支持和先进DSP能力方面拥有强大的产品组合,公司在满足下一代AI存储的高性能需求方面处于有利位置。
CPU发起的存储
在CPU启动的存储环境中,工作负载通常用于AI训练,GPU并行线程数量远少于数万对数千,数据集规模更大。对于更大的数据量和IOPS,GPU的PCIe总线可以充分利用,4KB IO和700万IOPS的PCIe 6.0固态硬盘可实现28GB/s吞吐量。4但由于存储位于网络后方,数据延迟需要改进。这种延迟也由以太网到PCIe存储层的转换贡献。
然而,最显著的变化将围绕能够同时处理PCIe和以太网流量的硬盘展开。与云时代不同,竞争性的网络协议很可能在许多环境中并存,就像Marvell已经大量出货的许多网络和处理产品一样。
以下是GPU发起存储与CPU发起存储主要区别的总结:
进一步变更
优化和定制肯定会持续进行,超出上述范围。无论是用于扩展还是扩展网络的AI训练驱动器,都将针对计算密集型环境进行微调,而高IOPS驱动器则将被推理工作负载需求。预计未来将会有与高带宽闪存或CXL网络接口的工作。硬盘也将经历类似的转变。
也许最准确的预测是,在追求更好人工智能基础设施的过程中,存储价值链的每一个环节都将被挖掘以获取收益。
劳伦斯伯克利国家实验室数据中心能源使用报告,2024年12月。
能源信息署。美国家庭平均每年消耗10,791千瓦时。十亿千瓦时等于一太瓦时。
TechRadar,2025年6月。
马维尔估计。