AI训练和推理集群架构推动了数据中心基础设施支出的前所未有的增长,同时也对高性能计算架构产生了反思性和有益影响,这得益于AI项目资金的相对容易,以及升级现有高性能计算系统以实现传统仿真和建模的需求。
SC25超级计算大会的第一个完整日,本周由Hyperion Research团队传统的上午7点早餐开启。该公司刚刚完成了对2024年高性能计算市场的初步评估,正在制定2025年数据并更新预测至本世纪末。Earl Joseph和Mark Nossokoff深入探讨了传统的高性能计算市场,包括AI增强以及本地部署和云部署模型,Bob Sorensen则深入探讨了量子计算市场。我们将单独跟进量子分析,目前仍专注于结合AI增强的高性能计算和传统高性能计算市场。
从最高层面来看,以下是过去三年全球最广泛的高性能计算支出情况,以及根据Hyperion未来五年的表现:

顺便说一句,当Hyperion谈论混合高性能计算-人工智能市场时,它不仅仅是将传统高性能计算与整个人工智能市场合并。相反,它会梳理高性能计算领域的所有交易,找出其中哪些部分是针对高性能计算功能,哪些部分是为人工智能功能添加,这些项目正在添加到高性能计算应用中。这是AI增强的科学和技术计算,而不是那些由超大规模开发者、云构建者和模型构建者创造的通用生成式人工智能。
基于此,Hyperion认为2024年本地HPC-AI系统带来了503.9亿美元的收入,比2023年增长了22.9%,而云HPC-AI系统容量则带来了95.4亿美元的销售额,增长了4.9%。将这些因素加起来,HPC-AI市场总销售额达到599.3亿美元,增长了23.5%,远高于过去十年左右市场历史平均的7%到8%。
展望2025年,Hyperion认为整体高性能计算-人工智能市场,包括各种消费模型,将带来577.5亿美元的收入,较2024年增长17%,其中云端消费为123.8亿美元,本地系统为577.5亿美元。这些数字不仅包括硬件、软件和高性能计算人工智能系统的服务,而不仅仅是服务器。(我们稍后会详细说明。)
如上图所示,高性能计算-人工智能支出的增长预计会略有放缓,但仍约为历史平均水平7%至8%的两倍,直到本世纪末。
我们来简单分析一下。首先,让我们看看HPC-AI系统支出如何按产品类别划分。Hyperion Research在今年的早餐演示中没有提供这些数据的长期细分,但提供了2024年数据的饼图快照:

上面这张饼图是由分析师厄尔·约瑟夫和马克·诺索科夫呈现的两张图表合并而成。有趣的是,云消费模式终于在高性能计算领域获得了一些关注,占2024年HPC-AI软件599.3亿美元支出的15.9%。(图表显示15%,但实际上更接近16%。)此外,云计算支出中30%用于存储,而本地HPC-AI中心仅占21.7%。云端存储支出为28.6亿美元,计算(内置网络)为66.8亿美元,计算与存储的比例为233比1。在本地HPC-AI开支中,计算(253.3亿美元)与存储(上述66.8亿美元)的比例为3.77比1。本地的高性能计算人工智能中心比云端的中心更耗费计算量。
目前尚不清楚这意味着什么。云端计算通常比四五年摊销的本地计算成本非常高。也许云用户已经学会在更短时间内运行更多核心,以降低计算成本,从而缩小计算和存储之间的差距?
服务仍然是HPC-AI预算中相当大的部分——主要用于系统的安装和维护以及系统软件的技术支持——而软件在5%的市场份额仍相对较小。
深入探讨HPC-AI市场的计算部分,Hyperion如何细分主要用于高性能计算和人工智能的设备销售——而在这两种情况下,传统的高性能计算仿真和建模必须成为整体工作负载堆栈的代表性部分,才能让这些支出产生意义。请看:

如你所见,传统的高性能计算收入在2023年经历了一段小小的衰退,部分原因是高性能计算系统制造商的产品生命周期时机安排,部分原因是生成式人工智能热潮来临时暂停,大家都在试图弄清楚这意味着什么。但据Hyperion报道,传统高性能计算机械的销量在2024年有所回升,并且在预测中略有回升,直到2029年。
然而,大约在2027年年中,以人工智能为中心的铁(超过50%的工作负载是AI工作)将带来比以高性能计算为中心的铁(超过50%的工作负载为高性能计算工作)带来更多的销售额。随着人工智能功能融入高性能计算应用,这种差异化将越来越难以确定,更别说量化了。
与此同时,去年HPC-AI系统的销售表现相当不错,Joseph表示,2025年上半年这里的销售增长也非常出色。以下是各厂商HPC-AI服务器销售收入的细分(第二栏以美元计):

这些数据是针对本地 HPC-AI 服务器的,你会注意到两点。首先是“非传统供应商”的收入,Hyperion指的是我们所说的原始设计制造商(ODM),与原始设备制造商(OEM)有别。这些立体机动工公司按照规格设计高性能计算人工智能(HPC)的铁,最初作为超大规模企业和云构建者的供应商起步,是因为这些公司不想为机器支付OEM溢价。他们根本负担不起那样做并获利。我们并不确切知道哪些ODM在这份名单中,但我们认为它们在台湾和中国都有运营,并且有趣的是,它们合计带来的HPC-AI服务器收入几乎与惠普企业相当,惠普企业在收购康柏后成为市场的明显领导者。 SGI,还有多年来的Cray。
正如你所料,戴尔在高性能计算-人工智能领域排名第二,这可能令人惊讶,因为在通用市场中,戴尔在服务器收入方面远大于HPE。
在高性能计算人工智能系统中,价格区间分布合理,但中端区间最弱,这在过去几十年里一直如此:

当我们看到AI巨头安装的一些庞大系统时,什么才算是“领导型”高性能计算-人工智能机器的价格区间,这对我们来说很有趣——不是笑话。
Hyperion表示,一台领先的高性能计算人工智能(HPC-AI)机器——我们仍然认为的超级计算机——成本为1.5亿美元或更多,而超级计算机技术上的价格介于两者之间,但超大规模开发商、云构建者和模型构建者在1吉瓦处理能力约500亿美元、英伟达获得约350亿美元的情景中,以数倍吉瓦为单位衡量自身。账面上为超大规模开发者和云构建者(及其模型构建者客户)开支数据中心资本支出约6000亿美元,大致相当于12吉瓦的电力。
最近Top500排名中的四台百亿亿级超级计算机——造价在5亿美元到6亿美元之间——在运行高性能LINPACK基准测试时,耗电在15.8兆瓦到38.7兆瓦之间。(这也用于给他们在最新榜单中的Top500排名。)此外,2024年HPC-AI服务器的全部收入将覆盖约500兆瓦的“AI工厂”容量。
话虽如此,正如美国能源部去年十月宣布的九台新超级计算机所示,HPC-AI系统的投资正在加速。这些机器的细节尚不多,但看起来它们将更多是能源部实验室租赁的甲骨文云基础设施中的HPC-AI前哨,而非像几十年来那样一次性购买。转向云模型意味着HPC-AI收入将随着时间趋于平稳,但也意味着收入会趋于平均,而非波动。我们目前只知道Hyperion表示,2025年上半年整体HPC-AI市场增长了22%,这与2024年23.5%的增长率相当接近。