首页 > 资讯 > 人工智能

面对英伟达的DGX机顶盒,苹果展示了搭载万亿参数AI模型的Thunderbolt 5 Mac

时间:2025-11-27 编辑:工业互联网平台 来源:gmic全球移动互联网大会

核心提示:为了跟上英伟达的 DGX AI 工作站台式机,能够连接以处理更大规模的 AI 模型,苹果释放了 Thunderbolt 5 Mac 作为“AI 集群”的能力,准备支持万亿参数模型。苹果不希望让像英伟达

为了跟上英伟达的 DGX AI 工作站台式机,能够连接以处理更大规模的 AI 模型,苹果释放了 Thunderbolt 5 Mac 作为“AI 集群”的能力,准备支持万亿参数模型。

1763948364211598.jpeg

苹果不希望让像英伟达这样的竞争对手在人工智能竞赛中占据先机。为了保持竞争力,它让现有支持Thunderbolt 5的Mac能够相互连接,形成更先进的“AI集群”,实现双联AI模型处理,类似于英伟达最近发布的DGX产品。

苹果对英伟达DGX的回应?当然是Mac。

这对苹果来说并非未知领域,但这是首次使用Thunderbolt 5。该功能将随目前处于测试阶段的macOS 26.2一起推出,并采用苹果的开源AI阵列框架MLX。它本质上是一个应用程序接口(API),允许开发者创建或测试新的 AI 模型,并对其进行新功能和能力迭代。

苹果并非独自完成这一切;它与开发商Exo Labs合作,利用MLX API创建了双联AI处理能力。该工具被称为EXO 1.0,它可以支持最多四台Thunderbolt5 Mac Studio台式机或两台MacBookPro笔记本,运行相同的AI模型,这些AI模型的规模远超它们单独能处理的:多达1万亿个参数。Thunderbolt 5 连接使系统能够作为一个整体运行,将统一内存合并到单一资源中,供 AI 模型调用。

1763948404492398.jpeg

在最近的一次网络演示中,苹果产品团队成员向我们展示了四台配备M3 Ultra的Mac Studio台式机,将资源汇聚在一起运行一个名为Kimi-K2-Thinking的1万亿参数模型,它们加起来的功耗不到500瓦(W),远低于单个传统GPU在AI集群中的功耗: 最高可达700瓦。

对于那些比较比较的人来说,英伟达的DGX Spark盒子在最大负载下额定功耗最高可达240W,但像约翰·卡马克这样的知名开发者对此表示不满,怀疑发布前性能下降。连接与苹果Mac Studio演示相同数量的DGX Spark系统理论上可达960W,但这几乎不可能。无论如何,苹果的解决方案在这里可能有优势,尤其是对于有意运行多集群的开发者来说。至于吞吐量,现在下这种结论还为时过早。

苹果首次授权M5芯片访问MLX

不过,苹果最近在一篇博客文章中乐于从数字平台大声宣扬其M5芯片的人工智能能力。MacOS 26.2使开发者能够通过MLX访问M5的新型神经加速器,同时提升AI工作负载中的内存效率。这使得首次代币生成时间(TTFT)指标更为重要——模型在提示后生成第一条信息的速度——因为它受计算限制,而苹果的M5拥有极强的计算能力。

苹果在M5一代处理器中最重要的升级是每个GPU核心的神经加速器,这大大提升了AI性能,正如我们在对M5 MacBook Pro 14的评测中所发现的那样。

“M5芯片提供专用的矩阵乘法作,这对许多机器学习工作负载至关重要,”苹果的博客文章写道。“MLX利用了metal 4引入的张量作(TensorOps)和金属性能原语框架,支持神经加速器的功能。”

M5 AI 计算能力的这些进步意味着大多数大型语言模型(LLM)的 TTFT 大幅降低。在评估其M5硬件时,苹果在阿里云开发的Qwen模型上发现,M5的TTFT评分(以秒计)比M4高达四倍。

1763948474590077.jpeg

正如帖子所解释的,第一个令牌需要较高的计算能力,而后续所有令牌的推理工作负载性能更依赖内存。这意味着4倍的性能提升无法覆盖整个提示词,但苹果在不同型号中,M5相比M4硬件,整体LLM性能提升了19%到27%,这得益于其更大的内存带宽。

文章强调,这些性能提升不仅体现在图像生成和文本上。当使用 MLX 生成 1,024×1,024 的图像时,苹果发现 M5 硬件的速度比 M4 硬件快多达 3.8 倍。

这对任何在macOS上利用苹果智能功能以及希望在Mac上开发AI的人来说都是令人振奋的消息。不过,如果你真的想在MacBook上加速这类工作负载,使用外置RTX显卡可能会带来最佳效果。至少在我们看到两台M5 MacBook Pro笔记本如何协同运行之前,情况是如此。

标签: ai人工智能
 
更多>同类资讯