专家们在桌上:半导体工程召集了一群专家,讨论一些AI工作负载如何更适合设备端处理,以实现稳定性能、避免网络连接问题、降低云计算成本并确保隐私。小组成员包括Frank Ferro,他是该组织的团体主管。硅Cadence的解决方案组;爱德华多·蒙塔涅斯,副英飞凌PSOC边缘微控制器与边缘AI解决方案、物联网、无线及计算业务总裁兼负责人;Keysight高级总监Alexander Petr;Raj Uppala,市场营销与合作伙伴高级总监硅Rambus的知识产权;西门子EDA中央人工智能产品经理Niranjan Sitapure;以及Synopsys首席产品经理Gordon Cooper。以下是该讨论的节选。
SE:随着行业越来越多地讨论并计划将原本存在于云端的AI应用迁移到边缘,理解为什么会发生这种情况变得非常重要。关键驱动力是什么?
铁:我们看到大家对如何支持这些边缘AI应用的兴趣很大,主要是因为训练一直是过去四五年的热门话题,随着这些模型的成熟,正被推向边缘和网络端点。这意味着我们看到对人工智能推理的兴趣大大增加。我甚至看到一些市场报告说AI推理市场将开始增长。推理所需的计算需求更低,随着你向网络边缘和端点扩展,成本、功耗等都会变得更加紧张。这意味着你必须大幅降低功率。你必须在实施这些系统时成本更低、更高效。我花了很多时间在那里,与客户会面,讨论他们如何在边缘实现这些大型语言模型。甚至不到一年前的要求也需要更多的容量和带宽。随着LL模型的不断发展,AI推理变得越来越依赖计算。
蒙塔涅斯:云计算存在许多限制,我们正在解决,特别是围绕无线连接的基础设施。并非所有设备都必须连接,因此边缘AI有很好的机会带来本地用户体验。此外,数据隐私也有限制。我们家里很多人都有带摄像头或麦克风的产品,谁知道你的数据会流向哪里?因此,边缘人工智能提供了为用户提供不同体验的能力,而不会让数据散布到各处。正如Frank刚才提到的,电池供电产品也能创造全新的体验。确实存在一个局限性,比如高度依赖数据中心,且体积更大,耗电量大。其中一些大型语言模型可以在极低的能量下运行于边缘。
切赫:区分训练和推理是有道理的。提到了大型语言模型,但不仅仅是大型语言模型;神经网络还有其他架构。所以,当我们谈论人工智能时,必须明确我们谈论的内容以及我们想要运行的内容。如今我们不仅谈论GPU,还包括神经处理单元(NPU)和张量处理单元(TPU),它们是专门的人工智能加速器。它们在架构、部署环境和性能特性上存在显著差异。你需要哪个处理单元,真的取决于你在做什么。你现在在行业里遇到的问题基本上是:在哪里培训,哪里需要推理。这也很大程度上取决于这些模型的规模和能力,比如大型语言模型。如果我们坚持使用LLMs,东西流量和南北流量有定义。培训的要求与推理的要求有很大不同。对于AI模型训练,分布式GPU/CPU架构至关重要,因为它支持GPU节点间的集体通信和并行处理,这对高性能、多租户和高效资源利用至关重要。目标是确保无损连接并最小化尾端延迟,这对最佳AI训练效率至关重要。
SE:移动数据确实有很大的开销,对吧?
Petr:如果你看数据中心,他们是以吉瓦的价格购买数据中心。NVIDIA正在与一家数据中心提供商达成协议,说:“我需要4吉瓦或更多。”至于容量,他们不谈需要多少CPU或GPU,也不需要多少带宽或内存。他们开始谈论能量。超虚拟化和并行化——即培训中的沟通——是不同的。我们也听到其他嘉宾说,内存的位置和连接方式至关重要。从推理角度看,我认为我们的半导体行业与消费者之间存在明显的区别。如果你进入GPT,大部分推理都在云端进行。但如果你看手机,我们现在手机上有TPU和NPU,所以这已经是边缘设备了,我们看到不同的计算技术和不同规模的LLM被部署。我认为,与客户合作开发人工智能解决方案时,最重要的一点是,这一切其实都关乎安全。LLMs是基于广泛可得数据构建的,也就是从互联网抓取的,而LLMs则是每家公司独有、基于其IP构建、训练和完善的微调模型或用户专用AI解决方案。一旦你遇到那些有安全要求且不想让IP暴露在任何互联网上的公司,我们就在谈论空气间隙解决方案。这也是你会看到越来越多的边缘需求的地方。这也是我们看到越来越多的数据中心迁移到私人场所,以及边缘设备部署在培训现场——以及推理方面的重要原因。还有移动设备。使用电池的设备有不同的需求。
Uppala:这里的挑战在于,当你看待应用时,必须考虑各种限制。我们的一些同事指出了当计算需求、带宽和延迟要求不同时,存在的挑战。从应用角度来看,比如安防摄像头等,摄像头可以内置一些智能功能,但在处理能力方面是有限的。假设我们谈论的是偏远地区的电力基础设施,火灾隐患一直是个大问题。在这种情况下,你不会期望有很高的连接性,摄像头的计算能力也有限。你可以加入一些分析功能,比如检测火灾并将元数据发送到安全运营中心等。这非常受带宽限制,你需要关注某种特定的东西。从类似的应用角度来看,如果你看安全和安保的分析,比如遭遇入侵等情况,这对延迟非常关键。你需要确保有足够的带宽发送警报,而每秒或毫秒都非常重要,正如最近巴黎卢浮宫发生的事件所示。你越早收到这些警报,就能越快应对某些情况。自动驾驶车辆也是安全是关键关注点之一的例子,你不能指望数据能被传到云端再传回来。推断必须非常快速,才能在车辆上进行推断。我会更从应用的角度出发,看看哪些应用需要延迟以及计算的类型。有时甚至会出现混合情况。比如你把这些摄像头安装在零售场所,盗窃不需要太多分析。你可以在边缘、终端、摄像头本身做分析。但如果你需要更多分析,比如人流量、热力图等,这并不是延迟关键。你可以把这些数据推送到云端,在那里进行分析。归根结底,这取决于应用本身、应用的能力以及应用的连接性。越来越多的用例正在出现,可以利用人工智能,但在带宽和计算能力方面仍然存在一些局限性。
库 珀:我们看到推理与训练的巨大推动。在云端,有几个大厂商,竞争非常困难。向边缘移动的原因之一是,人们有这项技术想要推进,然后说,'哦,那是个拥挤的空间。让我去看看这边。'这里有连接性、隐私、延迟和安全。云端可能存在安全问题,可以通过迁移到边缘来解决。汽车应用就是一个延迟关键的例子。如果你看到行人,你希望你的车能用大型语言模型和你对话。你没有时间去云端说,'哦,注意行人。'还有一点很相关,就是手机里已经有TPU和NPU。所以市面上有一大堆设备,可以让这些人通过算法测试,然后再转向智能眼镜、汽车或其他设备。这很有帮助,因为你已经有一些硬件在位了。此外,这不是非此即彼。另一个汽车例子是,也许我大部分时间都在连接,但不连接时我会切换到本地,然后又回到云端。这可能是一种混合模式,你来回切换。所以,将AI应用迁移到边缘有很多商业和技术原因。
西塔普雷尔:我上周参加了Jensen Huang的主题演讲,他谈到的一个重要话题是物理人工智能,也就是机器人技术。这包括你的视觉语言模型(VLM)、专门的机器学习/强化学习(ML/RL)模型来抓取物品等等。这是一个价值10万亿美元的市场,所以机器人活动非常活跃。[上周],NEO推出了X1,Figure拥有03,所有这些酷炫的东西即将到来。机器人技术,仅仅在这个领域,就必须是前沿领域。你根本不可能做云端。特斯拉和Waymos呢?这些都是边缘计算。另一个例子是现在更智能的可穿戴设备。当AWS服务器事件发生时,人们无法打开他们的大门。人们无法作咖啡机,因为它们都在云端运行。如果你装了心脏起搏器,某种程度上还在分析数据,结果因为Wi-Fi断了,心脏停止跳动,那你就不应该有这种情况。最好保持简单。