
随着边缘人工智能不断革新行业,选择合适的处理器成为开发者和企业的关键决策。虽然TOPS次数(每秒太作数)历来是评估AI硬件的首选指标,但仅依赖它可能导致过于简化和误导性的结论。在这里,我们将探讨细微 差别比较尖端AI处理器及应考虑哪些参数。
步骤1:计算与内存的平衡虽然TOPS提供了原始计算能力的衡量,但它只讲述了部分情况。要真正理解处理器的性能,我们需要考虑计算能力与内存之间的微妙平衡。
TOPS什么时候重要?为每个应用选择的神经网络架构定义了计算能力的量。由于所需的计算能力与输入大小成正比,视频或图像处理所需的计算量(由像素数乘以每秒帧数(FPS)定义,其计算能力高于处理时间序列输入(如音频或雷达)所需的采样率计算能力。由于语言是一种高度浓缩和抽象的交流形式,它能够用远少于图像或视频中密集高维输入的数据传达大量意义,因此处理所需的计算量显著减少。

图1:TOPS 与 fps(感知型 AI 模型)
如图1中的图表所示,所需的计算资源与模型规模和输入吞吐量线性。
每个输入样本所需的计算资源在不同AI任务中差异大为数倍。
感知型AI(例如物体检测、分类):每个输入样本可执行10万次作,通常以高帧率和高分辨率处理
增强AI(例如低光去噪、自动变焦、自动对焦):每个输入样本可作1万次
生成式人工智能(如LLM、VLM、文本转图像等)——每个输入样本可作1K次

图2:不同AI任务的模型规模与计算需求
记忆什么时候重要?感知型和增强型AI模型的参数数相对较低(增强型为<100万,感知型为100万至100万美元)。拥有足够片上内存的处理器可以在不依赖片外内存的情况下处理此类型号,从而降低延迟和功耗。
而生成式AI模型则处于数十亿参数的规模,边缘和移动模型参数范围从5亿到8亿不等。对于如此大型的型号,片外存储器(例如DRAM)变得至关重要。随着数量级的增加,每个接口的内存带宽负载已超过可用带宽,主导了系统级性能。如图3所示,代币逐代币(TBT)性能并不会随模型规模线性增长。模型尺寸翻倍或四倍并不会线性翻倍,除非带宽也相应地扩展。

图3:给定标准内存接口的模型性能(生成式AI模型;假设4位权重表示)
带宽瓶颈从这个例子中显而易见。而一个1B参数的小型语言模型在1个LPDDR4X内存和17GB/s带宽下,可以达到高达40个令牌/秒的TBT性能;而4B模型则需要将内存带宽增加四倍才能达到相同性能。
中间成绩也是限制因素。在执行层层计算的架构中(如 GPU),中间结果也会增加内存带宽负担,使步长更低,或限制每个内存资源可实现的性能。
在生成式AI应用场景中,增加内存资源对于保持高性能至关重要。然而,这不仅带来了成本增加,还带来了延迟和更高的功耗需求。因此,所有资源之间需要谨慎平衡。
计算资源和内存资源的平衡任何人工智能应用要高效运行,都需要一定的计算量和内存。但超过这个阈值,TOPS和内存之间的平衡就因工作负载而异。考虑一个高分辨率视频分析任务。这种工作负载需要强大的计算能力来处理大输入帧和高帧率,同时处理这些帧需要适度的内存带宽。现在与自然语言处理模型形成对比,后者对内存的需求远远超过计算压力。当输入主要为文本和/或音频时,推断速率达到人类交互速度,因此内存带宽是限制因素;然而,当涉及视频时,随着图像输入处理,这一限制变得更加平衡阶段以TOPS为主,而非图像模态受限于内存带宽。
在每种情况下,增加更多TOPS,或增加内存而不寻址对方,都会导致收益递减。对于某些应用,即使有无尽的TOPS处理器,处理器也无法运行,因为会遇到内存瓶颈。对另一些人来说,如果计算能力不足以满足任务需求,内存充足也无关紧要。
在选择边缘应用的人工智能解决方案时,一种实用方法是确保作领域内的障碍跨越。实际上,这意味着以理想速率评估每个典型工作负载的性能。
例如,对于单一视频流的安防摄像头应用,需要一个处理器能够处理>30帧的视频增强、10至15帧的感知任务,以及1至2帧的基于VLM的视频分析。这将决定计算和内存资源的平衡,同时考虑功耗和成本包围。

图4:Hailo-15视觉处理器中的内存与计算资源利用
例如,配备32位LPDDR4X内存I/F、20 TOPS 的Hailo-15 AI视觉处理器中,ISP将占用约30%的内存和计算资源,而AI分析主要消耗计算资源,应用视觉语言模型(VLM)对内存需求较大,计算量较小。
TOPS与内存之间的动态相互作用对于理解为何单一指标无法捕捉处理器的真实性能至关重要。这些资源的最佳比例不仅在不同应用之间存在差异,也在单个应用的特定工作点内存在差异。
第二步:理解用例和工作点的作用如果说平衡TOPS和内存是处理器选择的基础,那么该用例为做出明智决策提供了蓝图。与云不同,云端过高负载可能转化为更多实例,无论是计算还是内存带宽,而在边缘领域则存在一个权力和成本的平衡,需要通过在不同工作负载间妥协,才能提供适合实际部署场景的解决方案。
特定边缘AI应用的需求决定了计算和内存的优先级,更重要的是,哪些权衡是可接受的。
以功耗为例。在紧凑型物联网设备中,紧张的电力预算可能迫使他们优先考虑能源效率而非纯粹的性能。与此同时,自动驾驶车辆凭借其丰富的电力储备,会优先考虑超低延迟和高可靠性,以确保安全且实时的决策。价格也是一个考虑因素。智能家居助理必须保持在具有竞争力的消费者价格范围内,这意味着其处理器只能容纳有限的TOPS和内存,否则成本会飙升到难以承受的范围。另一方面,工业机器人在可靠性和性能方面至关重要,因此可以合理化更高的投资。
在边缘AI系统中平衡计算与内存时,各自带来了独特的挑战。
功耗:像物联网传感器这样的紧凑型设备在有限的电力预算下运行,因此需要节能设计。耗电较少的处理器产生更少的热量,这对于没有主动散热系统的紧凑型边缘设备至关重要。增加计算或内存资源往往会增加功耗,从而在性能与电池寿命之间形成微妙权衡。相比之下,自动驾驶系统可以承受更高的功耗,优先考虑超低延迟和高可靠性,确保决策安全且实时。
成本:价格限制也是另一个限制因素。对于智能家居助手等消费设备,保持在有竞争力的价格区间限制了集成的计算和内存数量。工业应用如机器人技术可能为更高可靠性和性能而合理化更高成本,但即便如此,预算限制了可实现的平衡,设计师必须在有限预算内最大化计算性能和内存带宽。
延迟:不同应用对延迟的要求各不相同。汽车和工业系统通常需要即时响应,因为延误可能涉及生死。另一方面,零售分析应用只要保持高吞吐量,用于客户行为分析等任务,可以容忍更高的延迟。这些延迟要求也决定了处理器中计算和内存资源的选择与分配。
选择合适的加速器,旅程始于定义工作点——预算、功耗和延迟约束的交汇点。一旦这些界限确定,就可以评估计算能力与内存之间的平衡,前提是两者都是限制因素。最后,处理商必须根据应用的具体需求进行评估。为智能手机面部识别设计的解决方案将与专为装配线产品检测而设计的方案有很大不同。
最后补充一点:次要考虑虽然TOPS、内存和使用场景之间的权衡主要驱动决策过程,但其他因素也可能影响最终选择。例如,强大的开发者生态系统可以简化实施并加快上市时间。同样,处理器——无论是CPU、GPU还是NPU——的架构灵活性及其适应多种工作负载的能力,尤其在针对多样化市场或应用时,可能带来长期价值。
结论:整体方法选择最佳边缘AI处理器需要细致 入微理解TOPS与内存之间的相互作用,并根据具体使用场景的需求进行定制。仅关注TOPS可能忽视关键瓶颈,忽视应用需求可能导致次优选择。通过定义工作点、平衡计算与内存,并考虑更广泛的应用背景,可以确定能够提供性能、效率和成本效益的正确组合的处理器。
请记住,最强大的处理器不一定是最好的——它是那个完美满足你需求的处理器。