边缘人工智能的普及将要求语言模型和芯片架构进行根本性变革,使得在人工智能数据中心之外进行推理和学习成为可行的选择。
小型语言模型(SLMs)的初始目标——参数数大约不超过100亿,而最大型大型语言模型的参数超过一万亿——是专门利用它们进行推理。然而,越来越多的学习能力也包含在内。由于SLM专为狭义任务设计,能够在发送查询、指令或传感器数据到AI数据中心并获得响应的时间中,生成结果的极短。
SLM并不是新鲜事。EDA公司多年来一直在尝试优化计算软件,科学家们也用更小的模型来解决数学和科学问题。但2022年11月ChatGPT的推出彻底改变了全球对人工智能的看法,大量投入的行业使商业语言模型能够在本地以更低的能源运行更快。
在边缘采用人工智能需要对语言模型进行更多细化。但预期这些最终将带来物联网本应成为边缘功能的一部分。虽然对边缘人工智能总可用市场(TAM)增长的预测仍属猜测,但普遍认同其趋势正急剧上升。财富商业洞察估计,到2032年市场将达到2670亿美元,而2024年的仅为270亿美元。这反过来预计将为各种芯片、芯片组和工具创造全新的市场机会,以优化这些设计。
谷歌Edge AI研究主任比利·拉特利奇说:“这是我们目前正在进行的活跃研究领域。”“我们怎么把模型做得更小?我们如何创建合适的SLM,根据某样东西的能力来执行路由和智能级联,或者将其送往其他层级?能够驱动这些车型的发动机是起点。然后我们可以开始积累更多软件和机器学习的经验。”
德勤最近的一项调查发现,2024年投资边缘计算的公司对边缘人工智能的投资回报率比以往更为乐观。德勤指出,嵌入某些设备的人工智能可能带来改变游戏规则,因为它不需要互联网连接。这影响涵盖了从工业、汽车到消费设备(如安防摄像头)等多个领域。
“它可能不会收到'你的Ring摄像头检测到运动'这样的信息,而是'有人穿棕色衬衫和黑鞋从你的门廊拿了包裹并带走了,'”Cadence人工智能知识产权产品营销总监Jayson Lawley说。“而且你不必把所有视频帧都送到数据中心处理。如果能在边缘做到这一点,那可是巨大的节省。”
在汽车领域,SLM将使车辆功能更丰富,实现更丰富的车辆与基础设施之间的通信。在芯片制造领域,他们将提供实时分析。在客户服务方面,他们将减少自动答题服务菜单带来的挫败感。此外,它们将推动新的芯片架构,从多芯片组件配定制处理器和更分布式控制器,到预装SLM芯片组。
挑战在于将这些SLM缩减到可行的规模,并开发能够在低功耗内加速算法的硬件架构——同时在所应用的领域保持足够准确的精度。大型人工智能公司报告称通过量化实现了数量级的降低,将高精度FP32(32位浮点)降至仅限于FP4。之所以有效,是因为并非每个查询、指令或分析都需要筛选庞大的数据集。如果能本地存储较小的高度相关数据,或至少存储在终端设备附近,那么简单的4位响应可能就足够了。或者,通过针对特定数据类型定制的更快处理元件和更具针对性的内存架构,SLM可能能够在不显著减速或电池耗损的情况下使用FP16。
“很多人都在考虑这些小语言模型,”ChipAgents首席执行官William Wang说。“客户希望任务能有高性能,但他们也希望确保做出正确的权衡。也许你可以得到一个性能稍低但响应速度更快的模型。例如,Cursor 刚刚发布了它的 Composer 模型,但不如前沿但速度非常快。你想推动帕累托曲线,但同时也需要达到任务所需的基本精度水平。”
这对人工智能来说是一种非常不同的方法。Cadence的Lawley说:“大型语言模型本质上是一种暴力破解方式,将我们拥有的所有数据压缩成各种不同的连接,并实现各种不同的矢量化。”“但如果你能把它越来越小,然后再压缩,你真的能更有效地把东西推到极限。”
例如,存储在边缘设备中的数据可以限制在与特定芯片或芯片组功能特别相关的内容,而不是试图添加全局上下文。
“这些产品很多都知道它们的用途,”资深史蒂夫·塔特西安说副英飞凌物联网、消费及工业多单元总裁。“你不会问你的恒温器为什么你的Wi-Fi断了,也不会去写一篇关于美国宪法的论文。你会问它关于特定领域内容的问题。但我们可以超越唤醒词的语言模型,包括对该问题的自然语言处理,然后进入生成回答的语言模型。我们称之为边缘语言模型(ELM),但我们会看到它从生成式AI转向通用AI,因此模型可以用于不同领域。你可能同时运行多个ELM,可以训练一种语言来询问上下文,另一种则训练视觉,依此类推。此外,除了所有型号外,你可能还有一个代理利用这些输入向用户提供相关信息,比如你的汽车位置,因为它实际上识别了你的车辆。”

工作负载定位短期内更通用的SLM更合理,因为它们可以利用广泛的处理元素。语言模型几乎处于不断变化的状态,而硬件设计、验证和制造则需要18到24个月。到那时,为特定SLM共同设计的芯片已经过时了。
“你想从大型号中提炼一些基础知识,注入“把它变成更小的模型,”ChipAgents的王说。“但你也希望能够修剪权重,这样你用的不是16比特,而是8比特。所有东西都会被压缩。有许多知名算法可以压缩权重并达到一定的准确度。但语言模型和人工智能发展极快,硬件难以共同设计。一年前,人们还在为Llama 3共同设计硬件。但现在没人再用Llama 3了,而且为Llama 3设计的芯片可能不支持Llama 4,所以没人会买。”
替代方法包括在芯片中增加一定的可编程性,或使用更通用的芯片进行定制配置,以在一个或多个狭窄定位的SLM中提供最佳权衡。
“随着你离设备越来越近,你会拥有更多可变现的服务,”Baya Systems首席商务官Nandan Nayampally说。“你们将拥有用于降噪、视觉识别的SLM——不仅仅是标准的可视化。会是不同的情境。我们看到多个客户对更具体、更定制化的车型有需求。LLM其实更像是通识,很多由LLM开发的SLM更多是推理而非训练。这种培训不会消失,如果有变化的话,在短中期内会增加,因为会有更多作为SLM基线的模型。但推断点正从云端向下移动到网络边缘,甚至可能延伸到终端设备,这一转变会非常有趣。”
其他人也同意。“去年我们谈了很多物联网的去向,物联网自2013或2014年就已存在,”英飞凌互联安全系统部门总裁托马斯·罗斯特克说。“变化在于,过去物联网更像是云端的接口。现在它真正变成了物联网。东西在互相交流。比如,我家里大约有100个物联网设备。我有一个烟雾报警器,如果不时测试烟雾报警器,会触发警报,其他所有烟雾探测器都会重复,所有灯都会亮起,所有遮阳帘都会升起。这是基于我们给出的指导方针的实际示例。边缘人工智能通过提供更多智能,并为物联网设备增添了新能力,同时又提供了新的功能集。那么会有变化吗?是的,因为边缘设备变得更强大了。而且边缘和云端的工作分配必须改变,因为云服务器集群消耗了大量能源,我们至少必须让它在数据传输和任务方面都合理。”
这并不意味着云不再有用。模型仍需训练,大规模上下文搜索和分析对边缘设备来说过于庞大。但将更多处理迁移到边缘确实降低了每笔AI交易的成本,无论是传输数据、云处理所需的能量,还是以可在线化的形式返回。
Arteris董事长兼首席执行官查理·雅纳克说:“提高效率的方法之一是减少传输所有数据所需的能源。另一种方法是改进大型语言模型处理数据的方式。因此这里有很多创新需要完成,而这些创新是必要的,因为目前如果你看看所有用于人工智能训练和推理的数据中心,它们总计消耗的能源是迄今为止全球生产的三倍。所以小型核反应堆市场很大,但答案之一是整个过程变得更高效,我们不仅仅关注处理能力,还必须关注能源效率和能源利用。”
这种效率来自于提升运行LLM系统的效率,同时也通过SLM在边缘处理更多数据,并限制需要发送到云端的数据量。“关键在于尽量减少数据的往返传输,”高级Venkat Kodavati说副Synaptics无线部门总裁兼总经理。“但当你必须这么做时,你也要高效地完成,节省电力。我们已经见过很多小型语言模型,凭借数亿参数,我们可以在边缘设备上支持这种传输。但模型最终将能更高效地运行在边缘设备上。你可以在边界做大量推理,也可以进行一些训练。你可以在边缘进行定制训练,然后在云端更新模型。所有这些事情很快就会发生。”

而且在很多情况下,这些信息会对用户隐藏。劳利说:“人工智能真正开始影响人们的地方,往往是当他们不知道它影响了自己时。”“对他们来说会是隐形的,就像我们说话时去除背景噪音一样。它就像现在的手机一样融入了日常生活。你会在边缘应用中看到这一点。我预测你是否在使用科技会更加困难。这只是你生活的生活方式。”
本地化,必要时全球化。利用云和边缘的混合模式,在大多数情况下——至少在短期内如此。本地处理会带来更快的结果,但设备仍需与大型数据中心通信,如维护和软件更新,以及查询无法本地存储的大型数据集,如半导体制造。事实上,SLM增加了多次测试插入时需要处理的数据量。
“我们暂时会利用大型语言模型,”艾拉·莱文塔尔说,副Advantest应用研究与技术总裁。“小型语言模型将专注于一些需要使用的细分应用。但从测试角度来看,如果模型进入小型语言模型,优势是它们非常有目的性。所以你可以把这些问题缩减到测试时需要提示的更小用例,比如减少变异性。这样会简化事情。但如果你有一堆小型语言模型,你还得考虑测试所有这些模型,并且必须并行测试它们。”
这需要跟踪涉及多个小语言模型的所有交互和依赖关系。SLM需要被巧妙地集成到复杂流程中,如半导体测试或检测,否则可能会引发问题。
PDF Solutions首席执行官John Kibarian表示:“我们正在利用大型语言模型能力的专业知识,但客户希望它非常针对我们的系统,同时也希望它非常针对他们的数据,并且本地化,”PDF Solutions首席执行官John Kibarian说。“他们想要的是完全为其设计的设备,但能更智能地适应环境,并且根据可用能力不断更新。他们希望看到人工智能作为一种补充,以便知识能够被捕获并传递给下一代工程师。这将使我们的行业进入前所未有的领域,同时不忘过去积累的知识。他们正在寻找这种小型、本地培训的能力,通过学习过去所有生产、分析、测试项目以及他们对数据的分析方式,在某种程度上有效封装部落知识,从而更快地将这项能力推广到整个组织。”
更多功能,新挑战,SLM是一个广泛的标签,最终会被细分为几个子集。例如,有多型号型号、视频SLM,随着边缘设备添加更多功能,还会有更多产品。目前还不清楚它们可能如何相互作用,如何以有用的方式构建这些互动,或者在无法实现时如何尽量减少它们。此外,如果允许这些设备学习,还需要某种监管以确保它们的可靠性。
谷歌工程总监Kai Yick说:“在边缘设备方面,我们开始考虑如何在不同领域运营,比如我们如何进入代币领域。”“那在代币化空间里,怎么做传感器融合,然后在边缘设备上?一旦你把所有东西都标记好了,你就可以做决策了。它应该采取行动吗?那么,是否应该将这个决定连锁到其他方面?比如,它可以移动到我的手机、电话列表,或者在这种情况下更能运行一个小型大型语言模型。那么,这个LLM应该根据我的查询回复我吗?或者如果是行动,应该基于这个意图采取更复杂的行动?如果它超过了某样东西的能力怎么办?然后它会传递到数据中心吗?我们正在关注的是这种级联架构。”
结论:准确性与性能之间的权衡将继续主导边缘领域,并为其开发的SLM在不久的未来继续存在。但提供边缘人工智能的公司将利用他们在云中学到的知识,借助大型语言模型(LLM)加快SLM的推广。数据传输距离越少,需要发送到云端的数据越少,响应速度就越快。SLM的具体性能越严格,优化速度就越快。
SLM正在迅速涌现,并且在各个方向推动边界。在某些情况下,它们将是多模式的。在其他情况下,它们会针对特定模式,如视觉或自然语言音频。无论如何,它们都会定义并重新定义我们与机器的交互方式,以及机器之间的相互作用,而这一切都将发生在更接近数据源头、人们在工作和日常生活中使用的工具和机器上。