首页 > 资讯 > 人工智能

AI助力摆脱智障,汽车座舱智能大升级

时间:2025-11-27 编辑:工信部互联网服务投诉平台 来源:互联网广告

核心提示:一如十年前轰轰烈烈的互联网+、+互联网热潮,自DeepSeek R1在春节期间爆火之后,新年伊始,国内各行各业也马不停蹄地开展起了一波轰轰烈烈的大模型+、+大模型的热潮。勤奋努力到感动自己、内卷到让所

一如十年前轰轰烈烈的互联网+、+互联网热潮,自DeepSeek R1在春节期间爆火之后,新年伊始,国内各行各业也马不停蹄地开展起了一波轰轰烈烈的大模型+、+大模型的热潮。勤奋努力到感动自己、内卷到让所有人都感到不可思议的本土车企,当然也希望大模型来增加自家产品、运营、生产制造等方方面面的竞争力。在自动驾驶领域,站在“大模型+”的视角下,大模型可以加速自动驾驶数据闭环,通过数据自动标注、仿真场景的重建和生成提高模型的迭代速度。站在“+大模型”的角度,车辆部署的视觉语言模型可以提升对复杂场景的理解能力,给出合理的车道、速度和动作规划,或者在视觉-语言-动作模型下直接输出比肩人类老司机水平的行车轨迹。在智能座舱或智能空间领域,站在“大模型+”的视角下,大模型可以提高程序员的生产力,比如长城汽车、蔚来汽车通过代码大模型赋能代码的编写和审查,站在“+大模型”的角度,在感知层面,大模型可以用于实现多模态感知,在决策层面,各类车载GPT陆续上车,在执行层面,大模型助力空间交互,使人车交互从机械的菜单式交互走向了更加自然类人的情感交互。鉴于在过去一年的时间里,业界已经针对大模型如何助力自动驾驶有过太多的论述,本文把焦点放在智能空间领域,看一看大模型时代的智能空间背后的技术发展趋势。

多模态感知,精准理解用户需求

面对面,为什么还在想着你?因为,面对面的看见只能传递单模态的视觉信息,信息维度单一造成的情感深度不足,反而触发并强化了对多模态完整体验的渴望。只有轻轻的抚摸、温柔的甜言蜜语、体温的互相传递、呼吸着彼此的呼吸和眉目传情全维一体,才能满足人类对全感官同频共振的本能爱情追求。人同此心,车同此理,只有具备多模态全域感知能力和深度理解能力的智能座舱,才能承载消费者希望智能座舱更懂你的深切渴望。

智能座舱中的多模态感知通过时钟同步技术实现多模态数据的同步采集,并通过语音+手势+视线+触控+生物状态的因果链建立跨模态之间的关联,从而从单模态的信息采集走向多模态的多源协同,在车内通过手势识别、语音识别、人脸识别、触控、声控、手势控制建立围绕人或“以人为中心”的感知体系。正如基于规则驱动的自动驾驶系统无法应对层出不穷的Corner Case一样,将来自不同模态的语音、视觉、触控信息通过规则的形式融合在一起,也很难建立跨模态关联能力,解决用户在各种各样场景下层出不穷的长尾需求难题。恰如端到端形式的VLA智驾大模型在一定程度上解决了自动驾驶中的Corner Case一样,同样是端到端范式的VLM大模型也正在进入智能座舱里,以多模态感知实现对各种用户长尾需求的精准理解。

1763357591449493.png

图片来源:小鹏汽车

不过,受制于训练数据不足、座舱算力瓶颈等一系列问题,和自动驾驶行业玩家们纷纷转向端到端和VLA模型不一样的是,在智能座舱领域,大家部署座舱VLM的方式不尽相同。大部分车企的做法是在端侧通过参数量较小的VLM模型做多模态感知,然后以结构化数据的形式将感知结果上传到云端,依靠云端的DeepSeek等推理大模型深度理解用户需求并进行决策,华为的鸿蒙座舱Harmony Space 5里的混合大模型架构MoLA就是这种端云结合的架构。

1763357647215926.png

图片来源:华为

与华为争夺本土自动驾驶王者桂冠的小鹏汽车选择了不一样的技术路线。在前段时间的小鹏G7发布会上,小鹏汽车宣布在Ultra车型里以单颗算力在700+TOPS的图灵AI芯片部署座舱VLM。很显然,和本地感知+云端决策的混合大模型架构不同,小鹏汽车的方案是在端侧部署大参数VLM,以单模型架构统一地完成多模态感知、用户需求的深度理解和决策。

两相比较,小鹏代表着更先进的技术路线。如果华为能突破座舱芯片算力的限制,它大概率也会一步到位地选择小鹏汽车的单模型架构方案,因为这种本地端侧部署方式才能实现真正的千人千面。

本地部署,助力千人千面

最近这段时间以来,自动驾驶芯片厂商和方案供应商们开始统一战线,一致劝阻本土车企放弃自动驾驶算法的自研。比如,国内头号自动驾驶芯片厂商地平线表示,站在终局的角度,只有20%的车企选择自研,80%的车企会选择第三方的自动驾驶方案。他们这个观点的出发点在于,自动驾驶作为智能电动汽车的一项功能、Feature,做不出差异化,毕竟,所有的自动驾驶系统都要同时满足安全、舒适、高效、不违反交规这些指标。地平线建议,就像智能手机厂商基本上都不做基站这种功能价值,而是将研发资源投入到拍照这类情绪价值上一样,车企们不需要把有限的研发资源投入到做不出差异化、只具有功能价值的自动驾驶上面,而要将研发资源投入到智能座舱这一类能够提供千人千面的用户体验、从而具备极高的情绪价值的领域里面。

1763357676447396.png

图片来源:地平线

给奋力自研自动驾驶的蔚小理道一声抱歉,我部分同意余凯博士的观点。对智能电动汽车而言,自动驾驶安全、舒适、高效的明确标准与目标用户人群无关,可类比智能手机的基带,能做到千人千面的智能座舱或智能空间更像智能手机的拍照、摄影,能带给用户个性化的服务体验。

所谓千人千面,是指可以根据各个用户的使用习惯自我学习和迭代,通过“自我成长”不断优化,为智能空间里的每一个成员都带来专属的个性化智能体验。很显然,千人千面的前提之一是前文所述的多模态感知能力,只有多模态才能懂你所需,想你所想,第二个前提是要拥有大量的用户数据,通过对用户数据的长期学习,建立起记忆体,构建起用户画像。记忆体联接过去,多模态感知现在,有了多模态即时感知和基于记忆体的上下文能力,才能真正洞察用户需求背后的因果关系。

1763357722478898.png

图片来源:蔚来汽车

这两个前提都要求座舱VLM部署在端侧和本地。根据《汽车数据安全管理若干规定》,默认情况下不能收集车内摄像头、麦克风采集的驾乘人员面部、语音、生物特征,即便征得了用户同意,将收集的数据上传云端时也必须脱敏,面部、指纹、声纹等任何能够确定个人身份的信息都需要模糊处理。脸都不让看,当然无法实现千人千面,而且,以结构化数据将感知结果上传到云端,理论上将不可避免地面临信息压缩和细节丢失问题,没有了表情和声调的细节,感知能力自然无法尽如人意。当然,条例归条例,标准归标准,或许也约束不了大胆的车企。

写在最后

目前,大部分车企都将资源重点投到了自动驾驶上面,智能座舱方面没有多少突出的进展,这种局面应该改变一下了。展望未来,随着座舱芯片算力升级和本地VLM座舱大模型的落地,基于交互数据、情景数据训练出来的智能座舱不仅可以多模态地感知,还能不断地学习个人专属数据,构建越来越精准的用户画像,最终让你情不自禁、热泪盈眶地喊出那三个字:你懂我!是不是觉得鸡皮疙瘩掉了一地?

 
更多>同类资讯