首页 > 资讯 > 人工智能

倪光南:“AI+空间计算”让机器人看懂世界,希望形成“AI+RV芯片”的生态

时间:2025-12-25 编辑:tcl科技股票 来源: 金发科技股票

核心提示:在北京“2025 世界机器人大会”上,中国工程院院士倪光南作了题为《“AI+ 空间计算”让机器看懂世界》的报告,指出“AI+ 空间计算”是落实“AI+”行动的核心技术之一。传统工业化是工业4.0,新型

在北京“2025 世界机器人大会”上,中国工程院院士倪光南作了题为《“AI+ 空间计算”让机器看懂世界》的报告,指出“AI+ 空间计算”是落实“AI+”行动的核心技术之一。传统工业化是工业4.0,新型工业化相当于工业5.0,是“AI+ 机器人”的阶段。我们正在做的RV+OSS(机器人视觉+ 开放智能系统)是人类智能体的世界,未来想提供“AI+RV 芯片”,形成一个“脑-眼- 行动”的完整智能系统的生态。

1766551683509371.png

中国工程院院士 倪光南

1 “ AI+ 空间计算”是落实“AI+”行动的核心技术

“AI+ 空间计算”开启了二维交互向三维交互发展的新范式。空间计算作为一种全新的计算方式,是物理世界和数字世界之间的桥梁,正在重塑人类、机器和世界的交互方式,它是推动机器人落地的关键核心技术之一。

历史上经历了从电报、文字、语音、视频的发展,目前正进入一个重要的从二维交互向三维交互发展的时期。空间计算在其中起着重要的作用。

生成式大语言模型目前引领着科技的发展,但是大语言模型不是世界的全部,生成式AI 不能完全辐射复杂的物理世界,空间计算和AI 融合正以一种全新的方式重构三维物理世界,拓展了大模型通向物理世界的桥梁,促进了物理世界和数字世界的融合。因此,“AI+ 空间计算”是当前落实“AI+”行动的一项关键核心技术。

2 视觉是智能的起点

机器人的眼睛“AI+ 空间计算”主要是为了提升视觉的功能。

生物进化史中,智能的起点是物理性。在物理世界中,首先是视觉,从眼睛开始,与大脑构成了对信息的获取与处理系统,2018 年图灵奖获得者杨立昆(Yann LeCun)教授(注:Facebook 首席AI 科学家和纽约大学教授)有一个说法:一个大模型学习的信息量大概是1014,相当于互联网上所有公开文本信息量的总和,一个人可能几十万年才可以学到,但是一个4 岁的小孩睁开眼睛能学到的信息量也大概就是1014。这就说明我们的大语言模型训练所用的文本信息是不够的。

我们要认识世界、理解世界还需要用到大量的视频信息,我们要重视眼睛,视觉是智能的起点,是物理世界控制感知的基础,是大脑和物理世界作用的桥梁。

“AI+ 机器人”在工厂实际工作的情况是怎样的?会发现机器人看到的世界基本上和人眼看到的相当,但是机器人用“AI+ 空间计算”进行理解和建模。由于机器人有了眼睛,可在移动环境下快速地观察环境,知道精确的位置。

3 工厂管理的变迁——正进入工业5.0

在不同的工业化时期,制造业和机器人的变化是怎样的?一个是传统工业化,一个是新型工业化。传统工业化是工业4.0,新型工业化相当于工业5.0。历史上,制造业的发展从自动化到智能化,现在向“AI+ 工业制造”发展。对于工厂,生产模式过去强调的是刚性化、标准化,目前要融合柔性制造、定制化。

工厂的管理过去是被动的,人去编排作业;现在是工厂的大脑自主决策。我们过去是很多工业软件一起用,现在是很多工业软件会以工作流的方式渗透到整个工作流程中。数字世界、物理世界过去相当于影射的关系,现在达到了融合,把数字和物理世界融合起来。

作为机器人,从自动化的工具变成智能化的主体,成为工厂的主体,现在是由具身智能系统进行控制。参照自动驾驶汽车智能等级分级,机器人过去是L1~L3,是半自动、自动化的,现在想达到L4、L5,作为智能化的自主移动的机器人,操作的按键、键盘、鼠标,希望可以用自然语言来交互,教它工作;从人工编程发展到大模型编程,从固定工位发展到多工位的移动工作,同时无需部署调整,即插即用。为了达到高精度的工作,过去要花很长时间;现在移动工作可以做到,而且非常快速,以很低的代价就可以实现。总之,希望人、货、机将来在工厂生产线上是互相协同、取长补短的。

4 “ AI+ 机器人”的阶段

机器人的智能通常可分为三大部分:脑- 眼- 行动系统。这三部分组合在一起,成为具身智能系统。目前的情况是在脑和眼的方面投入不够,相对是短板,需要特别予以加强,以更好地提升机器人的效能。

正像汽车一样,汽车智驾可以从L1~L5 分为不同的等级,一些组织机构也把机器人进行了相似的分类。目前的机器人大体上处于L1~L3,我们希望通过眼睛和脑的发展,把机器人整体的智能水平发展到L4 及以上,这样机器人才能更好地体现移动、自主、高精度的能力,发挥其在提升生产效率方面的作用。

机器人将要从自动化的工具发展到AI+ 机器人,整个过程要用机器人的智能系统加强发展机器人原来的操作系统,使机器人的控制从实时操作系统变成脑- 眼-行动一体化的智能系统。使机器人能够看见世界、理解世界、行动于世界。

AI+ 机器人分为几个部分。

● 第一部分是脑。机器人必须有自己的脑。大脑是基于大模型的,现在大模型引领各方面的科技和生产的变革,对于机器人的操作系统需要提升到智能系统的水平,产生架构性的变革。一个机器人因为有了脑、眼睛,加上行动的控制,会在工厂发挥重大作用,可以真正达到按照人的要求接收指令、接收任务、自主规划,适应各种场景的需求。

● 第二部分是眼。这是智能的起点,机器人/ 智能系统应该突出眼睛的作用。可以通过很多方案,其中一种方案采用“AI+ 空间计算”,用普通的单目摄像头+神经网络学习组成这种方式,可以达到较好的效果,有很高的性价比,使机器人拥有类似人的视觉,有很好的适应性,具有好用、易用、实用的特点。

● 第三部分是行动。机器人要和很多本体——手、脚、轮子等发生交互,所以需要有一个操作系统。现在建议用开源的AGIROS 支撑“机器人的行动”,这个开源的操作系统由中科院软件所支持,是标准的开源机器人操作系统,有开源的社区——AGIROS 社区,凝聚机器人产学研用各方面的资源,可全面推进智能机器人领域的发展。

通过开源开放、协同创新,为智能机器人发展打下坚实的基础,目前有大批的单位以及开发者加入了这个社区,相信借助开源的力量,AGIROS 会大大增强AI机器人的脑- 眼- 行动协同系统竞争,在全球机器人中能够起到应有的作用。

5 愿景

今后机器人是包含脑、眼和行动协同的具身智能体。我们的目标是要构建AI+ 机器人的生态系统。历史上大的领域出现一些大的系统,例如PC 时代有Wintel;移动手机时代有AA;我们做的RV+OSS(机器人视觉+ 开放智能系统)是人类智能体世界。进入到机器人的世界、AI 体的世界,未来想提供“AI+RV(RISC-V)芯片”,形成一个“脑-眼- 行动”的完整智能系统生态,形成AI 及芯片生态的潮流。

此次讲演归纳为两点。

第一,当前AI 引领科技范式变革的时代,在国家实施“AI+”行动的大形势下,机器人要发展成“AI+机器人”,更好地发挥其新质生产力的作用。

第二,为了达到这个目标,关键在于提升机器人的智能水平,我们要用脑- 眼- 行动协同的系统来提高机器人智能水平,使机器人真正能够看见世界、理解世界、行动于世界。

(本文来源于《EEPW》202512)

 
更多>同类资讯