人工智能领域的流行词可以是技术性的:感知器、卷积、变换器。这些指的是特定的计算方法。一个最近的术语听起来更平凡,但却具有革命性的含义:时间线。问问人工智能领域的人他们的时间表,他们会告诉你他们预计何时出现通用人工智能(AGI),有时被定义为能够在大多数任务中匹配人类能力的人工智能技术。随着人工智能的复杂度不断扩大——得益于更快的计算机、更优的算法和更多的数据——时间线也被压缩了。包括OpenAI、Anthropic和GoogleDeepMind在内的主要人工智能实验室的领导者最近表示,他们预计AGI将在几年内实现。
一个像我们一样思考的计算机系统将促进紧密的协作。如果实现了AGI,其直接和长期影响尚不明朗,但预计经济、科学发现和地缘政治将发生变化。如果AGI带来了超级智能,甚至可能影响人类在掠夺性等级中的地位。因此,我们必须密切关注技术进展,为应对这种颠覆做好准备。基准测试AI能力使我们能够塑造法律法规、工程目标、社会规范和商业模式——并更广泛地理解智能。
虽然对任何智力能力进行基准测试都很难,但对AGI进行基准测试则带来了特殊的挑战。部分原因是人们对其定义存在强烈分歧:有人用基准表现定义AGI,有人根据其内部运作、经济影响或氛围来定义。因此,衡量人工智能智能的第一步是就这一总体概念达成一致。
另一个问题是,人工智能系统与人类有不同的优缺点,所以即使我们将AGI定义为“在大多数任务上能匹敌人类的人工智能”,我们仍然可以争论哪些任务真正重要,哪些人类制定标准。直接比较很难。“我们正在制造外星生命体,”多伦多大学名誉教授、因人工智能研究获得诺贝尔奖的杰弗里·辛顿说。
不畏惧的研究人员正忙于设计和提出可能为我们未来提供一些洞见的测试方案。但问题依然存在:这些测试能否告诉我们是否实现了长期追求的AGI目标?
为什么智力测试如此困难即使在人类中,智能也有无限种类。智商测试通过包含一系列半相关的任务,包括记忆、逻辑、空间处理、数学和词汇,提供了一种总结统计数据。换个角度看,每项任务的表现都依赖于所谓的流体智能——即场推理——和凝聚智力——应用所学知识或技能的混合。
对于高收入国家的人类,智商测试常常预测关键结果,如学业和职业成功。但我们不能对人工智能做出同样的假设,因为人工智能的能力组合方式不同。为人类设计的智商测试可能对机器和对人说的话不一样。
还有其他类型的智能通常不通过智商测试评估——而且对大多数人工智能基准来说更是遥不可及。这些包括社会智能类型,如心理推断的能力,以及身体智能类型,如对物体与力量因果关系的理解,或协调身体在环境中的能力。这两者对人类应对复杂情境都至关重要。

20世纪初的德国马——聪明汉斯,似乎能算数学——但实际上是对训练师细微提示的反应,典型的误解表现。
智力测试很难——无论是人、动物还是机器。你必须警惕假阳性和假阴性。也许考生看起来聪明,只是通过走捷径,比如著名的“聪明汉斯”,那匹看似会数学但实际上能响应非语言信号的著名马。或者考生之所以显得愚蠢,仅仅是因为他们不熟悉考试程序或有感知障碍。
这也很难,因为智力的概念在不同时间和地点会有所不同。佐治亚理工学院心理学助理教授安娜·伊万诺娃说:“我们的社会正在发生有趣的转变,关于我们对智力的理解以及其价值的方面。”例如,在百科全书和互联网出现之前,“脑海中能广泛接触事实被视为智力的标志。”如今,我们越来越看重流体而非晶莹剔透的智慧。
人工智能智能测试的历史多年来,许多人向机器提出了巨大的挑战,声称需要与我们同等的智能。1958年,三位著名人工智能研究者写道:“国际象棋是卓越的智力游戏。…如果有人能设计出一台成功的国际象棋机器,那似乎已经深入人类智力的核心。”他们也承认理论上,这样的机器“可能发现了某种类似于人类腿部轮子的东西:一种方法与人类截然不同,但在某种方式上极其有效,且可能非常简单的东西。”但他们坚持立场:“似乎没有看到任何此类情况。”1997年,当IBM的深蓝电脑击败了当时的国际象棋冠军加里·卡斯帕罗夫时,这种情况几乎在眼前,尽管他连跳棋的智力都没有。

IBM的深蓝在1997年击败了世界国际象棋冠军加里·卡斯帕罗夫,但缺乏足够的综合智力来下跳棋。
1950年,艾伦·图灵提出了模仿游戏,该游戏的一种版本要求机器在打字对话中伪装成人类。他写道:“问答方式似乎适合介绍我们希望纳入的几乎任何人类领域。”几十年来,通过现在所谓的图灵测试被认为是几乎不可能完成的挑战,也是AGI的有力标志。
但今年,研究人员报告称,当人们与另一个人和OpenAI的GPT-4.5对话5分钟,然后猜测哪个是人类时,73%的概率选择了AI。与此同时,顶级语言模型经常犯一些很少有人会犯的错误,比如错误地计算了草莓中字母r出现的次数。它们看起来更像轮子而不是人腿。因此,科学家们仍在寻找无法被黑客入侵的类人智能指标。
ARC通用人工智能测试有一个AGI基准测试虽然不完美,但作为大多数新产品的重要对比,获得了很高的关注度边境模型。2019年,当时是谷歌软件工程师、现为人工智能初创公司Ndea创始人的弗朗索瓦·肖莱发表了一篇题为《智力衡量》的论文。许多人将智能等同于能力,而一般智力则等同于广泛的能力。Chollet对智能的看法更狭窄,只认为重要于一种具体能力——能够轻松获得新能力。像ChatGPT驱动的大型语言模型(LLM)只有在训练数万亿文字后,才能在许多基准测试中表现出色。当大型语言模型遇到与训练数据截然不同的情况时,它们常常失败,无法适应。在Chollet的意义上,它们缺乏智能。
配合论文,Chollet创建了一个新的AGI基准,称为抽象与推理语料库(Abstraction and Reasoning Corpus,简称ARC)。游戏包含数百个视觉谜题,每个谜题都有多个演示和一个测试。演示有一个输入网格和一个输出网格,两个网格都填充着彩色方块。测试只有输入网格。挑战在于从演示中学习规则并应用于测试,创建新的输出网格。

《抽象与推理语料库》挑战人工智能系统仅凭几个例子推断出抽象规则。给定输入输出网格的例子,系统必须将隐藏模式应用到新的测试用例——这是人类觉得容易但机器仍然难以应对的。
ARC专注于流体智能。“要解决任何问题,你需要一些知识,然后你要临时重新组合这些知识,”乔莱特告诉我。为了让它不是对存储知识的测试,而是对如何重新组合知识的测试,训练谜题应当提供所有所需的“核心知识先验”。这些包括物体凝聚力、对称性和计数等概念——这些都是小孩子具备的常识。有了这些培训和几个例子,你能判断出该应用哪种知识来做新拼图吗?人类能轻松解大多数谜题,但AI起初表现挣扎。最终,OpenAI开发了一个版本的o3推理模型,表现优于普通人类考生,得分达到88%,尽管每个谜题的计算成本估计为2万美元。(OpenAI 从未发布过该模型,因此它不在排行榜上。)
今年三月,Chollet推出了更难的版本,称为ARC-AGI-2。该项目由他新成立的非营利组织ARC奖基金会监督。“我们的使命是通过持久的基准,成为AGI的北极星,”该团队宣布。ARC奖将提供一百万美元奖金,大部分奖金将颁给那些训练有素的AI能够仅用四个图形处理器、12小时内解决120个新谜题中85%的团队。新谜题比2019年的更复杂,有时需要应用多条规则,进行多步骤推理,或解读符号。人类的平均得分是60%,而截至目前,AI的最佳得分约为16%。
人工智能专家认可ARC的价值,也认可其缺陷。伊利诺伊大学厄巴纳-香槟分校计算机科学家尤嘉轩表示,ARC是“一个非常好的理论基准”,可以揭示算法的运作方式,但“它没有考虑人工智能应用的现实复杂性,比如社会推理任务。”
圣菲研究所的计算机科学家梅拉妮·米切尔表示,它“捕捉到了人类一些有趣的能力”,比如能够从少数例子中抽象出新规则。但鉴于任务格式狭窄,她说,“我认为它并不能真正体现人们所说的通用智能。”
尽管存在这些限制,ARC-AGI-2 可能是先进 AI 与普通人之间性能差距最大的 AI 基准,是 AGI 进步的有力指标。更重要的是,ARC 仍在进行中。Chollet 表示,AI 可能在一两年内达到当前测试的人类表现,他已经在着手开发 ARC-AGI-3。每个任务都像一个微型电子游戏,玩家需要弄清楚相关概念、可能的行动和目标。
AGI基准测试应测试哪些属性?研究人员不断推出基准测试,探究一般智力的不同方面。但每一次也都暴露了我们对领土的地图有多么不完整。
一篇近期论文介绍了General-Bench,这是一个基准测试,利用五种输入模式——文本、图像、视频、音频、3D——来测试人工智能系统在数百项任务上,这些任务要求识别、推理、创造力、伦理判断以及其他理解和生成材料的能力。理想情况下,AGI应展现协同效应,利用跨任务能力,超越最优秀的AI专家。但目前,没有任何人工智能能够处理所有五种模态。
其他基准还涉及虚拟世界。《自然》杂志四月的一篇论文报道了Dreamer,这是谷歌DeepMind的一种通用算法,学会了执行150多项任务,包括玩雅达利游戏、控制虚拟机器人以及在Minecraft中获取钻石。这些任务需要感知、探索、长期规划和互动,但Dreamer能否应对现实世界的混乱尚不清楚。该报主要作者丹尼贾尔·哈夫纳说,控制电子游戏比控制真实机器人容易:“角色从未摔倒。”这些任务也缺乏与人类的丰富互动,以及在手势和环境背景下对语言的理解。“你应该能告诉你的家用机器人,'把碗碟放那个橱柜里,不要放那边',你指着[橱柜]它就能理解,”他说。哈夫纳表示,他的团队正在努力让模拟和任务更加真实。
除了这些现有的基准之外,专家们长期以来一直在争论理想的演示应是什么样子。早在1970年,人工智能先驱马文·明斯基就告诉《生活》杂志:“三到八年后,我们将拥有一台拥有普通人类一般智力的机器。我是说,一台能够读莎士比亚、给汽车加油、玩办公室政治、讲笑话、打架的机器。”如果你能把办公室政治的游戏付诸实践,那个任务清单似乎是一个不错的开始。
2024年《工程学》期刊的一篇论文提出了“通测试”(tong在中文中意为“一般”)。虚拟人会被分配随机任务,不仅考验理解力,还考验价值观。例如,人工智能可能会意外发现地上的钱或哭泣的婴儿,这让研究人员有机会观察人工智能的行为。作者认为,基准应测试人工智能探索和设定自身目标的能力、其与人类价值观的一致性、因果理解以及控制虚拟或实体身体的能力。更重要的是,基准应能够生成无限数量的动态物理和社交互动任务。
还有人,比如明斯基,建议考试要求在不同程度上与现实世界互动:在陌生的厨房煮咖啡、把十万美元变成百万,或者在校园上大学并获得学位。不幸的是,其中一些测试不切实际,且可能对现实世界造成伤害。例如,一个人工智能可能通过诈骗他人赚取百万。
我问了诺贝尔奖得主欣顿,哪些技能对人工智能来说最难掌握。“我以前以为是弄清楚别人在想什么,”他说,“但它已经开始做一些类似的事情了。它已经能进行欺骗了。”(在最近的一项多所大学研究中,一台大型语言模型在说服考生选择错误答案方面表现优于人类。)他接着说:“所以,现在我的答案是管道。老房子的管道需要伸手到奇怪的缝隙里,正确地拧紧。我觉得这大概还能安全保存十年。”
研究人员争论是否需要具备执行体力任务的能力来展示AGI。谷歌DeepMind关于测量AGI水平的论文认为不行,认为智能可以仅在软件中显现。他们把身体能力看作是AGI的附加项,而不是必需品。
圣菲研究所的米切尔表示,我们应该测试完成整个工作所需的能力。她指出,人工智能可以完成人类放射科医生的许多任务,但无法替代人类,因为这份工作涉及许多连放射科医生自己都未意识到的任务,比如确定该做哪些任务和应对突发问题。“世界上发生的事情真是太长了,”她说。她指出,有些机器人吸尘器没有经过识别狗粪的训练,所以它们把狗粪抹在地毯上。“在构建智能系统时,有很多你根本没想到的东西。”
一些科学家认为,我们不仅要观察性能,还要观察其内部发生的事情。加拿大不列颠哥伦比亚大学计算机科学家Jeff Clune合著的一篇最新论文报告指出,深度学习常常引导AI系统创造“破碎纠缠的表征”——基本上是一堆临时拼凑的捷径拼接在一起。然而,人类则寻找世界中宽广而优雅的规律。一个AI系统可能基于一次测试看起来很智能,但如果你不了解系统的内部结构,当你在新情境下部署时,可能会惊讶地发现它应用了错误的规则。
AGI已经到来,同时永远不会到来作家刘易斯·卡罗尔曾写过一个角色,他用“一英里对一英里的比例尺”绘制国家地图,后来才把国家作为独立地图。在智力测试的情况下,最全面的地图就是在情境中测试他们。在这方面,AGI的一个强有力测试可能是让机器人过完整的人类生活,比如说,抚养一个孩子长大成人。
“最终,真正考验人工智能能力的是它们在现实世界中所做的事情,”克鲁恩告诉我。“所以我更喜欢关注哪些科学发现(人工智能)实现了哪些工作,而不是基准测试。如果人们雇佣他们来做工作而不是真人,并且坚持这个决定,这极其说明了人工智能的能力。”但有时候你想先了解某样东西的表现如何,再让它替代一个人。
我们可能永远无法就AGI或“类人”人工智能的含义达成一致,或者什么能证明这一点。随着人工智能的发展,机器仍然会犯错,人们会指出这些错误,说这些AI其实并不聪明。佐治亚理工学院的心理学家伊万诺娃最近参加了一个小组讨论,主持人询问了关于AGI时间线的问题。“我们有一个人说这可能永远不会发生,”伊万诺娃告诉我,“还有一个人说这事已经发生了。”因此,“AGI”一词可能只是表达目标或恐惧的方便简写,但实际应用可能有限。在大多数情况下,它应该带有星号和基准。