AI的快速发展能力让许多人感到担忧。但先不要担心:如果你能正确读取模拟时钟,你在这方面仍然优于人工智能。
能够分析文本、图像、视频等多种媒体形式的人工智能模型,即多模态大型语言模型(MLLM),已在体育分析、自动驾驶等多个应用场景中崭露头角。但这些模型有时会在看似最简单的任务上失手,比如准确读取指针式时钟显示的时间。这不禁让人疑惑:这些模型究竟在图像分析的哪些环节遇到了困难?
例如,读取传统时钟时,模型是难以区分长短指针?还是无法精准判断指针相对于数字的角度和方向?这些看似微不足道的问题,恰恰能揭示这些模型的核心局限性。
马德里理工大学助理教授 Javier Conde,与米兰理工大学、巴利亚多利德大学的研究人员在近期的一项研究中,致力于探究这些局限性。相关成果于 10 月 16 日发表在IEEE Internet Computing期刊上,研究表明,若多模态大型语言模型在图像分析的某一方面存在短板,可能会引发连锁反应,影响其图像分析的其他环节。
AI 看时间的能力到底如何?
首先,研究团队构建了一个模拟时钟合成图像的大数据集,这些图像总共显示了超过 43,000 个指示时间,并测试了四种不同的 MLLM 读取图像子集中时间的能力。所有四个模型最初都无法准确报时。研究人员能够通过使用数据集中的额外 5,000 张图像进行训练,并使用他们以前从未见过的其他图像再次测试模型来提高模型的性能。然而,当与全新的时钟图像集合进行测试时,模型的性能再次下降。
结果触及了许多人工智能模型的一个关键局限性:它们善于识别他们熟悉的数据,但往往无法识别他们在训练数据中尚未遇到的新场景。换句话说,它们往往缺乏概括性。
Conde 和他的同事想更深入地挖掘是什么让 MLLM 如此难以分辨时间。如果问题与模型对时钟指针空间方向的敏感性有关,那么进一步的微调可以解决这一限制——只需将模型暴露给更多数据,然后它就会更好地完成手头的任务。
在一系列实验中,他们创建了新的模拟时钟数据集,这些数据集要么具有扭曲的形状,要么改变时钟指针的外观,例如,通过在末端添加箭头。“虽然这种变化对人类来说几乎没有什么困难,但模型往往无法完成这项任务,”Conde解释道,并引用了Salvador Dalí 的著名扭曲时钟画作《记忆的持久性》。虽然人类可以破译扭曲、熔化的时钟的时间,但 MLLM 很难说出类似扭曲的时钟的时间。
结果表明,MLLM很难精确定位时钟指针的空间方向,但当时钟指针具有独特的外观(例如,尖端有箭头)时,它们就更加困难了,而模型尚未广泛接触。然而,这些问题并不是彼此排斥的:通过额外的实验,研究人员发现,如果MLLM在识别时钟指针时犯了错误,这反过来又会导致更大的空间误差。
“读取时间似乎并不像看起来那么简单,因为模型必须识别时钟指针,确定它们的方向,并结合这些观察结果来推断正确的时间,”Conde 解释道,并指出模型很难同时处理这些变化。
在他们的研究中,研究人员强调,在医学图像分析或自动驾驶感知等更复杂的现实场景中,这些微妙但关键的故障可能会导致更严重的后果。
“这些结果表明,我们不能认为模型性能是理所当然的,”Conde 说,并强调需要使用不同的输入进行广泛的训练和测试,以确保模型在现实世界应用程序中可能遇到的不同场景中保持稳健性。
许多人预计AI将继续改进,这反过来又提出了一个问题:AI模型最终是否能够准确读取传统的模拟时钟?只有时间会给出答案。