首页 > 资讯 > 人工智能

事实证明,人工智能实际上能制造出称职的扫雷克隆——四个AI编码代理的测试显示OpenAI的Codex是最好的,而谷歌的Gemini CLI是最差的

时间:2025-12-25 编辑:杭州电子科技大学信息工程学院 来源:互联网家装

核心提示:当世界因企业追逐几乎无尽资源的人工智能而燃烧时,我们应该看看这场骚动给我们带来了什么。最近,Ars Technica的团队对四款最受欢迎的AI编码代理进行了测试,提出了一个看似简单的请求:为网络打造M

1766454806935922.png

当世界因企业追逐几乎无尽资源的人工智能而燃烧时,我们应该看看这场骚动给我们带来了什么。最近,Ars Technica的团队对四款最受欢迎的AI编码代理进行了测试,提出了一个看似简单的请求:为网络打造Minesweeper。克隆版必须加入音效、移动触摸屏支持,以及“有趣”的玩法变化。

对于不了解的人来说,《扫雷者》依赖逻辑,逻辑决定了游戏玩法,同时结合了合理的用户界面和用户体验元素,构成了一个不错的挑战。制作一个扫雷舰克隆并不难,但其底层机制至少需要一定程度的人类智慧——毕竟,目标是通用人工智能,不是吗?

测试内容包括(付费版本)Anthropic的Claude Code、谷歌的Gemini CLI、Mistral Vibe以及基于GPT-5的OpenAI代码。所有这些任务都被赋予了相同的指令,AI在第一次运行中生成的分数将被用来统计。除了开始之外,没有人工干预或第二次机会。

1766454839383255.png

1766454862818721.png

表现最好的是Codex,不仅画面表现不错,还是唯一真正包含“和弦”技术的AI——如果你把旗帜摆放得当,就能显示周围所有地块。和弦是资深玩家的最爱,因此如果没有和弦,任何《扫雷者》的克隆版都会显得不够精致。

Codex版本的所有按钮都正常工作,包括声音切换,提供时代准确的哔哔声和哔哔声,以及面向移动端和桌面端的屏幕说明。至于玩法变化,角落里有一个“幸运扫荡”按钮,当你获得该格子时,偶尔会显示一个安全格子。

Codex的编码体验也很流畅,命令行界面有漂亮的动画和本地权限管理,尽管代理写代码时确实花了不少时间。Ars Technica称这款作品最接近在最小人为干预下即可发布的项目,给出了令人印象深刻的9分(满分10分)。

克劳德代码 - 7/10

1766455311962311.png

1766455324899795.png

亚军是Anthropic的Claude,其代码开发时间只有Codex的一半,且呈现出更具美感的产品。事实上,它是所有版本中最精致的,拥有定制的炸弹图形,顶部还附有无设备限制的微笑表情。音效也很悦耳,切换开关在移动端和桌面端都能正常使用。

不过,当没有和弦支撑时,体验就崩溃了——据楼主说,这是“不可接受的”。游戏中有一个“能力模式”,作为游戏的转折,给你一些需要特工真正发挥创造力的简单强化道具。在手机上,还有一个“旗帜模式”按钮,是长按标记地块的一个不错替代。

在我们看来,这款克隆版手感最好,试用时也是最好的。Claude Code 的 Opus 4.5 型号在不到 5 分钟内构建了扫雷机克隆,并拥有最简洁的编码界面。总体来说,表现非常扎实,得分7/10,如果有和弦功能会更高。

Mistral Vibe - 4/10

1766455434206177.png

1766455445467661.png

第三名是Mistral的Vibe,他们推出了同名产品,也就是说,这些产品与某种被vibe编码的商品同义。游戏运行和画面都还算不错,但缺少了至关重要的和弦功能,也没有音效。底部还有一个“自定义”按钮,但没用。Vibe也没有加入任何有趣的玩法变化,所以这些都扣了不少分。

顶部的微笑表情全黑,这让测试者感到不适,选择“专家”模式则将网格扩展到方形背景之外,但这只是视觉故障。你可以在桌面端右键点击标记,但在手机端你必须按住,这可能会尴尬地弹出设备的右键菜单(我们这里没有)。

编码界面扎实且易用,但速度不算快——不过,最后一个名次距离太远,门槛并不高。尽管缺乏大牌那样庞大的资源,Ars Technica的编辑们对其表现印象深刻。最后,Mistral Vibe得了4分(满分10分),这似乎比他们描述的应得还低。

1766455780778018.png

image.png

最后一位是谷歌的Gemini CLI,这对一些人来说可能令人惊讶,因为谷歌如今经常在基准测试中名列前茅,同时联合创始人谢尔盖·布林回归加州巨头领导前沿人工智能,这也带来了普遍的回归故事。双子座的扫雷克隆机根本无法起作用。它有按钮,但没有可说的地块,所以没有游戏可玩,甚至没有得分。

从视觉效果来看,它与Claude Code的最终成果惊人地相似;就像有人在编码过程中突然阻止了特工一样。Gemini 也耗时最长,每次代码运行需一小时,且代理不断请求外部依赖。即使稍微修改了规则,给它第二次机会,并给了它一个硬性使用HTML5的指令,也无法产生可用的结果。

Ars Technica指出,Gemini CLI无法使用最新的Gemini 3编码模型,而是依赖一组Gemini 2.5系统。也许付费购买更高层级的谷歌AI会更有利,使这次测试被视为“不完整”,但仍然相当令人失望。

所以,这就是我们允许内存价格翻四倍、暂时毁掉电脑的原因。Codex获胜,Mistral Vibe和Claude Code紧随其后,而Google甚至没有尝试,但代价却是什么。如果你还没全力支持人工智能,可以肯定这个实验不会让你相信什么。

 
更多>同类资讯