过去十年,人工智能的进步以规模衡量:更大的模型、更大的数据集和更多的计算量。这种方法在大型语言模型(LLM)领域带来了惊人的突破;仅仅五年时间,人工智能就从像GPT-2这样几乎无法模拟连贯性的模型,跃升至像GPT-5这样能够推理并进行实质性对话的系统。而现在,能够在代码库中导航或浏览网页的早期人工智能代理原型,开辟了全新的领域。
但仅仅靠规模,人工智能只能走到一定程度。下一波飞跃不会仅靠大型车型。它将来自于将越来越完善的数据与我们构建的模型学习世界结合起来。而最重要的问题是:人工智能的课堂会是什么样子?
在过去几个月里,硅谷已经下注,实验室投入数十亿美元建设这类被称为强化学习(RL)环境的教室。这些环境让机器在真实的数字空间中进行实验、失败和改进。
人工智能训练:从数据到体验
现代人工智能的历史历经多个时代展开,每个时代都由模型所消耗的数据类型定义。首先是互联网规模数据集的预训练时代。这些商品数据使机器能够通过识别统计模式来模拟人类语言。随后,数据结合了来自人类反馈的强化学习——一种利用群众工作者对大型语言模型(LLM)反应进行评分的技术——使人工智能变得更有用、更响应灵敏,并更符合人类偏好。
我们亲身经历了这两个时代。在Scale AI的模型数据前线工作,让我们接触到许多人认为AI的根本问题:确保驱动这些模型的训练数据多样、准确且有效,以推动性能提升。基于干净、结构化、专家标识数据训练的系统取得了飞跃。解决数据问题使我们在过去几年中开创了大型语言模型(LLM)中一些最关键的进展。
如今,数据依然是基础。它是构建智能的原材料。但我们正进入一个新阶段,单靠数据已不再足够。要开辟下一个前沿,我们必须将高质量数据与允许无限互动、持续反馈和通过行动学习的环境相结合。强化学习环境并不能取代数据;它们通过使模型能够应用知识、检验假设并在现实环境中优化行为,放大了数据的作用。
强化学习环境的工作原理
在强化学习环境中,模型通过一个简单的循环学习:它观察世界状态,采取行动,并获得奖励,表明该行动是否帮助实现了目标。经过多次迭代,模型逐渐发现能带来更好结果的策略。关键的变化在于训练变得互动化——模型不仅预测下一个代币,还通过反复试验和反馈不断改进。
例如,语言模型已经可以在简单的聊天环境中生成代码。把他们放在一个实时的编码环境中——在那里他们可以获取上下文、运行代码、调试错误并优化解决方案——然后情况就会有所改变。他们从咨询转向自主解决问题。
这种区分很重要。在软件驱动的世界里,人工智能能够在庞大的仓库中生成和测试生产级代码,这将标志着能力的重大转变。这一飞跃不仅仅来自更大的数据集;它将来自沉浸式环境,让智能体可以像人类程序员一样,通过迭代进行实验、跌跌撞撞和学习。开发的现实世界很混乱:程序员必须处理描述不足的漏洞、错综复杂的代码库和模糊的需求。教AI处理这些混乱,是它从容易出错的尝试转向产生一致可靠解决方案的唯一途径。
人工智能能应对混乱的现实世界吗?
在网上导航也很混乱。弹窗、登录墙、失效链接和过时信息贯穿在日常浏览流程中。人类几乎本能地处理这些干扰,但人工智能只能通过在模拟网络不可预测性的环境中训练来发展这种能力。代理必须学会如何从错误中恢复,识别并坚持应对用户界面障碍,并完成跨广泛应用的多步工作流程。
一些最重要的环境根本不是公开的。政府和企业正在积极构建安全的模拟,让人工智能能够在没有现实世界后果的情况下进行高风险决策。以灾难救援为例:在现场飓风响应中部署未经测试的特工是不可想象的。但在一个充满港口、道路和供应链的模拟世界中,一个特工可能会失败千百次,并逐渐提升制定最佳计划的能力。
人工智能的每一次重大飞跃都依赖于看不见的基础设施,比如标注者标注数据集、研究人员训练奖励模型,以及工程师搭建大型语言模型使用工具和行动的支架。找到大量且高质量的数据集曾是人工智能的瓶颈,解决这一问题激发了前一波进展。如今,瓶颈不再是数据,而是构建丰富、真实且真正有用的强化学习环境。
AI进步的下一阶段不会是规模的偶然。它将结合坚实的数据基础与交互式环境,教导机器如何在混乱的现实场景中行动、适应和推理。编写沙盒、作系统和浏览器游乐场,以及安全模拟,将使预测转化为能力。