src: The Second Half – Shunyu Yao – 姚顺雨

上半场:强化学习RL的突破与泛化

在人工智能研究的上半场,游戏规则很明确:专注于构建新的模型和方法,而评估和基准测试则是次要的(尽管对论文发表体系是必要的)。从论文引用程度可以看出,训练和模型始终是首要任务。

That illustrates the game of the first half: focus on building new models and methods, and evaluation and benchmark are secondary (although necessary to make the paper system work).

强化学习的“配方”

强化学习(RL)被认为是AI的终点,因为它总是可以赢得游戏。传统RL框架包含三个部分:

  1. 算法
  2. 环境
  3. 先验

然而研究者们长期过度关注算法而忽视环境。事实证明:

  • 环境和先验比算法更重要
  • 实验显示,在一个环境中的RL模型无法泛化到另一个环境

关键转折:只有GPT展现了出色的泛化能力,因为:

  • 最重要的可能不是RL算法或环境,而是先验
  • 这些先验可以完全通过非RL的方式获得

It turned out the most important part of RL might not even be the RL algorithm or environment, but the priors, which can be obtained in a way totally unrelated from RL.

人类之所以能实现更好的泛化,是因为我们拥有丰富的常识。而推理能力让智能体能够利用语言加强对环境的认知——语言虽然不能直接改变环境,但能让智能体模拟遇到的问题。语言本身就是一种强大的泛化方法。

language generalizes through reasoning in agents.

上半场的局限

  1. 模型开发模式:构建新模型→在基准测试上提升性能

    • 问题:标准化基准对性能提升的帮助不如推理能力
  2. 应对方式:创造更难的基准→重复上述循环

    • 问题:更难的基准很快就被过拟合

下半场:解决实际问题的新范式

下半场的核心动机是重新思考评估体系。人类思维的惯性导致我们倾向于:

  • 设计更难的考题
  • 创造更复杂的算法题

但这些都属于“工具问题”——虽然重要,却脱离现实世界。

I call this the utility problem, and deem it the most important problem for AI.

……

our evaluation setups are different from real-world setups in many basic ways.

工具问题与现实脱节的两个例证

  1. 仅自主评估:

    • 假设所有任务都能独立完成
    • 现实情况:任务常需要与用户深度协作
  2. [独立同分布]评估:

    • 假设问题可以孤立解决
    • 现实情况:问题通常是先后关联解决的

新游戏规则

工具问题在模型性能不足时有意义,但如今已无法有效解决现实问题。下半场需要:

  1. 采用更贴近现实世界的评估设置
  2. 开发新方法来增强之前的”配方”

展望:产品经理主导的AI新时代

随着技术成熟,产品经理将主导AI产品开发。核心问题转变为:

  • “我们能训练模型解决X问题吗?”
  • “我们应该训练AI做什么?如何衡量真正的进步?”

这场范式转变标志着AI从单纯追求性能指标,转向解决真实世界复杂问题的全新时代。