刚被爆离职的OpenAI核心研究员Jason Wei，定义了RL的边界

7月16日，外媒 Wired 的一位资深 AI 领域记者爆料称，有两位消息人士证实，OpenAI 知名研究员 Jason Wei 和另一位研究科学家 Hyung Won Chung 即将离职OpenAI，加盟Meta。

这次，Meta算是挖走了OpenAI真正的核心成员。

Meta把OpenAI的核心挖走了

这次被爆离职的两人都是OpenAI核心项目的深度参与者，Jason Wei是OpenAI核心的转型思想领袖，Hyung则是OpenAI的核心架构师。

Jason Wei ：OpenAI 强化学习领军人物

Jason Wei 非常擅长发现并推广那些看似简单却能深刻改变大型语言模型能力的革命性概念，从而为整个领域开辟了新的研究范式。

比如，Jason Wei最为人所知的贡献是 “思维链”（Chain-of-Thought, CoT）提示法，基本上成为了后续所有AI推理的基石。

他在OpenAI的工作是这一轨迹的自然延伸。他参与了o1和deep research模型的研发，这些模型的核心正是推理能力。

除此之外，他也是我们现在熟悉的微调技术的早期探索者，在NLP时代就尝试进行微调。他是FLAN（Finetuned Language Models Are Zero-Shot Learners）项目的核心人物之一。

该研究表明，通过在大量以自然语言指令描述的NLP任务集合上对模型进行微调，可以极大地提升其在未见过任务上的零样本（zero-shot）性能。

至于从ChatGPT开始广受讨论的“涌现能力”（Emergent Abilities），也是从他作为第一作者在2022年的论文进行了开创性的探讨的。

该文指出，某些能力在小型模型中不存在，却在大型模型中不可预测地出现，这意味着，继续扩大模型规模可能会解锁更多未知的能力。

这篇论文为整个领域聚焦于“规模化”（scaling）提供了重要的概念框架。

单凭这几篇研究，和他在o1中基础贡献者的身份，我们就能看出Jason Wei的独特地位。他能够精准地识别出那些具有最高杠杆效应的研究方向。无论是CoT、指令微调还是涌现能力，都完美地体现了这一原则。

因此，他的离去不仅是让OpenAI失去了一位能执行复杂项目的研究员，更是失去了一位有洞察改变整个领域格局的能力的“远见者”。

Hyung Won Chung：OpenAI Agent计划的核心人物

Hyung Won Chung更像是一位“全栈式”的AI架构师。

他的专业能力覆盖了从底层的训练系统到高层的模型能力，再到智能体应用的每一个环节，是连接理论与实践的关键桥梁。

在加入OpenAI之前，他就在谷歌大脑参与了支持大规模训练的基础设施建设。

他是T5X的核心贡献者之一，这是一个基于JAX的训练框架，曾被用于训练谷歌的PaLM模型。

在OpenAI中，Chung迅速成为其最核心项目的关键人物。他的个人网站中显示，他是o1-preview、o1和Deep Research模型的“奠基性贡献者”（Foundational Contributor）。此外，他也是GPT-4技术报告的作者之一。

更重要的是，他当下在OpenAI的研究重点是“推理与智能体”（reasoning and agents）。正是他领导了OpenAI最重要的Agent Codex mini模型的训练。

至于他对Agent的理解水平。我们可以从他在2024年6月在斯坦福的讲座中所述一窥一二。讲座是以他对Transformer发展路径上，从编码器解码器双结构，逐渐演变成解码器单结构这个观察出发，对AI产品构建的一些想法。

以下是他讲座之后发布推特中的内容，基本上就是“Less Structure，More Intelligent”这一当下Agent建构的金结论的原始版本。

对于人工智能来说，有一个突出的驱动力：计算成本呈指数级下降，以及逐步扩展更多端到端模型以利用这些计算资源。

然而，这并不意味着我们应该盲目采用最端到端的方法，因为这种方法根本不可行。相反，我们应该在当前的 1）计算能力、2）数据、3）学习目标、4）架构水平下，找到一个“最优”的结构。换句话说，什么是刚开始显现生命迹象的最端到端结构？这些结构更具可扩展性，最终在规模扩大时会超过那些结构更复杂的模型。

后来，当这四个因素中的一个或多个得到改善（例如，我们获得了更多计算资源或找到了更具可扩展性的架构）时，我们应重新审视之前添加的结构，移除那些阻碍进一步扩展的部分，反复进行这一过程。

作为一个社区，我们喜欢添加结构，但不太愿意移除它们。我们需要做更多的清理工作。

因此，他的离开毫无疑问对OpenAI Agent 发展会是一个沉重打击。

就在被曝出离职当天，Jason Wei在15日发布的个人博客，重新定义了AI的能力边界。这让我们正好可以一窥，这位专注于推理和强化学习的OpenAI思想家，对于未来的一些细节判断。

在文章中，他称这一预测未来AI能力边界的框架为验证者定律 (Verifier’s Law)。

过去，我们笼统地谈论AI“越来越聪明”，但这很模糊。这篇文章给出了一个清晰的判断标准：一个任务被AI攻克的难易程度，不取决于解决它有多难，而取决于验证它的结果有多容易。

这一认知可能是大多数做强化学习的同学共同的认知。但验证者定律 (Verifier’s Law)，通过五条可验证标准，对验证进行了更深入的探讨。

而且，基于这样的一个AI能迅速取得成就的边界框架，结合AlphaEvolve的成功，这篇文章还甚至还可以延展出未来人类与AI协作的核心，即将一个复杂、模糊的现实世界问题，转化为一个AI可以理解和优化的、可清晰验证的任务。

以下为此篇博客全文，下划线的内容为编者添加的解释性文字：

验证的不对称性

验证的不对称性 (Asymmetry of Verification) 是指，某些任务验证一个解是否正确，要远比从头解决这个问题容易得多。随着强化学习（RL）最终在通用意义上逐渐成熟，验证的不对称性正成为人工智能（AI）领域中最重要的理念之一。

通过例子理解验证的不对称性

如果你留心观察，会发现验证的不对称性无处不在。以下是一些典型的例子：

数独和填字游戏：解决这些谜题需要花费大量时间，因为你必须在各种约束条件下尝试许多候选答案。但是，要检查一个给定的答案是否正确，却是一件轻而易举的事。

网站开发：编写像 Instagram 这样网站的运营代码，需要一个工程师团队花费数年时间。但验证网站是否正常工作，任何一个普通人都能快速完成。

网页浏览理解任务（BrowseComp）：解决这类问题通常需要浏览数百个网站，但验证任何给定的答案通常要快得多，因为你可以直接搜索答案是否满足约束条件。

有些任务则具有近乎对称的验证性 (near-symmetry of verification)：验证答案所需的时间与解决问题本身所需的时间相差无几。例如，验证某些数学问题的答案（比如两个 900 位数的加法）所需的工作量，与你自己解决这个问题几乎一样。另一个例子是某些数据处理程序；跟着别人的代码走一遍并验证其正确性，和你自己编写解决方案所需的时间差不多。

有趣的是，还有一些任务的验证时间可能远超提出方案的时间。例如，对一篇文章中的所有陈述进行事实核查，可能比写这篇文章本身花费的时间还要长（这让人想起了布兰多里尼定律）。许多科学假说也是如此，验证比提出更难。例如，提出一种新的饮食方案（“只吃野牛和西兰花”）很容易，但要验证这种饮食是否对普通人群有益，则需要数年时间。

// 编注

布兰多里尼定律 (Brandolini’s Law)也被称为“废话不对称原理”（The Bullshit Asymmetry Principle），它指出：驳斥谣言或废话所需的能量，要比制造它们高出一个数量级。这恰好描述了那些验证比解决（或创造）更难的任务。

改善验证的不对称性

关于验证不对称性最重要的一个认知是：通过对任务进行一些前期研究，可以改善其不对称性。例如，对于一道竞赛数学题，如果你手头有答案，那么检查任何提交的最终答案都是小事一桩。另一个很好的例子是某些编程问题：虽然阅读代码并检查其正确性很繁琐，但如果你有覆盖率足够高的测试用例，就可以快速检查任何给定的解决方案。实际上，这正是 LeetCode等编程练习平台所做的事情。在某些任务中，可以改善验证过程，但不足以使其变得轻而易举。例如，对于“说出一个荷兰足球运动员的名字”这样的问题，有一份著名的荷兰足球运动员名单会有所帮助，但在许多情况下，验证仍然需要费一番功夫。

验证者定律 (Verifier’s Law)

为什么验证的不对称性如此重要？回顾深度学习的历史，我们已经看到，几乎任何可以被量化的东西都可以被优化。用强化学习的术语来说，验证解决方案的能力等同于创建一个强化学习环境的能力。因此，我们得出：

验证者定律：训练 AI 解决一个任务的难易程度，与该任务的可验证性成正比。所有可能被解决且易于验证的任务，都终将被 AI 解决。

更具体地说，训练 AI 解决任务的能力与该任务是否具备以下属性成正比：

客观真理 (Objective truth)：所有人对什么是好的解决方案有一致的看法。

快速验证 (Fast to verify)：任何给定的解决方案都可以在几秒钟内得到验证。

可扩展验证 (Scalable to verify)：可以同时验证许多解决方案。

低噪声 (Low noise)：验证结果与解决方案的质量尽可能紧密相关。

连续奖励 (Continuous reward)：对于单个问题，可以很容易地对多个解决方案的好坏进行排序。

不难相信验证者定律是成立的：过去在 AI 领域提出的大多数基准测试（benchmarks）都易于验证，并且至今都已被解决。请注意，过去十年中几乎所有流行的基准测试都符合前 4 个标准；不符合这些标准的基准测试很难变得流行。另外，尽管大多数基准测试不符合第 5 个标准（一个解要么完全正确，要么完全错误），但你可以通过对许多例子的二元奖励（0 或 1）进行平均，来计算出一个连续的奖励值。

为什么可验证性如此重要？在我看来，最根本的原因是，当上述标准得到满足时，神经网络中发生的学习量是最大化的；你可以进行大量的梯度步骤，并且每一步都包含大量有效的信号。迭代的速度至关重要——这就是为什么数字世界的进步比物理世界的进步快得多的原因。

// 编注

验证者定律在强化学习中的应用：强化学习，即AI（称为智能体 Agent）通过与环境互动来学习。它会不断尝试不同的行动，环境则会根据行动的好坏给予奖励 (Reward) 或惩罚。AI 的目标是学会一套策略，以最大化它能获得的总奖励。一个任务的可验证性越高，就越容易为 AI 设计一个清晰、快速的奖励机制，从而极大地加速学习过程。

连续奖励 (Continuous Reward): 在 AI 训练中，奖励是衡量行为好坏的信号。二元奖励 (Binary Reward) 只有两种结果，比如“对”或“错”（1 或 0）。而连续奖励则是一个范围内的数值，比如 0 到 100 分。连续奖励能提供更丰富的信息，告诉 AI 一个“错误”的答案到底有多“差”，或者一个“好”的答案比另一个“好”多少，这使得学习和优化过程更有效率。

梯度步骤 (Gradient Steps): 这是神经网络训练的核心概念，源于梯度下降 (Gradient Descent) 算法。训练过程就像是在一个崎岖的山谷里寻找最低点（代表最佳解决方案）。“梯度”指出了当前位置最陡峭的下山方向，而“步骤”就是沿着这个方向走一小步。快速、低噪声的验证能够提供清晰、准确的梯度方向，让 AI 能更快、更稳地“走下山”，从而最大化学习效率。

AlphaEvolve

过去几年里，利用验证不对称性的最杰出公开范例或许就是谷歌开发的 AlphaEvolve。简而言之，AlphaEvolve 可以被看作是一种非常聪明的“猜测与检查”机制的实现，它允许对一个目标进行无情的优化，并已催生了多项数学和操作上的创新。

一个被 AlphaEvolve 优化的简单问题例子是：“找出能容纳 11 个单位六边形的最小外部六边形。” 注意，这个问题完全符合验证者定律的五个理想属性。事实上，我相信任何符合这五个属性的可解问题，都将在未来几年内被解决。

关于 AlphaEvolve 解决的这类问题，有一点值得注意：它可以被视为对单个问题的“过拟合”。在传统机器学习中，我们已经知道了训练集中的标签，其重要的测试是衡量模型对未见过问题的泛化能力。然而，在科学创新领域，我们处于一个完全不同的范畴，我们只关心解决单个问题（训练集 = 测试集！），因为它是一个尚未解决的问题，并且可能具有极高的价值。

// 编注

AlphaEvolve: 这是谷歌 DeepMind 开发的一个 AI 系统，它使用进化算法来发现新的、更高效的算法。它本质上是一个“算法发现者”。它通过不断地生成、变异和测试新的代码版本，并根据性能（一个易于验证的指标）进行筛选，最终“进化”出超越人类设计的解决方案。

过拟合 (Overfitting): 在传统机器学习中，过拟合通常是个负面词汇，指模型过度学习了训练数据的细节和噪声，以至于它在训练数据上表现完美，但在新的、未见过的数据（测试数据）上表现很差。而在这里，作者指出对于“科学发现”这类任务，目标就是解决一个特定的、悬而未决的问题。因此，AI 所有的努力都集中在这一个问题上，不存在“泛化到新问题”的需求。这种“过拟合”到一个单一难题上，恰恰是解决该问题的最有效方式。

启示

一旦你了解了验证的不对称性，你就会发现它无处不在。一个我们可以衡量的一切都将被解决的世界，是多么令人兴奋。我们很可能会看到一条智能的锯齿状前沿 (jagged edge of intelligence)，即 AI 在可验证的任务上要聪明得多，因为解决这些任务要容易得多。这是一个值得期待的、激动人心的未来。

本文来自微信公众号“腾讯科技”，作者：博阳，36氪经授权发布。

热点健康网

热点健康网

刚被爆离职的OpenAI核心研究员Jason Wei，定义了RL的边界

验证的不对称性

通过例子理解验证的不对称性

改善验证的不对称性

验证者定律 (Verifier’s Law)

AlphaEvolve

启示

admin

Related Posts

引领小型医疗器械供应链创新，助力healsoon-止血材料高效应用

群起而攻之，出海短剧TOP1 平台ReelShort深陷抄袭风波

发表回复取消回复

You Missed

2026河北一站式企业综合服务实测推荐

“职工关爱·阳光守护行动”公益项目在京启动，预计惠及50万职工

阳光人寿芜湖中支开展国际茶日公益宣传行动

人人讲安全个个会应急

践行普惠金融责任，阳光人寿联合中国职工发展基金会发起“职工关爱·阳光守护行动”

2026招标项目查找工具盘点主流查标训工具实测实现高效找标

热点健康网

热点健康网

刚被爆离职的OpenAI核心研究员Jason Wei，定义了RL的边界

验证的不对称性

通过例子理解验证的不对称性

改善验证的不对称性

验证者定律 (Verifier’s Law)

AlphaEvolve

启示

admin

Related Posts

引领小型医疗器械供应链创新，助力healsoon-止血材料高效应用

群起而攻之，出海短剧TOP1 平台ReelShort深陷抄袭风波

发表回复 取消回复

You Missed

2026河北一站式企业综合服务实测推荐

“职工关爱·阳光守护行动”公益项目在京启动，预计惠及50万职工

阳光人寿芜湖中支开展国际茶日公益宣传行动

人人讲安全 个个会应急

践行普惠金融责任，阳光人寿联合中国职工发展基金会发起“职工关爱·阳光守护行动”

2026招标项目查找工具盘点 主流查标训工具实测实现高效找标

发表回复取消回复

人人讲安全个个会应急

2026招标项目查找工具盘点主流查标训工具实测实现高效找标