Jason Wei :验证的不对称性与验证者定律

发布时间:2025-07-17 04:04  浏览量:1

验证的不对称性 (Asymmetry of verification) 是指某些任务的验证难度远低于解决难度。随着强化学习 (Reinforcement learning, RL) 最终在通用意义上取得成功,验证的不对称性正成为人工智能中最重要的理念之一。

通过例子理解验证的不对称性

只要你留心观察,验证的不对称性无处不在。一些典型的例子包括:

数独和填字游戏需要花费大量时间来解决,因为你必须根据各种约束条件尝试许多候选答案,但检查一个给定的解决方案是否正确却非常简单。 编写像 instagram 这样网站的运营代码需要一个工程师团队花费数年时间,但任何外行都可以快速验证该网站是否正常工作。 解决 BrowseComp 问题通常需要浏览数百个网站,但验证任何给定的答案通常可以快得多,因为你可以直接搜索答案是否满足约束条件。

有些任务具有近乎对称的验证性:验证它们所需的时间与编写解决方案所需的时间相近。例如,验证某些数学问题的答案(比如,两个900位数相加)所需的工作量通常与自己解决问题相当。另一个例子是某些数据处理程序;跟随别人的代码并验证其是否有效,所花费的时间与自己编写解决方案一样长。

有趣的是,还有一些任务的验证时间可能远长于提出解决方案的时间。例如,对一篇文章中的所有陈述进行事实核查可能比写这篇文章更耗时(这让人想到 Brandolini' 定律:「驳斥胡扯所需的能量比产生胡扯的能量要大一个数量级。」)。许多科学假说也是验证比提出更难。例如,提出一种新颖的饮食方案(「只吃野牛和西兰花」)很容易,但要验证这种饮食是否对普通人群有益则需要数年时间。

改善验证的不对称性

关于验证不对称性的一个最重要认识是,通过对任务进行一些前期研究,实际上可以改善这种不对称性。例如,对于一道竞赛数学题,如果你手头有答案,那么检查任何提议的最终答案都非常简单。另一个很好的例子是某些编程问题:虽然阅读代码并检查其正确性很繁琐,但如果你有覆盖率充足的测试用例,就可以快速检查任何给定的解决方案;实际上,这就是 Leetcode 的做法。在某些任务中,可以改善验证过程,但不足以使其变得微不足道。例如,对于像「说出一位荷兰足球运动员的名字」这样的问题,拥有一份著名的荷兰足球运动员名单会有所帮助,但在许多情况下,验证仍然需要费一番功夫。

验证者定律 (Verifier’s law)

为什么验证的不对称性很重要?如果你回顾深度学习的历史,我们会发现几乎任何可以衡量的东西都可以被优化。用强化学习的术语来说,验证解决方案的能力等同于创建强化学习环境的能力。因此,我们有:

验证者定律: 训练人工智能解决一项任务的难易程度与该任务的可验证性成正比。所有可能解决且易于验证的任务都将被人工智能解决 。

更具体地说,训练人工智能解决一项任务的能力与该任务是否具有以下属性成正比:

客观真理 (Objective truth) :每个人都对什么是好的解决方案有一致的看法 快速验证 (Fast to verify) :任何给定的解决方案都可以在几秒钟内得到验证 可扩展验证 (Scalable to verify) :可以同时验证许多解决方案 低噪音 (Low noise) :验证过程与解决方案的质量尽可能紧密相关 连续奖励 (Continuous reward) :对于单个问题,很容易对许多解决方案的优劣进行排序

不难理解验证者定律是成立的:人工智能领域提出的大多数基准测试 (benchmark) 都易于验证,并且迄今为止都已被解决。请注意,过去十年中几乎所有流行的基准测试都符合标准 #1-4;不符合标准 #1-4 的基准测试将难以普及。另外请注意,尽管大多数基准测试不符合标准 #5(一个解决方案要么是完全正确,要么是完全错误),但你可以通过对许多例子的二元奖励 进行平均来计算连续奖励。

为什么可验证性如此重要?在我看来,最根本的原因是,当满足上述标准时,神经网络中发生的学习量会最大化;你可以进行大量的梯度步骤,其中每一步都包含大量信号。迭代的速度至关重要——这就是数字世界的进步比物理世界快得多的原因。

AlphaEvolve

过去几年中,利用验证不对称性的最著名的公开例子或许是谷歌开发的 AlphaEvolve 。简而言之,AlphaEvolve 可以被看作是「猜测与检验」(guess-and-check) 策略的一个非常巧妙的实例,它允许对一个目标进行无情的优化,并由此带来了多项数学和操作上的创新。

AlphaEvolve 优化的一个简单问题例子是「找到能容纳11个单位六边形的最小外六边形」。请注意,这个问题符合验证者定律的所有五个理想属性。事实上,我相信任何符合这五个属性的可解问题都将在未来几年内被解决。

关于 AlphaEvolve 解决的问题类型,有一点可以看作是对单个问题的「过拟合」。在传统的机器学习中,我们已经知道训练集中的标签,重要的测试是衡量对未见问题的泛化能力。然而,在科学创新中,我们处于一个完全不同的领域,我们只关心解决单个问题(训练集=测试集!),因为它是一个未解决的问题,并且可能具有极高的价值。

影响

一旦你了解了验证的不对称性,你会发现它无处不在。想象一个任何我们能够衡量的问题都将被解决的世界,这是令人兴奋的。我们很可能会看到一个参差不齐的智能前沿,人工智能在可验证的任务上要聪明得多,因为解决这些任务要容易得多。这是一个多么激动人心的未来。