世界顶级编程比赛中,疲惫的人类选手击败了AI

发布时间:2025-07-24 03:03  浏览量:1

撰文 / 钱亚光

编辑 / 黄大路

设计 / 张 萌

来源 / arstechnica.com, www.businessinsider.com, www.tomshardware.com


普雷米斯劳·德比亚克(右)在2025年AtCoder启发式算法世界总决赛中获胜。


一位精力耗尽的波兰程序员最近完成了看似不久后就将无法实现的目标:在一场面对面的编程竞赛中击败了来自OpenAI的先进AI模型。这场持续了10个小时的马拉松比赛让他“精疲力竭”。


2025年7月16日,前OpenAI员工、程序员普雷米斯劳·德比亚克(Przemysław Dębiak,参赛名Psyho),在东京举行的2025年AtCoder启发式算法世界总决赛(AtCoder Heuristics World Finals)中以微弱优势击败了定制的AI模型。


AtCoder是一个在日本运营的竞赛平台,举办竞赛并维护全球排名,此次比赛可能是首次有AI模型在大型现场世界锦标赛中直接与顶尖人类程序员PK的竞赛。


在活动中,ChatGPT的制造者Open AI作为赞助商参与,并让一个AI模型参加了名为“人类 vs AI”的特别展示比赛。尽管硅基智能毫不懈怠,但该公司最终获得了第二名。

01
人类为什么能战胜AI


赢得比赛后,41岁的德比亚克在网上庆祝自己的胜利,他写道“人类获胜了(至少目前是这样!)”,还补充说,他从华沙飞往东京参加了这场比赛,三天里只睡了10个小时,他“疲惫不堪”。这位程序员在X平台上写道,他没有使用AI工具,只用了“普通的”软件开发平台Visual Studio Code,还借助了“一些基本的自动完成功能来加快处理重复性工作”。


他表示,在那些需要直接进行工程操作的情况下——实现算法、解决问题以及优化代码,AI会胜出,因为它的速度就是更快。但他认为,在程序员“从头开始做所有事情”的时间更长的竞赛中,AI就更难跟上了。“竞赛时间越长,对人类越有利,对AI越不利。”他说道,在这场时长10小时的竞赛接近尾声时,他超过了OpenAI的工具。


德比亚克说,他参加的是“算法优化”比赛,比赛目标是针对一个复杂问题编写最高效的解决方案。在这次比赛中,他必须编写一个程序,以尽可能少地移动次数引导机器人穿越一个30×30的网格。回顾这次比赛时,德比亚克说各种因素对他有利。他还补充道:“不难想象,如果是另一个不同的问题,AI可能会胜出,而所有人类选手则会远远落后。”



德比亚克的胜利引起了OpenAI首席执行官山姆·奥特曼(Sam Altman)的注意。当天奥特曼在X平台上发文称:“干得好,Psyho。”当媒体联系OpenAI请其置评时,OpenAI让媒体查看其在X平台上的一篇帖子,帖子中写道:“我们的模型在AtCoder启发式世界决赛中获得了第二名!恭喜冠军选手这次战胜了我们。”


此次竞赛要求参赛者在600分钟内解决一个复杂的优化问题。这场竞赛借鉴了美国民间故事《约翰·亨利(John Henry)》的元素,故事讲述了19世纪70年代一位铁轨打孔工人与一台蒸汽驱动的钻孔机进行的竞赛。


就像亨利与工业自动化那场传奇之战一样,德比亚克的胜利代表着一位人类专家将自己的身体极限发挥到极致,以证明在人工智能不断进步的时代,人类技能仍然具有重要意义。


这两个故事都包含着令人疲惫不堪的耐力竞赛——亨利连续数小时敲击钢钉,直到心脏衰竭;而德比亚克则在睡眠极度不足的情况下连续编程了10个小时。


两者的相似之处还体现在胜利的苦乐参半性质上:亨利赢得了比赛,但因过度劳累而去世,这象征着自动化不可避免的进程;而德比亚克承认人类暂时取得了胜利,这表明他意识到这可能只是对日益强大的机器的一种暂时胜利。


该竞赛的负责人岩田阳一(Yoichi Iwata)表示,OpenAI的模型表现优于采用类似方法的其他模型,但德比亚克“却找到了一种完全不同的解决方案”。“我们期望人类获胜,并对AI模型能够获得第二名感到相当惊讶。”他补充道,“虽然AI在优化能力方面超过了人类,但我们相信它的创造力仍然不如人类。”


尽管德比亚克赢得了50万日元,并且在此次磨难中比那位传奇的钢钉敲击者表现得更好,但AtCoder世界巡回总决赛通过复杂的优化挑战,将人类和人工智能模型推向了极限,这些挑战没有完美的解决方案,只有逐步改进的方案。

02

编程马拉松考验人类的耐力与AI的效率

AtCoder世界巡回总决赛是竞赛编程中最具排他性的活动之一,它只邀请全球排名前12的程序员参加,这些选手是根据他们过去一年的表现选出的。启发式分组专注于“NP-hard”优化问题。在编程领域,启发式方法是一种解决问题的技巧,它通过捷径和有根据的猜测来找到足够好的解决方案,而这些完美答案的计算过程则会耗费太长时间。


所有参赛者,包括OpenAI,都只能使用AtCoder提供的相同硬件,以确保人类选手和人工智能选手处于公平的竞争环境。根据比赛规则,参赛者可以使用AtCoder上任何可用的编程语言,重新提交不会受到处罚,但每次提交之间必须等待五分钟。


2025年日本AtCoder启发式算法世界总决赛的最终排行榜结果显示,德比亚克(参赛名为“Psyho”)位居榜首。

图片来源:AtCoder


最终的竞赛结果显示,Psyho以1,812,272,558,909分的成绩收官,而OpenAI的模型(名为“OpenAIAHC”)得分为1,654,675,725,406分——分差约为9.5%。OpenAI的AI参赛选手是一个类似于o3的定制模拟推理模型,总体排名第二,领先于其他10位通过长达一年的排名获得参赛资格的人类程序员。


OpenAI将此次获得第二名的成绩视为人工智能模型在竞技编程领域的一个里程碑。“像o3这样的模型在编程/数学竞赛中能跻身前100名,但据我们所知,这是首次在顶级编程/数学竞赛中进入前三名。”该公司的一位发言人在给Ars Technica的电子邮件中表示,“像日本在线编程竞赛平台AtCoder举办的这类赛事,为我们提供了一种测试方式,能检验我们的模型在策略推理、长期规划以及通过反复试验改进解决方案等方面的能力——就像人类所做的那样。”

03

AI编程正日益流行

虽然OpenAI对竞赛结果影响的评估听起来可能过于乐观和宽泛,但毫无疑问,在过去几年里,许多AI模型在完成编程任务方面有了显著提升。例如,斯坦福大学(Stanford University)《2025年人工智能指数报告(2025 AI Index Report)》显示,在旨在衡量编程能力的基准测试SWE-bench上,“2023年AI系统只能解决4.4%的编码问题,而到2024年这一数字跃升至71.7%。”


AI在其他备受瞩目的比赛中击败了人类。1997年,IBM的Deep Blue AI机器击败了国际象棋大师Gary Kasparov;2016年,Google DeepMind的AlphaGo击败了围棋世界冠军Lee Sedol。


2月,奥特曼表示,到今年年底,OpenAI可能会在编程比赛中超越人类。


近几个月来,微软、谷歌和Meta的首席执行官都表示,AI已经在微软、谷歌和Meta编写大量代码。编程是来自OpenAI、Anthropic、谷歌和Meta的聊天机器人最常见的用途之一,像GitHub Copilot和Cursor这类工具已成为许多专业开发者的标准工具。


奥特曼表示,对软件工程师的需求最终可能会下降。“我的基本假设是,每个软件工程师在一段时间后只会做得更多。然后,在某个时候,也许我们确实需要更少的软件工程师。”他在3月份提到OpenAI的招聘策略时说。


2024年GitHub的一项调查显示,如今超90%的开发者在工作流程中使用AI编程工具,不过最近一项研究表明,AI辅助可能并没有像开发者认为的那样节省那么多时间。


即便如此,随着AI模型在编程等任务上的能力不断提升,德比亚克的胜利感觉不像是一场永恒的胜利,而更像是漫长发展轨迹中的一个显著数据点。与亨利那次致命的胜利不同,这位程序员还能继续编程,不过下次他可能会发现自己要与一台速度更快的机器展开竞争了。


目前,人类找到意想不到的方法的能力仍然独一无二。


但随着OpenAI和其他公司不断优化其模型,未来参加日本AtCoder编程竞赛的选手可能会发现,他们与AI竞争的情况会减少,更多的是与它并肩作战,甚至根本无需竞争。