Skip to content

SWE-bench 退役:当 AI 评测沦为“刷题游戏”,我们还能信谁?

约 1265 字大约 4 分钟

SWE-bench 退役AI评测OpenAI

2026-02-26

你有没有遇到过这种“离谱反差”:

某些 AI 模型在编程榜单上分数很漂亮,甚至接近满分;但你把它拉到真实项目里跑一跑,连基本依赖都跑不通。

就在最近,OpenAI 正式宣布:曾被全行业奉为金标准的 SWE-bench Verified,将逐步退役。

我觉得这事儿值得聊一聊,不是因为 SWE-bench Verified “错了”,而是因为它太成功了——成功到大家开始研究怎么刷题、怎么提分,而不是怎么把问题真解决。

一、一把好尺子,是如何失效的?

SWE-bench Verified 之所以被追捧,说白了是因为它第一次把 AI 拉到了“工程现场”。

它的评测方式很直观:给一个真实开源仓库,再给一条来自 GitHub issue 的任务描述,让模型去定位问题、改代码、跑测试,最后以“是否通过测试”作为主要评分依据。

这点很关键:它不只是考语法,也不只是考函数题,而是想考“工程能力”——能不能看懂上下文、能不能处理依赖、能不能避免回归、能不能让补丁经得起测试。

成也萧何,败也萧何。

但当它成了全行业的指挥棒后,怪事就开始发生:

  • 数据污染:模型不再主要学习“如何写代码”,而是越来越像在记住题库与解法;甚至出现只凭任务 ID 就能对上补丁的情况
  • 投机过测:一些任务本身存在歧义或测试设计问题,模型学会了绕过机制的“黑魔法”,分数涨了,代码却未必能用

OpenAI 的决定其实很诚实:当尺子本身被磨损,继续测量只会得到虚假的繁荣。

于是他们建议转向更难、更未被污染的 SWE-bench Pro:题更大、更难,任务时间窗口被明确拉长到“数小时甚至更久”,覆盖也更广,短期内区分度更强。

但说到底,Pro 也只能“顶一阵子”。任何公开榜单,只要足够成功,最终都会被追平、被记住、再失效。

二、榜单的陷阱与真相

你可能会问:那 MMLUHumanEval 这些榜单还有用吗?

有用,但要先看清边界。

同样是“高分”,含义差很多:

  • MMLU 更像考知识广度,偏“百科全书”
  • HumanEval 更像考函数级编程,偏“做题家”
  • SWE-bench 本想考“工程师”,但在长期对标中也被逼出了应试化倾向

所以,拿“数学推理榜第一”去推导“工程落地也最强”,本质上就像拿“百米冠军”去推导“马拉松也一定冠军”。

那榜单还有什么价值?

在我看来,它的价值不在于给你一个“永恒排名”,而在于帮我们两件事:

  • 发现短板:让你知道模型在哪类任务上会翻车
  • 统一语言:让团队在选型、对比与回归上有一套共同参照

但一旦把榜单当信仰,问题就来了。为了冲榜而训练“应试模型”,上线反而更容易翻车,这事并不稀奇。

三、后榜单时代,我们该看什么?

SWE-bench Verified 的退役,其实是在提醒我们:没有永恒的榜单,只有不断变化的真实场景。

所以我感觉评测更像是一张“体检单”:能帮你发现问题、做对比,但别指望它一张单子管一年。

如果评测还想继续有用,就得尽量往“干活现场”靠,而不是把模型越练越像做题家,比如:

  • 题库轮换,留一部分不公开或延迟公开,别让背题变成最优解
  • 除了通过率,也看用时、成本、改动是否干净、后续好不好维护
  • 尽量把定位、修改、验证、失败重试这些环节放在一起测,看看它到底像不像一个工程师
  • 上线后缺陷率、回滚率、人效提升,往往比排行榜更诚实

评测的意义从来不是给出一个永恒分数,而是在一段时间里,给你一张更接近实战的能力快照,帮助你做决策。

结语

我们需要榜单,但不能迷信榜单。

面对榜单,我们更重要的是借助榜单帮我们挑选合适的模型来提高生产力。

也欢迎大家留言聊聊:

  • 你现在看模型榜单,最关注的一个指标是什么?
  • 你遇到过哪些“榜单很强、实际很难用”的翻车现场?