SWE-bench 退役：当 AI 评测沦为“刷题游戏”，我们还能信谁？

约 1265 字大约 4 分钟

2026-02-26

你有没有遇到过这种“离谱反差”：

某些 AI 模型在编程榜单上分数很漂亮，甚至接近满分；但你把它拉到真实项目里跑一跑，连基本依赖都跑不通。

就在最近，OpenAI 正式宣布：曾被全行业奉为金标准的 SWE-bench Verified，将逐步退役。

我觉得这事儿值得聊一聊，不是因为 SWE-bench Verified “错了”，而是因为它太成功了——成功到大家开始研究怎么刷题、怎么提分，而不是怎么把问题真解决。

一、一把好尺子，是如何失效的？

SWE-bench Verified 之所以被追捧，说白了是因为它第一次把 AI 拉到了“工程现场”。

它的评测方式很直观：给一个真实开源仓库，再给一条来自 GitHub issue 的任务描述，让模型去定位问题、改代码、跑测试，最后以“是否通过测试”作为主要评分依据。

这点很关键：它不只是考语法，也不只是考函数题，而是想考“工程能力”——能不能看懂上下文、能不能处理依赖、能不能避免回归、能不能让补丁经得起测试。

成也萧何，败也萧何。

但当它成了全行业的指挥棒后，怪事就开始发生：

OpenAI 的决定其实很诚实：当尺子本身被磨损，继续测量只会得到虚假的繁荣。

于是他们建议转向更难、更未被污染的 SWE-bench Pro：题更大、更难，任务时间窗口被明确拉长到“数小时甚至更久”，覆盖也更广，短期内区分度更强。

但说到底，Pro 也只能“顶一阵子”。任何公开榜单，只要足够成功，最终都会被追平、被记住、再失效。

你可能会问：那 MMLU、HumanEval 这些榜单还有用吗？

有用，但要先看清边界。

同样是“高分”，含义差很多：

所以，拿“数学推理榜第一”去推导“工程落地也最强”，本质上就像拿“百米冠军”去推导“马拉松也一定冠军”。

那榜单还有什么价值？

在我看来，它的价值不在于给你一个“永恒排名”，而在于帮我们两件事：

但一旦把榜单当信仰，问题就来了。为了冲榜而训练“应试模型”，上线反而更容易翻车，这事并不稀奇。

SWE-bench Verified 的退役，其实是在提醒我们：没有永恒的榜单，只有不断变化的真实场景。

所以我感觉评测更像是一张“体检单”：能帮你发现问题、做对比，但别指望它一张单子管一年。

如果评测还想继续有用，就得尽量往“干活现场”靠，而不是把模型越练越像做题家，比如：

评测的意义从来不是给出一个永恒分数，而是在一段时间里，给你一张更接近实战的能力快照，帮助你做决策。

我们需要榜单，但不能迷信榜单。

面对榜单，我们更重要的是借助榜单帮我们挑选合适的模型来提高生产力。

也欢迎大家留言聊聊：