外观
SWE-bench 退役:当 AI 评测沦为“刷题游戏”,我们还能信谁?
你有没有遇到过这种“离谱反差”:
某些 AI 模型在编程榜单上分数很漂亮,甚至接近满分;但你把它拉到真实项目里跑一跑,连基本依赖都跑不通。
就在最近,OpenAI 正式宣布:曾被全行业奉为金标准的 SWE-bench Verified,将逐步退役。
我觉得这事儿值得聊一聊,不是因为 SWE-bench Verified “错了”,而是因为它太成功了——成功到大家开始研究怎么刷题、怎么提分,而不是怎么把问题真解决。
一、一把好尺子,是如何失效的?
SWE-bench Verified 之所以被追捧,说白了是因为它第一次把 AI 拉到了“工程现场”。
它的评测方式很直观:给一个真实开源仓库,再给一条来自 GitHub issue 的任务描述,让模型去定位问题、改代码、跑测试,最后以“是否通过测试”作为主要评分依据。
这点很关键:它不只是考语法,也不只是考函数题,而是想考“工程能力”——能不能看懂上下文、能不能处理依赖、能不能避免回归、能不能让补丁经得起测试。
成也萧何,败也萧何。
但当它成了全行业的指挥棒后,怪事就开始发生:
- 数据污染:模型不再主要学习“如何写代码”,而是越来越像在记住题库与解法;甚至出现只凭任务 ID 就能对上补丁的情况
- 投机过测:一些任务本身存在歧义或测试设计问题,模型学会了绕过机制的“黑魔法”,分数涨了,代码却未必能用
OpenAI 的决定其实很诚实:当尺子本身被磨损,继续测量只会得到虚假的繁荣。
于是他们建议转向更难、更未被污染的 SWE-bench Pro:题更大、更难,任务时间窗口被明确拉长到“数小时甚至更久”,覆盖也更广,短期内区分度更强。
但说到底,Pro 也只能“顶一阵子”。任何公开榜单,只要足够成功,最终都会被追平、被记住、再失效。
二、榜单的陷阱与真相
你可能会问:那 MMLU、HumanEval 这些榜单还有用吗?
有用,但要先看清边界。
同样是“高分”,含义差很多:
- MMLU 更像考知识广度,偏“百科全书”
- HumanEval 更像考函数级编程,偏“做题家”
- SWE-bench 本想考“工程师”,但在长期对标中也被逼出了应试化倾向
所以,拿“数学推理榜第一”去推导“工程落地也最强”,本质上就像拿“百米冠军”去推导“马拉松也一定冠军”。
那榜单还有什么价值?
在我看来,它的价值不在于给你一个“永恒排名”,而在于帮我们两件事:
- 发现短板:让你知道模型在哪类任务上会翻车
- 统一语言:让团队在选型、对比与回归上有一套共同参照
但一旦把榜单当信仰,问题就来了。为了冲榜而训练“应试模型”,上线反而更容易翻车,这事并不稀奇。
三、后榜单时代,我们该看什么?
SWE-bench Verified 的退役,其实是在提醒我们:没有永恒的榜单,只有不断变化的真实场景。
所以我感觉评测更像是一张“体检单”:能帮你发现问题、做对比,但别指望它一张单子管一年。
如果评测还想继续有用,就得尽量往“干活现场”靠,而不是把模型越练越像做题家,比如:
- 题库轮换,留一部分不公开或延迟公开,别让背题变成最优解
- 除了通过率,也看用时、成本、改动是否干净、后续好不好维护
- 尽量把定位、修改、验证、失败重试这些环节放在一起测,看看它到底像不像一个工程师
- 上线后缺陷率、回滚率、人效提升,往往比排行榜更诚实
评测的意义从来不是给出一个永恒分数,而是在一段时间里,给你一张更接近实战的能力快照,帮助你做决策。
结语
我们需要榜单,但不能迷信榜单。
面对榜单,我们更重要的是借助榜单帮我们挑选合适的模型来提高生产力。
也欢迎大家留言聊聊:
- 你现在看模型榜单,最关注的一个指标是什么?
- 你遇到过哪些“榜单很强、实际很难用”的翻车现场?
