METR 研究揭示：多数开发者已无法离开 AI 工作

2026年5月30日内容管家

内容管家

1424
文章

0
评论

AI领域评论39字数 1280阅读4分16秒阅读模式

AI编程工具成开发者"刚需"，但代码质量隐忧浮现

2026年，AI编程工具已经从可选项变成了开发者的必需品。然而，一系列新研究和头部企业的实践正在揭示一个令人不安的事实：AI或许能让开发者写得更快，却不必然让他们写得更好。

研究发现：多数开发者已离不开AI

总部位于新加坡的AI研究实验室METR在2026年2月发布了一项令人意外的发现：大多数开发者即使只面对有限数量的任务，也不愿意在没有AI辅助的情况下完成。

METR最初打算复现2025年发表的一项开创性研究——那项研究测量了开源开发者手动完成任务与使用AI完成任务的时间差异。当时开发者普遍反映AI提升了效率，但研究团队惊讶地发现AI实际上拖慢了整体速度：代码生成虽然更快，但开发者随后需要花额外时间排查和修复AI生成的错误、引导AI方向，以及等待AI完成各项任务。

然而当METR准备重复这项实验以追踪AI与开发者能力的进步幅度时，实验根本无法进行——开发者们直接拒绝参与，"因为他们不愿意在无AI的环境下工作"，哪怕只是为了配合研究。

同年5月，METR转而发布了一份调查问卷，允许技术员工自我报告AI带来的生产力提升。受访者普遍认为AI让自己对组织的价值提升了一倍。然而，结合近期企业层面的种种"打脸"案例，这类自我感知正变得愈发可疑。

企业翻车实录：AI用了，钱花了，产出呢？

Tokenmaxxing（以消耗的token数量作为AI生产力指标）是2026年上半年最流行的趋势——但它可能已经凉了。

据《金融时报》报道，亚马逊内部一个名为"Kirorank"的token消耗排行榜已被关闭。原因很讽刺：员工们通过过度使用AI智能体来刷榜，反而大幅推高了成本，最终证明AI使用量并不自动等同于生产率提升。

与此同时，Uber在2026年的AI预算在头四个月内就消耗殆尽。据The Information报道，COO Andrew Macdonald在一期播客中坦言，这类投入并未带来项目数量或生产率的可衡量增长。

可靠性工程智能体初创Entelligence AI的创始人兼CEO Aiswarya Sankar也在社交媒体上指出，企业正将约44%的token消耗在修复AI生成的bug上。而代码审核&查验工具公司Code Rabbit的分析则更为直接：他们对开源项目的pull request进行了分析，发现AI生成的代码问题率是人工代码的1.7倍。

维护成本：被忽视的暗账

编程教育者James Shore在Hacker News上走红的博文中算了一笔账：

"你现在写代码的速度快了一倍？最好祈祷你的维护成本也减半了。否则你就完了——用短暂的提速换来了永久的负担。"

他指出，AI生成的代码并不必然降低后续的维护需求，甚至可能增加。新加坡管理大学（SMU）研究团队于2026年4月发表的报告也从学术角度印证了这一观点："AI生成的代码会将长期维护成本引入真实软件项目"。

建议：AI做执行，人类守架构

对于这一困境，AI编程智能体厂商的答案是"用AI修AI生成的bug"——Cognition创始人兼CEO Scott Wu（AI编程智能体Devin的打造者）就持此观点。但他本人也承认，Devin虽然能独立工作，其技能水平目前介于初级与中级开发者之间，视任务而定。这意味着它远非"丢给它就不用管"的解决方案。

SMU研究团队则给出了更强调人工介入的路径：开发者需要像掌握自己最熟悉的编程语言那样，深入了解AI擅长与不擅长的任务类型；建立专门面向AI输出质量的审核&查验机制；以及对AI生成代码保持审慎态度——就像对待一名初级开发者一样。

最终，研究者和Wu都认同一点：架构设计与安全设计这类全局性工作，仍应由人类主导。

METR 研究揭示：多数开发者已无法离开 AI 工作

AI编程工具成开发者"刚需"，但代码质量隐忧浮现

研究发现：多数开发者已离不开AI

企业翻车实录：AI用了，钱花了，产出呢？

维护成本：被忽视的暗账

建议：AI做执行，人类守架构

延伸阅读

历史上的今天

发表评论