METR 研究揭示:多数开发者已无法离开 AI 工作

内容管家 AI领域评论39字数 1280阅读4分16秒阅读模式

AI编程工具成开发者"刚需",但代码质量隐忧浮现

2026年,AI编程工具已经从可选项变成了开发者的必需品。然而,一系列新研究和头部企业的实践正在揭示一个令人不安的事实:AI或许能让开发者写得更快,却不必然让他们写得更好。

研究发现:多数开发者已离不开AI

总部位于新加坡的AI研究实验室METR在2026年2月发布了一项令人意外的发现:大多数开发者即使只面对有限数量的任务,也不愿意在没有AI辅助的情况下完成。

METR最初打算复现2025年发表的一项开创性研究——那项研究测量了开源开发者手动完成任务与使用AI完成任务的时间差异。当时开发者普遍反映AI提升了效率,但研究团队惊讶地发现AI实际上拖慢了整体速度:代码生成虽然更快,但开发者随后需要花额外时间排查和修复AI生成的错误、引导AI方向,以及等待AI完成各项任务。

然而当METR准备重复这项实验以追踪AI与开发者能力的进步幅度时,实验根本无法进行——开发者们直接拒绝参与,"因为他们不愿意在无AI的环境下工作",哪怕只是为了配合研究。

同年5月,METR转而发布了一份调查问卷,允许技术员工自我报告AI带来的生产力提升。受访者普遍认为AI让自己对组织的价值提升了一倍。然而,结合近期企业层面的种种"打脸"案例,这类自我感知正变得愈发可疑。

企业翻车实录:AI用了,钱花了,产出呢?

Tokenmaxxing(以消耗的token数量作为AI生产力指标)是2026年上半年最流行的趋势——但它可能已经凉了。

据《金融时报》报道,亚马逊内部一个名为"Kirorank"的token消耗排行榜已被关闭。原因很讽刺:员工们通过过度使用AI智能体来刷榜,反而大幅推高了成本,最终证明AI使用量并不自动等同于生产率提升

与此同时,Uber在2026年的AI预算在头四个月内就消耗殆尽。据The Information报道,COO Andrew Macdonald在一期播客中坦言,这类投入并未带来项目数量或生产率的可衡量增长

可靠性工程智能体初创Entelligence AI的创始人兼CEO Aiswarya Sankar也在社交媒体上指出,企业正将约44%的token消耗在修复AI生成的bug上。而代码审核&查验工具公司Code Rabbit的分析则更为直接:他们对开源项目的pull request进行了分析,发现AI生成的代码问题率是人工代码的1.7倍

维护成本:被忽视的暗账

编程教育者James Shore在Hacker News上走红的博文中算了一笔账:

"你现在写代码的速度快了一倍?最好祈祷你的维护成本也减半了。否则你就完了——用短暂的提速换来了永久的负担。"

他指出,AI生成的代码并不必然降低后续的维护需求,甚至可能增加。新加坡管理大学(SMU)研究团队于2026年4月发表的报告也从学术角度印证了这一观点:"AI生成的代码会将长期维护成本引入真实软件项目"

建议:AI做执行,人类守架构

对于这一困境,AI编程智能体厂商的答案是"用AI修AI生成的bug"——Cognition创始人兼CEO Scott Wu(AI编程智能体Devin的打造者)就持此观点。但他本人也承认,Devin虽然能独立工作,其技能水平目前介于初级与中级开发者之间,视任务而定。这意味着它远非"丢给它就不用管"的解决方案。

SMU研究团队则给出了更强调人工介入的路径:开发者需要像掌握自己最熟悉的编程语言那样,深入了解AI擅长与不擅长的任务类型;建立专门面向AI输出质量的审核&查验机制;以及对AI生成代码保持审慎态度——就像对待一名初级开发者一样。

最终,研究者和Wu都认同一点:架构设计与安全设计这类全局性工作,仍应由人类主导

延伸阅读

 
内容管家

发表评论