AI 代理仍无法从零构建软件

内容管家 编程开发评论0字数 2506阅读8分21秒阅读模式
AI 代理仍无法从零构建软件

AI 编程工具:速度换来的技术债务

开发者普遍报告 AI 编程助手带来了 10 倍生产力提升,但卡内基梅隆大学对 806 个开源 GitHub 仓库的追踪研究得出了不同结论。研究团队将采用 Cursor 的项目与 1380 个对照仓库进行匹配,逐月监测代码产出与质量(通过 SonarQube 分析)。

AI 代理仍无法从零构建软件-图片1

速度提升昙花一现

Cursor 上线首月,项目代码行数增长 281%、提交次数增长 55%。然而到第三个月,这两项指标均回落至使用前水平。Dashboard 上的数字很好看,可惜无法持续。

技术债务持续累积

静态分析警告增加 30%,代码复杂度平均上升 41%。这种质量下滑在后续整个项目周期中一直存在。

债务引发恶性循环

研究发现了质量与速度之间的反馈回路:代码复杂度翻倍,导致未来开发速度下降 64.5%;静态分析警告翻倍,导致代码产出下降 50.3%。前期两个月的速度提升,会在之后数月拖垮团队整体生产力。

AI 生成的代码更复杂

无论代码库规模如何,采用 Cursor 的项目其代码复杂度始终比产出相同代码量的对照项目高 9%。这意味着后续维护成本更高,QA 团队需要跟上更高的产出节奏。

研究团队指出,在不升级开发流程的前提下引入 AI 编程工具,本质上是在"向未来借速度"。论文甚至建议工具应考虑"自我限流"——当项目复杂度超过健康阈值时,主动减少建议产出量。

ThoughtWorks 技术雷达第 34 期(2026 年 4 月)

本期两大变化值得关注:Claude Code 升入 Adopt(推荐采用),而 MCP by default(默认启用 MCP)则进入 Caution(谨慎使用)。同一部雷达,两种截然不同的信号。

AI 代理仍无法从零构建软件-图片2

本期其余内容几乎全部围绕 AI 代理展开,警示语气比第 33 期更强烈,呈现四大主题:

技术评估难度上升

"语义扩散"是原因之一。spec-driven development、harness engineering 等术语在不同场景下使用混乱,很多概念尚无明确定义就已经被广泛应用。

评估节奏也带来了问题。部分工具发布不足一个月,通常由单人维护,且维护者本人就在用编程代理。

更大的风险在于代码库的"认知债务":团队大量使用 AI 生成的代码,却从未真正理解这些方案,日后调试时将付出代价。

回归基础,放弃旧有模式

AI 正在将团队推回技术基本面:结对编程、变异测试、DORA 指标、零信任架构。经过多年为了易用性而做的层层抽象,命令行重新成为主要工作界面。

但并非所有实践都能延续。团队拓扑(Team Topologies)需要演进为"代理拓扑",反馈周期也需要重新设计。

为"权限贪婪型"代理建立安全边界

真正有价值的代理往往需要访问一切。OpenClaw 和 Claude Cowork 监督真实工作流程,GasTown 协调跨代码库的代理集群。

Simon Willison 提出的"致命三要素"描述了不安全代理的典型特征:私有数据 + 不受信任的内容 + 外部操作。这在当下已不是配置失误,而是大多数实用型代理的默认状态。

零信任、最小权限、纵深防御——这些都只是基础。安全的代理系统将是约束型代理的管道组合,而非单体架构。

为编程代理套上缰绳

随着编程代理能力提升,人类很容易退出决策循环。团队正在用各种"控制框架"来约束代理行为: 前馈控制:Agent Skills 将指令模块化,按需加载。GitHub Spec-Kit、OpenSpec 等规范驱动框架则将规划、设计、实现过程结构化。

反馈控制:将确定性质量门禁接入代理工作流:编译器、linter、类型检查器、变异测试。失败自动触发修正,无需人工介入。

技术采纳建议(按推荐级别排列)

✅ 推荐采用

  • Context engineering(上下文工程)
  • Curated shared instructions(精选共享指令)
  • DORA metrics
  • Passkeys(通行密钥)
  • Zero trust architecture(零信任架构)

🧪 值得尝试

  • Agent Skills
  • Feedback sensors for coding agents(编程代理反馈传感器)
  • Mutation testing(变异测试)
  • Progressive context disclosure(渐进式上下文披露)
  • Sandboxed execution for coding agents(沙箱执行)

🛑 谨慎使用

  • Agent instruction bloat(代理指令膨胀)
  • Codebase cognitive debt(代码库认知债务)
  • Coding agent swarms(编程代理集群)
  • MCP by default(默认启用 MCP)
  • Pixel-streamed development environments(像素流开发环境)

AI 编程 Agent:从零构建软件仍是未解决的难题

ProgramBench 是 Meta、Stanford 和 Harvard 联合发布的基准测试,规则很直接:给 Agent 一个已编译的二进制文件及其文档,让它从头重建程序。测试覆盖 9 个前沿模型、200 个任务,范围从小型 CLI 工具到 FFmpeg、SQLite 和 PHP 解释器。

在全部 1800 次运行中,没有任何模型完成过哪怕一个端到端任务。

最佳模型仅在 3% 的任务上达到 95% 通过率

Claude Opus 4.7 触及了这个数字,Opus 4.6 以 2.5% 紧随其后,Sonnet 4.6 为 1.6%。其余模型全部为零,包括 GPT 5.4 和 Gemini 3.1 Pro。该基准共包含 248,853 个行为测试用例。

AI 代理仍无法从零构建软件-图片3

模型写单体代码,而非模块化代码

60% 的模型解决方案集中在 1-3 个文件内。目录深度中位数为 1,而人类写出的代码深度为 2。模型只保留了原始函数数量的 10-29%,且每个函数比原作长 1.08x 到 1.62x。

业界一直要求工程师将代码拆分为小而专注的函数,模型却反其道而行。

模型频繁放弃原始语言转投 Python

只有 50% 的情况下模型会沿用原始编程语言。Python 以 36% 的整体占比胜出。GPT 5.4 尤其极端:即使原始代码是 Rust 或 C/C++,它仍有 79% 的概率选择 Python。

有的模型一步到位,有的反复迭代

GPT 5.4 在单次调用中就写完 96% 的最终代码。Sonnet 4.6 则走相反路线:平均每个任务执行 868 条命令、18.3 次文件编辑。两种策略都无法产出可运行程序。

C/C++ 项目是最难攻克的类型

C/C++ 任务平均通过率仅 27.7%,Rust 为 38.5%,Go 为 38.4%。FFmpeg、php-src 和 DuckDB 完全未被解决,成功案例集中在 nnn、jq、gron 这类小型工具上。

Agent 能修补现有代码,但从零构建是另一回事。

AI 代码生成量同比翻倍,但开发者普遍认为市场存在泡沫

7,258 名开发者参与了 State of AI 2026 调查。AI 采用率持续上升并不意外,真正有意思的数据来自那些使用最深的人——他们同时也是最怀疑市场过热的一批人。

AI 生成代码占比一年内翻倍

AI 生成代码的平均占比从 2025 年的 28% 升至现在的 54%。增速最快的是 75%+ 高占比群体。此外,表示自己"持续使用 AI"的开发者数量也翻了一倍。AI 编程不再是早期采用者的专属标签。

AI 代理仍无法从零构建软件-图片4

Claude Code 领跑评价榜,Agent 是背后的推动力

在编码工具正向评价排名中,Claude Code 以 42.3% 居首,领先 OpenAI Codex(26.3%)和 GitHub Copilot(22.6%)。Agent 正在悄然取代旧的"聊天机器人 + 应用生成器"工作流,付费意愿也随之转移。ChatGPT 仍是用户总量最大的模型(3,261 人),但 Claude 的付费用户更多(4,592 人)。

AI 代理仍无法从零构建软件

"泡沫论"已成行业共识

约 70% 的受访者认同或强烈认同当前处于 AI 泡沫期。廉价、靠风险投资补贴的时代正在收尾,而各实验室持续提价,个人 AI 支出却在不断攀升——一边付更多钱,一边赌估值不会崩。

AI 代理仍无法从零构建软件-图片5

幻觉问题仍是日常最大痛点

排名第一的痛点是幻觉与错误输出(3,899 条反馈),且是今年增幅最大的类别,代码质量问题紧随其后。在风险项中,岗位替代和军事应用 AI 并列第一。开发者给 AI 的任务越来越多,对输出的信任却在下降。

AI 代理仍无法从零构建软件

技术领先,组织滞后:AI 工程实践的双重困境

核心结论贯穿两份报告:技术跑在前面,人也不差,真正拖后腿的是组织本身。 这条规律在软件工程的各个阶段反复出现——技术选型对了,团队能力够用,但组织结构、决策流程、激励机制一旦跟不上,再好的技术也发挥不出价值。

软件工程定律:经验教训的系统沉淀

作者在科技行业深耕 20 余年,亲眼目睹同一类失败在不同公司、不同技术栈、不同团队中反复上演。痛定思痛,他把这些观察整理成了一本书——《软件工程定律》(Laws of Software Engineering)

书中收录了 56 条定律,覆盖架构、人员、时间、质量、规模、代码、决策七大维度。每条定律不仅说明"是什么",还追溯其来源、适用场景,以及在真实项目中的具体表现。相关概念如"双披萨规则""眼镜蛇效应""冒名顶替综合征"等也有专章讨论。

这本书定位为案头参考——当项目感觉不对劲时,翻一翻或许能帮你找到症结。序言作者包括 ThoughtWorks 前 CTO Rebecca Parsons 博士,以及 Google Cloud AI 工程总监 Addy Osmani,全书经 20 位来自 Google、Amazon、Uber、Oracle 等公司的工程师和领导者审阅。

AI 代理仍无法从零构建软件-图片6

延伸阅读

 
内容管家

发表评论