AI 代理仍无法从零构建软件

2026年6月18日内容管家

编程开发评论0字数 2506阅读8分21秒阅读模式

AI 编程工具：速度换来的技术债务

开发者普遍报告 AI 编程助手带来了 10 倍生产力提升，但卡内基梅隆大学对 806 个开源 GitHub 仓库的追踪研究得出了不同结论。研究团队将采用 Cursor 的项目与 1380 个对照仓库进行匹配，逐月监测代码产出与质量（通过 SonarQube 分析）。

速度提升昙花一现

Cursor 上线首月，项目代码行数增长 281%、提交次数增长 55%。然而到第三个月，这两项指标均回落至使用前水平。Dashboard 上的数字很好看，可惜无法持续。

技术债务持续累积

静态分析警告增加 30%，代码复杂度平均上升 41%。这种质量下滑在后续整个项目周期中一直存在。

债务引发恶性循环

研究发现了质量与速度之间的反馈回路：代码复杂度翻倍，导致未来开发速度下降 64.5%；静态分析警告翻倍，导致代码产出下降 50.3%。前期两个月的速度提升，会在之后数月拖垮团队整体生产力。

AI 生成的代码更复杂

无论代码库规模如何，采用 Cursor 的项目其代码复杂度始终比产出相同代码量的对照项目高 9%。这意味着后续维护成本更高，QA 团队需要跟上更高的产出节奏。

研究团队指出，在不升级开发流程的前提下引入 AI 编程工具，本质上是在"向未来借速度"。论文甚至建议工具应考虑"自我限流"——当项目复杂度超过健康阈值时，主动减少建议产出量。

ThoughtWorks 技术雷达第 34 期（2026 年 4 月）

本期两大变化值得关注：Claude Code 升入 Adopt（推荐采用），而 MCP by default（默认启用 MCP）则进入 Caution（谨慎使用）。同一部雷达，两种截然不同的信号。

本期其余内容几乎全部围绕 AI 代理展开，警示语气比第 33 期更强烈，呈现四大主题：

技术评估难度上升

"语义扩散"是原因之一。spec-driven development、harness engineering 等术语在不同场景下使用混乱，很多概念尚无明确定义就已经被广泛应用。

评估节奏也带来了问题。部分工具发布不足一个月，通常由单人维护，且维护者本人就在用编程代理。

更大的风险在于代码库的"认知债务"：团队大量使用 AI 生成的代码，却从未真正理解这些方案，日后调试时将付出代价。

回归基础，放弃旧有模式

AI 正在将团队推回技术基本面：结对编程、变异测试、DORA 指标、零信任架构。经过多年为了易用性而做的层层抽象，命令行重新成为主要工作界面。

但并非所有实践都能延续。团队拓扑（Team Topologies）需要演进为"代理拓扑"，反馈周期也需要重新设计。

为"权限贪婪型"代理建立安全边界

真正有价值的代理往往需要访问一切。OpenClaw 和 Claude Cowork 监督真实工作流程，GasTown 协调跨代码库的代理集群。

Simon Willison 提出的"致命三要素"描述了不安全代理的典型特征：私有数据 + 不受信任的内容 + 外部操作。这在当下已不是配置失误，而是大多数实用型代理的默认状态。

零信任、最小权限、纵深防御——这些都只是基础。安全的代理系统将是约束型代理的管道组合，而非单体架构。

为编程代理套上缰绳

随着编程代理能力提升，人类很容易退出决策循环。团队正在用各种"控制框架"来约束代理行为： 前馈控制：Agent Skills 将指令模块化，按需加载。GitHub Spec-Kit、OpenSpec 等规范驱动框架则将规划、设计、实现过程结构化。

反馈控制：将确定性质量门禁接入代理工作流：编译器、linter、类型检查器、变异测试。失败自动触发修正，无需人工介入。

技术采纳建议（按推荐级别排列）

✅ 推荐采用

Context engineering（上下文工程）
Curated shared instructions（精选共享指令）
DORA metrics
Passkeys（通行密钥）
Zero trust architecture（零信任架构）

🧪 值得尝试

Agent Skills
Feedback sensors for coding agents（编程代理反馈传感器）
Mutation testing（变异测试）
Progressive context disclosure（渐进式上下文披露）
Sandboxed execution for coding agents（沙箱执行）

🛑 谨慎使用

Agent instruction bloat（代理指令膨胀）
Codebase cognitive debt（代码库认知债务）
Coding agent swarms（编程代理集群）
MCP by default（默认启用 MCP）
Pixel-streamed development environments（像素流开发环境）

AI 编程 Agent：从零构建软件仍是未解决的难题

ProgramBench 是 Meta、Stanford 和 Harvard 联合发布的基准测试，规则很直接：给 Agent 一个已编译的二进制文件及其文档，让它从头重建程序。测试覆盖 9 个前沿模型、200 个任务，范围从小型 CLI 工具到 FFmpeg、SQLite 和 PHP 解释器。

在全部 1800 次运行中，没有任何模型完成过哪怕一个端到端任务。

最佳模型仅在 3% 的任务上达到 95% 通过率

Claude Opus 4.7 触及了这个数字，Opus 4.6 以 2.5% 紧随其后，Sonnet 4.6 为 1.6%。其余模型全部为零，包括 GPT 5.4 和 Gemini 3.1 Pro。该基准共包含 248,853 个行为测试用例。

模型写单体代码，而非模块化代码

60% 的模型解决方案集中在 1-3 个文件内。目录深度中位数为 1，而人类写出的代码深度为 2。模型只保留了原始函数数量的 10-29%，且每个函数比原作长 1.08x 到 1.62x。

业界一直要求工程师将代码拆分为小而专注的函数，模型却反其道而行。

模型频繁放弃原始语言转投 Python

只有 50% 的情况下模型会沿用原始编程语言。Python 以 36% 的整体占比胜出。GPT 5.4 尤其极端：即使原始代码是 Rust 或 C/C++，它仍有 79% 的概率选择 Python。

有的模型一步到位，有的反复迭代

GPT 5.4 在单次调用中就写完 96% 的最终代码。Sonnet 4.6 则走相反路线：平均每个任务执行 868 条命令、18.3 次文件编辑。两种策略都无法产出可运行程序。

C/C++ 项目是最难攻克的类型

C/C++ 任务平均通过率仅 27.7%，Rust 为 38.5%，Go 为 38.4%。FFmpeg、php-src 和 DuckDB 完全未被解决，成功案例集中在 nnn、jq、gron 这类小型工具上。

Agent 能修补现有代码，但从零构建是另一回事。

AI 代码生成量同比翻倍，但开发者普遍认为市场存在泡沫

7,258 名开发者参与了 State of AI 2026 调查。AI 采用率持续上升并不意外，真正有意思的数据来自那些使用最深的人——他们同时也是最怀疑市场过热的一批人。

AI 生成代码占比一年内翻倍

AI 生成代码的平均占比从 2025 年的 28% 升至现在的 54%。增速最快的是 75%+ 高占比群体。此外，表示自己"持续使用 AI"的开发者数量也翻了一倍。AI 编程不再是早期采用者的专属标签。

Claude Code 领跑评价榜，Agent 是背后的推动力

在编码工具正向评价排名中，Claude Code 以 42.3% 居首，领先 OpenAI Codex（26.3%）和 GitHub Copilot（22.6%）。Agent 正在悄然取代旧的"聊天机器人 + 应用生成器"工作流，付费意愿也随之转移。ChatGPT 仍是用户总量最大的模型（3,261 人），但 Claude 的付费用户更多（4,592 人）。

"泡沫论"已成行业共识

约 70% 的受访者认同或强烈认同当前处于 AI 泡沫期。廉价、靠风险投资补贴的时代正在收尾，而各实验室持续提价，个人 AI 支出却在不断攀升——一边付更多钱，一边赌估值不会崩。

幻觉问题仍是日常最大痛点

排名第一的痛点是幻觉与错误输出（3,899 条反馈），且是今年增幅最大的类别，代码质量问题紧随其后。在风险项中，岗位替代和军事应用 AI 并列第一。开发者给 AI 的任务越来越多，对输出的信任却在下降。

技术领先，组织滞后：AI 工程实践的双重困境

核心结论贯穿两份报告：技术跑在前面，人也不差，真正拖后腿的是组织本身。 这条规律在软件工程的各个阶段反复出现——技术选型对了，团队能力够用，但组织结构、决策流程、激励机制一旦跟不上，再好的技术也发挥不出价值。

软件工程定律：经验教训的系统沉淀

作者在科技行业深耕 20 余年，亲眼目睹同一类失败在不同公司、不同技术栈、不同团队中反复上演。痛定思痛，他把这些观察整理成了一本书——《软件工程定律》（Laws of Software Engineering）。

书中收录了 56 条定律，覆盖架构、人员、时间、质量、规模、代码、决策七大维度。每条定律不仅说明"是什么"，还追溯其来源、适用场景，以及在真实项目中的具体表现。相关概念如"双披萨规则""眼镜蛇效应""冒名顶替综合征"等也有专章讨论。

这本书定位为案头参考——当项目感觉不对劲时，翻一翻或许能帮你找到症结。序言作者包括 ThoughtWorks 前 CTO Rebecca Parsons 博士，以及 Google Cloud AI 工程总监 Addy Osmani，全书经 20 位来自 Google、Amazon、Uber、Oracle 等公司的工程师和领导者审阅。