微软推出 ASSERT：文本描述即可生成 AI 行为测试

AI领域评论10字数 601阅读2分0秒阅读模式

微软开源 ASSERT 框架：用自然语言描述即可自动生成 AI 行为评估测试

微软近日发布了一款名为 ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing）的开源框架，旨在简化应用场景下 AI 系统的行为评估流程。

解决什么问题

通用型 AI 基准测试已相当成熟，但企业在将 AI 模型落地到具体产品时，往往需要验证系统在自身业务上下文、策略和工具环境下的实际表现。这类需求难以用现成的评测框架满足。

ASSERT 的核心思路是：将产品团队用自然语言写成的目标、策略或预期行为描述，自动转化为结构化的测试用例，运行后给出评分，并记录 AI 的完整执行路径（包括中间步骤和工具调用），便于开发者定位失败原因。

开发者只需提供几类信息即可开始评估：

以一个文档研究 AI 代理为例，开发者可指定：不向外部人员发送邮件、机密信息仅发送给 C 级高管、摘要应结合上下文并保持简洁。ASSERT 会将这些规则转化为可执行的测试用例，持续检验系统是否遵守。

AI 行业正在经历一次明显转向：从追求模型能力上限，转向重视可重复的测试流程和回归验证。除 Stanford HELM、MLCommons AILuminate 等通用基准外，METR 等研究组织也在推动针对模型行为细节的评测标准。

微软 Responsible AI 首席产品官 Sarah Bird 表示：“我们发现，如果你真正想构建可信赖的系统，应该评估更多与应用相关的维度——这比通用评测更能反映真实风险。” ASSERT 目前已在 GitHub 开源，支持构建阶段、部署后以及持续监控等多场景使用。