
微软开源 ASSERT 框架:用自然语言描述即可自动生成 AI 行为评估测试
微软近日发布了一款名为 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing)的开源框架,旨在简化应用场景下 AI 系统的行为评估流程。
解决什么问题
通用型 AI 基准测试已相当成熟,但企业在将 AI 模型落地到具体产品时,往往需要验证系统在自身业务上下文、策略和工具环境下的实际表现。这类需求难以用现成的评测框架满足。
ASSERT 的核心思路是:将产品团队用自然语言写成的目标、策略或预期行为描述,自动转化为结构化的测试用例,运行后给出评分,并记录 AI 的完整执行路径(包括中间步骤和工具调用),便于开发者定位失败原因。
如何运作
开发者只需提供几类信息即可开始评估:
- 自然语言规则:描述 AI 的预期行为(如"文档研究助手不得向公司外部人员发送邮件")
- 系统上下文:工具能力、权限约束等业务边界
- 测试场景:框架会据此生成问题情境和具体案例
以一个文档研究 AI 代理为例,开发者可指定:不向外部人员发送邮件、机密信息仅发送给 C 级高管、摘要应结合上下文并保持简洁。ASSERT 会将这些规则转化为可执行的测试用例,持续检验系统是否遵守。
行业背景
AI 行业正在经历一次明显转向:从追求模型能力上限,转向重视可重复的测试流程和回归验证。除 Stanford HELM、MLCommons AILuminate 等通用基准外,METR 等研究组织也在推动针对模型行为细节的评测标准。
微软 Responsible AI 首席产品官 Sarah Bird 表示:“我们发现,如果你真正想构建可信赖的系统,应该评估更多与应用相关的维度——这比通用评测更能反映真实风险。” ASSERT 目前已在 GitHub 开源,支持构建阶段、部署后以及持续监控等多场景使用。


评论