摘要 / 我的正文
现代软件测试基于“正确行为可重复”的假设,但对于GitHub Copilot编码代理(Agent Mode)等自主代理,尤其是在集成“计算机使用”功能时,这一假设不再成立。代理在与UI、浏览器和IDE等真实环境交互时,正确性呈现多路径特征,如加载屏幕的出现与否、时间变化及多种有效操作序列均可导致相同结果。传统验证方法常因执行路径与脚本不符而产生“假阴性”,阻碍生产流程。本文探讨如何构建独立的“信任层”,通过支配者分析(dominator analysis)关注关键结果而非刚性路径,实现可解释、轻量级且适用于实际CI流水线的代理行为验证。传统测试工具(如基于断言、录制回放、视觉回归测试及ML预言机)因假设执行路径固定而难以应对代理的非确定性行为。为此,需将正确性重新定义为“可靠达成关键结果”,区分“必要状态”(如到达“搜索结果”界面)、“可选变化”(如加载动画)和“收敛路径”(如快捷键与菜单操作的不同序列)。通过将执行轨迹建模为前缀树接受器(PTA)图结构,结合三级等价检测框架(视觉指标、LLM语义分析、保守合并)和支配者分析,可自动识别关键状态并构建“基准真相”模型。新执行轨迹通过拓扑子序列匹配与支配者树比较,仅需关键状态按正确顺序出现即可通过验证,还能提供覆盖率指标和明确失败原因。实验表明,该方法在VS Code扩展测试中准确率、精确率、召回率和F1分数均达100%,显著优于代理自评估(分别为82.2%、83.3%、60.0%、69.8%),并能有效识别“非bug”场景。目前框架需2-10个成功轨迹构建模型,依赖LLM进行语义等价检查,且存在时间约束盲点,未来将致力于加入时间和负面约束、层级多模态抽象及在线学习功能,以推动代理从实验演示走向生产级基础设施。
关键要点
一句话结论
(可由AI生成:一句话讲清这条新闻对你意味着什么)
可借鉴点
(可由AI生成:这条新闻能迁移到哪些业务/审查/写作场景)
证据锚点
(如:判决法院/案号/专利号/关键时间点)
后续跟踪
(如:上诉进展/和解条款/监管动作/同类案件)
证据与引用
原文链接:https://github.blog/ai-and-ml/generative-ai/validating-agentic-behavior-when-correct-isnt-deterministic/
来源:GitHub Blog
原文时间:2026-05-06 21:16:31 抓取:2026-05-06 21:59:02
来源:GitHub Blog
原文时间:2026-05-06 21:16:31 抓取:2026-05-06 21:59:02