Guardrails

Human-in-the-Loop：Agent 什么时候应该停下来问你

Agent 不是越自动越好。本文系统分析 Human-in-the-Loop 的三种介入强度、触发逻辑、工程实现与常见陷阱，帮你在自主性与安全性之间找到合理的平衡点。

不只是文件操作——这篇文章的核心是展示 Guardrails 如何在有不可逆操作的 Agent 系统中落地：四级权限工具、Dry-run 预览、用户审批流程、Undo 日志和回滚，以及这些机制如何与 ReAct 循环无缝集成。

系统分析 Agent 安全护栏的三层架构——输入防护、执行防护、输出防护——涵盖 Prompt Injection 防御、权限分级、沙箱隔离、敏感信息过滤，以及真实产品中的 Guardrails 设计。