Agent Spec:如何用自然语言定义一个可执行系统
系统解析 Agent Spec 的本质,说明它与普通 Prompt 的区别,并给出一套包含六大核心组件的工程化设计方法论与通用模板。
系统解析 Agent Spec 的本质,说明它与普通 Prompt 的区别,并给出一套包含六大核心组件的工程化设计方法论与通用模板。
从全自动 Agent 的真实风险出发,系统讲解 HITL 的三种介入模式、触发时机设计、暂停与恢复的工程实现,以及如何避免 Alert Fatigue 让 HITL 形同虚设。
用 Python 构建一个 Skill 驱动的写作 Agent——通过可插拔的 Skill 文件教它你的博客风格、文章结构和技术规范,展示 Skill 如何让 Agent 从通用工具变成领域专家。
用 Python 构建一个具备跨会话持久记忆的对话 Agent——通过情景记忆和语义记忆的分层设计,让 Agent 记住过去发生了什么、用户是谁、喜欢什么,真正实现「每次对话都比上次更懂你」。
用 Python 构建一个通过 MCP 协议动态发现和调用工具的 Agent——连接文件系统、GitHub 和 SQLite 三个真实的 MCP Server,展示从硬编码工具到协议驱动工具的架构升级。
用 Python 构建一个多 Agent 代码审查系统——Supervisor Agent 协调逻辑、安全、性能三个专家 Agent 并行审查 PR,交叉检验后生成结构化审查报告。
从传统软件调试与 Agent 调试的根本差异出发,系统讲解 Agent 可观测性的三支柱——Tracing、Logging、Metrics——的设计与实现,以及如何用 Replay 复现问题、用结构化方法定位 Agent 的隐性错误。
用 Python 构建一个带完整安全防护的文件管理 Agent——权限分级的工具集、Dry-run 预览机制、操作审批流程和 Undo 回滚能力,展示 Guardrails 如何嵌入 ReAct 执行循环。
从传统 RAG 的局限出发,用 Python 构建一个能自主制定检索策略、多轮迭代收集信息、评估信息质量并生成结构化研究报告的 Research Agent。
从 Agent 能力越强风险越大的现实出发,系统讲解输入防护、执行防护和输出防护三层安全边界的设计思路与工程实现。
从「Agent 为什么会忘事」出发,系统梳理短期、情景、语义与程序四种记忆的定义、适用场景与工程实现,并厘清与 RAG、上下文管理的边界。
从检索增强生成的基本流程出发,说明索引、向量化、混合检索与重排序等关键环节,以及 RAG 与微调、Agent 的关系。
用 Python 从零构建一个结构真实的 CLI Coding Agent,涵盖工具注册、ReAct 循环、上下文管理和安全边界的完整实现。
从目标、工具、状态与执行闭环几个角度理解 Agent,说明它和普通聊天机器人、固定工作流之间的区别。
从模型的封闭性出发,解释 Tool Use 为什么是 Agent 与外部世界连接的关键接口,以及工程上如何把工具系统设计到真正可用。
解释 ReAct 如何让模型在推理与行动之间交替运转,以及它为什么是 Agent 推理机制的基础范式。
解释 Planning 为什么是复杂 Agent 任务的必要上层结构,以及 Plan-and-Execute 如何把任务分解、执行与检查点串成稳定闭环。
解释为什么单 Agent 存在天花板,以及多 Agent 系统的四种编排模式、真实产品中的实现方式与常见失败场景。
从工具集成的 N×M 问题出发,系统解析 MCP 的架构设计、核心原语、传输机制与安全模型,说明它为什么可能成为 Agent 工具层的基础协议。
从 Agent 的领域知识鸿沟出发,解释 Skill 这一新兴概念的设计动机、工作机制与实践价值,说明它为什么可能成为 Agent 能力扩展的主流范式。
解释为什么 Agent 时代的工具接口不能只追求人类可用,并从粒度、返回值、错误处理与状态管理四个维度给出可落地的设计原则。
解释 Reflection 为什么是 Agent 的质量保证层,以及如何用输出后审查、执行中自我纠错和多 Agent 交叉审查发现并修正隐性错误。
系统解释 Agent 的 system prompt 应该包含哪些部分、为什么这些部分重要,以及常见 prompt 设计错误该如何避免。
解释 Agent 在长任务中出现“失忆”、目标漂移与重复调用工具的根本原因,并给出可落地的状态管理设计。
解释 Agent 评测为什么不能只看最终答案,并给出覆盖任务完成率、过程合理性、错误恢复与稳定性的评测框架。
这个专题还没有上线文章,后续会先补基础入口文章,再逐步扩展到记忆、规划、评测与实战案例。