ai-agent-guide

ai-agent-guide


Google Cloud AI 代理技术指南

目录

目录概述了本指南的结构,包括引言、AI 代理的核心概念、如何构建 AI 代理、确保 AI 代理可靠和负责任、来自 Google 完整 AI 堆栈的更多内容、结论和资源等主要部分。每个主要部分都列出了子主题及其对应的页码,为读者提供了清晰的导航路径。

Source: Page 2

本指南提供了一份全面的 AI 代理技术指南,旨在帮助初创企业理解和利用 Google Cloud 的 AI 代理生态系统。目录清晰地列出了从核心概念到构建和部署代理的各个主题,以及确保其可靠性和责任性的方法,为读者提供了结构化的学习路径。

AI 代理的开发代表了软件工程中的一种新范式,使初创企业能够自动化复杂的流程,创建新用户体验,并解决以前技术上不可行的问题。本指南旨在为初创企业和开发者提供系统性、以操作为导向的路线图,帮助他们驾驭不断演进的 AI 代理景观,并验证其复杂路径和实现。

本指南面向不同经验水平的用户:对于 AI 新手,建议从第一部分开始了解核心概念;对于准备好构建的用户,可以跳到第二部分使用 ADK 创建第一个代理;对于已经构建代理的用户,可以深入第三部分学习如何安全、稳定和可扩展地部署。此外,Google 为符合条件的初创企业提供高达 35 万美元的云积分和专家指导。

本指南主要关注 Agent Development Kit (ADK),分享了构建健壮、可扩展代理的概念和架构模式,同时支持集成其他首选工具和库,如 Google 的 Genkit 和 Google Cloud Conversational AI 产品,以及流行的开源框架 LangChain 和 CrewAI。

第 1 部分:AI 代理的核心概念

第一部分深入探讨了 AI 代理的核心概念,解释了它们的核心概念、目的和操作机制,并详细介绍了 Google Cloud 中可用的相关工具和服务。本节旨在为理解 Google Cloud 的 AI 代理生态系统提供基础知识。

该视觉元素展示了“第 1 部分:AI 代理的核心概念”播客的缩略图,标题为“Section 1 Core concepts of AI agents”,并标明由 NotebookLM 制作。

Section 1 播客缩略图 Source: Page 5

这一部分内容也提供了播客版本,使用 NotebookLM 制作,目标受众是初创公司创始人和开发者。播客内容涵盖了构建 AI 代理的三种主要途径,即使用 Google AI 代理团队、合作伙伴工具(如 Agent Development Kit ADK)以及预构建的 Gemini 代理。播客还讨论了代理的关键组成部分、确保安全和强大的方法,以及通过检索增强生成(RAG)等技术进行基础研究。

Google Cloud 首席执行官 Thomas Kurian 强调,代理工作流是未来的发展方向,它不仅仅是回答问题,更是实现复杂目标或解决供应链中断,这从根本上增加了生产力。这是一个关于计划和编排多步骤任务以实现目标的范式转变。

构建自己的代理、使用 Google Cloud 代理、引入合作伙伴代理以及与 MCP 和 A2A 协议的互操作性

Google Cloud 支持代理系统的全面开发,无论是构建自己的代理,使用 Google Cloud 代理,还是引入合作伙伴代理。这通过模型上下文协议 (MCP) 和 Agent2Agent (A2A) 协议提供互操作性,这个通用框架旨在实现可互操作性,无论其来源或架构如何,您的代理都可以协同工作。

Google Cloud 代理生态系统 Source: Page 6

如果您希望构建定制代理以处理复杂任务,有两个主要选项:一是代码优先方法,实现最大控制和加速开发;二是无代码或低代码方法,实现快速应用开发。ADK 是一个强大的平台,用于构建和部署 AI 驱动的代理,提供健壮且非传统的框架,用于复杂工作流。

对于初创企业来说,ADK 具有重要意义:

  • 自动化工作流:实现复杂业务问题下的简单多步骤编排。
  • 构建可防御的 API 产品:通过内部数据创建独特的竞争力。
  • 增强客户忠诚度:通过回忆长期语境信息深化客户体验。
  • 提高自信心:提供高质量、可生产的代理。
  • 关注产品而非基础设施:更快部署代理。

ADK 的核心功能包括:编排逻辑、工具定义和注册、语境管理、评估和可观察性。

Google Agnetspace 是一个适用于应用优先开发的平台,通过其无代码/低代码 ADK,帮助初创企业编排整个 AI 工作流并构建定制代理。AgentSpace 的核心功能包括:统一公司级搜索、多模态数据合成、预构建代理库以及无代码定制代理构建器。

Gemini Cloud Assist 与示例提示

Gemini Cloud Assist 是一个 AI 驱动的开发者助手,它将多个软件开发组件整合到一个统一平台。核心功能包括:IDE 集成、命令行界面、Git 集成、代理驱动开发和 Google Cloud 服务集成。

Gemini Cloud Assist 示例提示 Source: Page 9

Gemini 在 Colab Enterprise 中的核心功能包括:自动完成并生成 Python 代码、解释代码逻辑、过滤和可视化数据、推荐公共数据集以及总结整个 Notebook。

Gemini 在 Colab Enterprise 中的示例提示 Source: Page 10

模型选择与调优

选择正确的模型至关重要。文档介绍了一种强大的原则:将多个专门代理应用于系统级别。例如:

  • Gemini 1.5 Flash-Lite:理想的早期原型和低延迟任务,具有成本效益。
  • Gemini 1.5 Flash:平衡质量与速度,高吞吐量应用。
  • Gemini 1.5 Pro:适用于复杂、多步骤推理和高级功能。

Google Cloud 基础模型库 Source: Page 12

数据架构与存储

代理系统的数据架构需要三个主要组成部分:

1. 长期知识库 (Long-term Knowledge Base)

用于基础化和检索。支持 RAG 工作流,包含结构化知识库和运营数据湖。

长期知识库数据服务 Source: Page 14

2. 工作内存 (Working Memory)

管理会话上下文和短期状态,提供极低延迟访问。

工作内存数据服务 Source: Page 15

3. 事务内存 (Transactional Memory)

记录具有强一致性和完整性的操作和状态变化。

事务内存数据服务 Source: Page 15

代理编排与 ReAct 框架

代理编排是指导代理通过多步骤任务的核心功能。它确定需要哪些工具、如何调用它们以及如何组合输出。

代理编排与 LLM 交互流程 Source: Page 16

ReAct (Reason + Action) 框架建立了一个动态的多回合循环:评估(评估当前目标) -> 行动(调用工具) -> 观察(接收输出)

基础化 (Grounding) 与 RAG

基础化通过将 LLM 连接到可验证的数据源来提高响应的事实准确性。Vertex AI RAG Engine 提供了一个框架来开发由上下文增强的 LLM 应用程序。

Vertex AI RAG Engine 工作流程 Source: Page 20

GraphRAG 与 Agentic RAG

  • GraphRAG:通过构建知识图谱来理解概念,而非仅仅匹配短语。
  • Agentic RAG:将智能体从被动检索转换为主动参与知识构建,通过复杂查询和多步规划提供更准确的响应。

GraphRAG 知识层次结构 Source: Page 21

实时库存检查示例 (Agentic RAG) Source: Page 23

结合 Google Search 的基础增强 Source: Page 24

第 2 部分:如何构建 AI 代理

本部分探讨如何利用 Google Cloud 生态系统(特别是 ADK)来构建生产就绪型智能体。

Section 2 播客缩略图 Source: Page 28

构建 AI 代理的核心组件

  • ADK:开源、代码优先的工具包。
  • MCP:标准化 LLM 内容处理方式的协议。
  • Vertex AI Agent Engine:托管平台,用于管理和扩展智能体。
  • A2A 协议:实现智能体间通信的标准。

构建 AI 代理的核心组件 Source: Page 29

使用 ADK 简化复杂工作流程 Source: Page 30

ADK 代理类型

ADK 提供三种主要的代理类别,均扩展自 BaseAgent

  • 基于 LLM 的代理 (LlmAgent):用于复杂推理和动态决策。
  • 工作流代理:包括 SequentialAgent(顺序)、ParallelAgent(并行)和 LoopAgent(循环)。
  • 自定义逻辑代理:用于独特的定制需求。

ADK 代理类型分类 Source: Page 31

SequentialAgent 工作流 Source: Page 32

ParallelAgent 工作流 Source: Page 33

LoopAgent 工作流 Source: Page 33

MCP:通用适配器

MCP 是一种开放标准,用于连接 AI 代理与外部数据源和工具。

MCP 作为通用适配器 Source: Page 36

部署到托管运行时

Vertex AI Agent Engine 是部署 ADK 的推荐目标。代理通过 FastAPI 暴露并可容器化。

部署到 Vertex AI Agent Engine Source: Page 38

基于 Gemini 的代理系统架构 Source: Page 39

A2A 协议:通信与协作

A2A 协议确保智能体可以发现、通信和协调其行为。

A2A 协议合作伙伴生态系统 Source: Page 40

A2A 协议运作方式 Source: Page 40

构建分步指南:软件错误助手示例

  1. 定义身份:名称(如 software_bug_triage_agent)、描述、模型(如 gemini-1.5-flash)。
  2. 指导指令:规定角色(如经验丰富的工程经理)、约束和工具使用说明。
  3. 配备工具:如 get_user_detailssearch_codebase 等。

软件错误助手架构 (ADK Python) Source: Page 43

Google Agentspace:管理代理员工

Google Agentspace 允许组织统一访问公司数据、实现团队级自动化并治理代理集群。

Google Agentspace 提示示例 Source: Page 45

Firebase Studio 与 App Prototyping Agent

Firebase Studio 是一个集成的工作空间,用于处理从 UI 原型到代码生成的整个生命周期。

App Prototyping Agent 提示示例 Source: Page 47

关键要点:从构建到扩展 Source: Page 48

第 3 部分:确保 AI 代理的可靠性和责任性

实现生产级可靠性需要严格的工程方法,重点关注正确性、性能、可扩展性、安全性和责任性。

Section 3 播客缩略图 Source: Page 51

Agent Operations (AgentOps)

AgentOps 是一种系统化、自动化且可复现的框架。它包含多层次评估框架:

  1. 组件级评估:确定性单元测试。
  2. 轨迹评估:验证 ReAct 循环中的程序正确性。
  3. 结果评估:语义正确性和事实准确性。
  4. 系统级监控:生产中的实时监控。

Agent Starter Pack 架构

Agent Starter Pack 提供了基础设施即代码 (Terraform)、CI/CD 管道、可观察性和数据集成模板。

Agent Starter Pack 高级架构 Source: Page 54

风险与保障措施

构建负责任的 AI 涉及缓解表现不佳、有害使用、偏见等风险。

常见风险与保障措施 Source: Page 56

更多来自 Google 的全栈 AI

Gemini 2.5 Flash Image (Nano Banana)

支持多张图像融合、角色一致性维护和自然语言定向编辑。

Gemini 图像生成与编辑示例 Source: Page 60

Veo 和 Imagen

从文本提示生成高品质视频和图像。

Veo/Imagen 示例:微笑的人 Source: Page 60

Veo/Imagen 示例:摇尾巴的狗 Source: Page 60

结论与资源

本指南旨在为初创企业提供从原型到生产级 AI 系统的演进路径。Google Cloud 通过其全栈 AI 堆栈、灵活的框架(ADK)和操作原则(AgentOps)支持创新。更多资源包括 Vertex AI Platform、BigQuery、Cloud Run、Google AI Studio 等,为构建下一代智能系统提供全面支持。

← Back to Blog