Google Cloud AI 代理技术指南
目录
目录概述了本指南的结构,包括引言、AI 代理的核心概念、如何构建 AI 代理、确保 AI 代理可靠和负责任、来自 Google 完整 AI 堆栈的更多内容、结论和资源等主要部分。每个主要部分都列出了子主题及其对应的页码,为读者提供了清晰的导航路径。
Source: Page 2
本指南提供了一份全面的 AI 代理技术指南,旨在帮助初创企业理解和利用 Google Cloud 的 AI 代理生态系统。目录清晰地列出了从核心概念到构建和部署代理的各个主题,以及确保其可靠性和责任性的方法,为读者提供了结构化的学习路径。
AI 代理的开发代表了软件工程中的一种新范式,使初创企业能够自动化复杂的流程,创建新用户体验,并解决以前技术上不可行的问题。本指南旨在为初创企业和开发者提供系统性、以操作为导向的路线图,帮助他们驾驭不断演进的 AI 代理景观,并验证其复杂路径和实现。
本指南面向不同经验水平的用户:对于 AI 新手,建议从第一部分开始了解核心概念;对于准备好构建的用户,可以跳到第二部分使用 ADK 创建第一个代理;对于已经构建代理的用户,可以深入第三部分学习如何安全、稳定和可扩展地部署。此外,Google 为符合条件的初创企业提供高达 35 万美元的云积分和专家指导。
本指南主要关注 Agent Development Kit (ADK),分享了构建健壮、可扩展代理的概念和架构模式,同时支持集成其他首选工具和库,如 Google 的 Genkit 和 Google Cloud Conversational AI 产品,以及流行的开源框架 LangChain 和 CrewAI。
第 1 部分:AI 代理的核心概念
第一部分深入探讨了 AI 代理的核心概念,解释了它们的核心概念、目的和操作机制,并详细介绍了 Google Cloud 中可用的相关工具和服务。本节旨在为理解 Google Cloud 的 AI 代理生态系统提供基础知识。
该视觉元素展示了“第 1 部分:AI 代理的核心概念”播客的缩略图,标题为“Section 1 Core concepts of AI agents”,并标明由 NotebookLM 制作。
Source: Page 5
这一部分内容也提供了播客版本,使用 NotebookLM 制作,目标受众是初创公司创始人和开发者。播客内容涵盖了构建 AI 代理的三种主要途径,即使用 Google AI 代理团队、合作伙伴工具(如 Agent Development Kit ADK)以及预构建的 Gemini 代理。播客还讨论了代理的关键组成部分、确保安全和强大的方法,以及通过检索增强生成(RAG)等技术进行基础研究。
Google Cloud 首席执行官 Thomas Kurian 强调,代理工作流是未来的发展方向,它不仅仅是回答问题,更是实现复杂目标或解决供应链中断,这从根本上增加了生产力。这是一个关于计划和编排多步骤任务以实现目标的范式转变。
构建自己的代理、使用 Google Cloud 代理、引入合作伙伴代理以及与 MCP 和 A2A 协议的互操作性
Google Cloud 支持代理系统的全面开发,无论是构建自己的代理,使用 Google Cloud 代理,还是引入合作伙伴代理。这通过模型上下文协议 (MCP) 和 Agent2Agent (A2A) 协议提供互操作性,这个通用框架旨在实现可互操作性,无论其来源或架构如何,您的代理都可以协同工作。
Source: Page 6
如果您希望构建定制代理以处理复杂任务,有两个主要选项:一是代码优先方法,实现最大控制和加速开发;二是无代码或低代码方法,实现快速应用开发。ADK 是一个强大的平台,用于构建和部署 AI 驱动的代理,提供健壮且非传统的框架,用于复杂工作流。
对于初创企业来说,ADK 具有重要意义:
- 自动化工作流:实现复杂业务问题下的简单多步骤编排。
- 构建可防御的 API 产品:通过内部数据创建独特的竞争力。
- 增强客户忠诚度:通过回忆长期语境信息深化客户体验。
- 提高自信心:提供高质量、可生产的代理。
- 关注产品而非基础设施:更快部署代理。
ADK 的核心功能包括:编排逻辑、工具定义和注册、语境管理、评估和可观察性。
Google Agnetspace 是一个适用于应用优先开发的平台,通过其无代码/低代码 ADK,帮助初创企业编排整个 AI 工作流并构建定制代理。AgentSpace 的核心功能包括:统一公司级搜索、多模态数据合成、预构建代理库以及无代码定制代理构建器。
Gemini Cloud Assist 与示例提示
Gemini Cloud Assist 是一个 AI 驱动的开发者助手,它将多个软件开发组件整合到一个统一平台。核心功能包括:IDE 集成、命令行界面、Git 集成、代理驱动开发和 Google Cloud 服务集成。
Source: Page 9
Gemini 在 Colab Enterprise 中的核心功能包括:自动完成并生成 Python 代码、解释代码逻辑、过滤和可视化数据、推荐公共数据集以及总结整个 Notebook。
Source: Page 10
模型选择与调优
选择正确的模型至关重要。文档介绍了一种强大的原则:将多个专门代理应用于系统级别。例如:
- Gemini 1.5 Flash-Lite:理想的早期原型和低延迟任务,具有成本效益。
- Gemini 1.5 Flash:平衡质量与速度,高吞吐量应用。
- Gemini 1.5 Pro:适用于复杂、多步骤推理和高级功能。
Source: Page 12
数据架构与存储
代理系统的数据架构需要三个主要组成部分:
1. 长期知识库 (Long-term Knowledge Base)
用于基础化和检索。支持 RAG 工作流,包含结构化知识库和运营数据湖。
Source: Page 14
2. 工作内存 (Working Memory)
管理会话上下文和短期状态,提供极低延迟访问。
Source: Page 15
3. 事务内存 (Transactional Memory)
记录具有强一致性和完整性的操作和状态变化。
Source: Page 15
代理编排与 ReAct 框架
代理编排是指导代理通过多步骤任务的核心功能。它确定需要哪些工具、如何调用它们以及如何组合输出。
Source: Page 16
ReAct (Reason + Action) 框架建立了一个动态的多回合循环:评估(评估当前目标) -> 行动(调用工具) -> 观察(接收输出)。
基础化 (Grounding) 与 RAG
基础化通过将 LLM 连接到可验证的数据源来提高响应的事实准确性。Vertex AI RAG Engine 提供了一个框架来开发由上下文增强的 LLM 应用程序。
Source: Page 20
GraphRAG 与 Agentic RAG
- GraphRAG:通过构建知识图谱来理解概念,而非仅仅匹配短语。
- Agentic RAG:将智能体从被动检索转换为主动参与知识构建,通过复杂查询和多步规划提供更准确的响应。
Source: Page 21
Source: Page 23
Source: Page 24
第 2 部分:如何构建 AI 代理
本部分探讨如何利用 Google Cloud 生态系统(特别是 ADK)来构建生产就绪型智能体。
Source: Page 28
构建 AI 代理的核心组件
- ADK:开源、代码优先的工具包。
- MCP:标准化 LLM 内容处理方式的协议。
- Vertex AI Agent Engine:托管平台,用于管理和扩展智能体。
- A2A 协议:实现智能体间通信的标准。
Source: Page 29
Source: Page 30
ADK 代理类型
ADK 提供三种主要的代理类别,均扩展自 BaseAgent:
- 基于 LLM 的代理 (
LlmAgent):用于复杂推理和动态决策。 - 工作流代理:包括
SequentialAgent(顺序)、ParallelAgent(并行)和LoopAgent(循环)。 - 自定义逻辑代理:用于独特的定制需求。
Source: Page 31
Source: Page 32
Source: Page 33
Source: Page 33
MCP:通用适配器
MCP 是一种开放标准,用于连接 AI 代理与外部数据源和工具。
Source: Page 36
部署到托管运行时
Vertex AI Agent Engine 是部署 ADK 的推荐目标。代理通过 FastAPI 暴露并可容器化。
Source: Page 38
Source: Page 39
A2A 协议:通信与协作
A2A 协议确保智能体可以发现、通信和协调其行为。
Source: Page 40
Source: Page 40
构建分步指南:软件错误助手示例
- 定义身份:名称(如
software_bug_triage_agent)、描述、模型(如gemini-1.5-flash)。 - 指导指令:规定角色(如经验丰富的工程经理)、约束和工具使用说明。
- 配备工具:如
get_user_details、search_codebase等。
Source: Page 43
Google Agentspace:管理代理员工
Google Agentspace 允许组织统一访问公司数据、实现团队级自动化并治理代理集群。
Source: Page 45
Firebase Studio 与 App Prototyping Agent
Firebase Studio 是一个集成的工作空间,用于处理从 UI 原型到代码生成的整个生命周期。
Source: Page 47
Source: Page 48
第 3 部分:确保 AI 代理的可靠性和责任性
实现生产级可靠性需要严格的工程方法,重点关注正确性、性能、可扩展性、安全性和责任性。
Source: Page 51
Agent Operations (AgentOps)
AgentOps 是一种系统化、自动化且可复现的框架。它包含多层次评估框架:
- 组件级评估:确定性单元测试。
- 轨迹评估:验证 ReAct 循环中的程序正确性。
- 结果评估:语义正确性和事实准确性。
- 系统级监控:生产中的实时监控。
Agent Starter Pack 架构
Agent Starter Pack 提供了基础设施即代码 (Terraform)、CI/CD 管道、可观察性和数据集成模板。
Source: Page 54
风险与保障措施
构建负责任的 AI 涉及缓解表现不佳、有害使用、偏见等风险。
Source: Page 56
更多来自 Google 的全栈 AI
Gemini 2.5 Flash Image (Nano Banana)
支持多张图像融合、角色一致性维护和自然语言定向编辑。
Source: Page 60
Veo 和 Imagen
从文本提示生成高品质视频和图像。
Source: Page 60
Source: Page 60
结论与资源
本指南旨在为初创企业提供从原型到生产级 AI 系统的演进路径。Google Cloud 通过其全栈 AI 堆栈、灵活的框架(ADK)和操作原则(AgentOps)支持创新。更多资源包括 Vertex AI Platform、BigQuery、Cloud Run、Google AI Studio 等,为构建下一代智能系统提供全面支持。