Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Sistema de IA de un solo agente con ADK y Cloud Run

Last reviewed 2025-12-09 UTC

Este documento proporciona una arquitectura de referencia para ayudarte a diseñar un sistema de IA de un solo agente en Google Cloud. El sistema de un solo agente de esta arquitectura se crea con Agent Development Kit (ADK) y se despliega en Cloud Run. También puedes desplegar el agente en Vertex AI Agent Engine o Google Kubernetes Engine (GKE). La arquitectura usa Model Context Protocol (MCP), que permite al agente acceder y procesar información de varias fuentes para que pueda proporcionar estadísticas con mucho contexto.

Este documento está dirigido a arquitectos, desarrolladores y administradores de aplicaciones de IA. Se presupone que tienes conocimientos básicos sobre los conceptos de IA, aprendizaje automático y modelos de lenguaje extensos (LLMs). También se presupone que tienes conocimientos básicos sobre agentes y modelos de IA. No proporciona directrices específicas para diseñar y programar agentes de IA.

En la sección Despliegue de este documento se incluyen ejemplos de código que puedes usar para aprender a crear y desplegar sistemas de IA de un solo agente.

Arquitectura

En el siguiente diagrama se muestra una arquitectura de un sistema de IA de un solo agente que se ha desplegado en Cloud Run:

Una arquitectura de un solo agente que se despliega en Cloud Run.

Componentes de la arquitectura

La arquitectura de ejemplo consta de los siguientes componentes:

Componente	Descripción
Frontend	Los usuarios interactúan con el agente a través de un frontend, como una interfaz de chat, que se ejecuta como un servicio Cloud Run sin servidor.
Agente	El agente recibe las solicitudes de los usuarios, interpreta su intención, selecciona las herramientas adecuadas y, a continuación, sintetiza la información para responder a las consultas.
Tiempo de ejecución del agente	El agente se crea con el ADK y se despliega como un servicio sin servidor de Cloud Run. También puedes desplegar el agente en Vertex AI Agent Engine o como una aplicación en contenedores en GKE. Para obtener información sobre cómo elegir un tiempo de ejecución de agente, consulta Elegir los componentes de la arquitectura de tu IA con agentes.
ADK	El ADK proporciona herramientas y un marco para desarrollar, probar e implementar agentes. El ADK abstrae la complejidad de la creación de agentes y permite a los desarrolladores de IA centrarse en la lógica y las capacidades del agente. Cuando desarrollas agentes con ADK, puedes configurarlos para que accedan a herramientas integradas, como la Búsqueda de Google, y las usen.
Modelo de IA y tiempo de ejecución del modelo	Para el servicio de inferencias, el agente de esta arquitectura de ejemplo usa el modelo de IA de Gemini en Vertex AI.
Caja de herramientas de MCP	MCP Toolbox for Databases proporciona herramientas específicas de bases de datos para el agente. Puede gestionar complejidades como la agrupación de conexiones y la autenticación.
Clientes, servidores y herramientas de MCP	El MCP facilita el acceso a las herramientas estandarizando la interacción entre agentes y herramientas. Por cada par agente-herramienta, un cliente de MCP envía solicitudes a un servidor de MCP a través del cual el agente accede a una herramienta, como un sistema de archivos o una API. Por ejemplo, herramientas externas como la herramienta LangChain de Stack Overflow y la herramienta de búsqueda de Google pueden proporcionar datos y fundamentos.
Observabilidad	El agente se monitoriza mediante Google Cloud Observability para el registro, la monitorización y el seguimiento.

Flujo de agentes

El sistema de un solo agente del ejemplo de arquitectura anterior tiene el siguiente flujo:

Un usuario introduce una petición a través de un frontend, como una interfaz de chat, que se ejecuta como un servicio de Cloud Run sin servidor.
El frontend reenvía la petición al agente.
El agente usa el modelo de IA para analizar la petición del usuario y sintetizar una respuesta:
- El modelo de IA determina qué herramientas debe usar para obtener información contextual o para realizar una tarea.
- El agente realiza llamadas a herramientas y añade la respuesta a su contexto.
- El agente realiza la fundamentación y la validación intermedia.

Productos usados

Esta arquitectura de referencia utiliza los siguientes productos y herramientas de Google Cloud y de código abierto:

Cloud Run: una plataforma de computación sin servidor que te permite ejecutar contenedores directamente en la infraestructura escalable de Google.
Gemini:familia de modelos de IA multimodales desarrollada por Google.

Vertex AI: una plataforma de aprendizaje automático que te permite entrenar y desplegar modelos de aprendizaje automático y aplicaciones de IA, así como personalizar LLMs para usarlos en aplicaciones basadas en IA.
Model Context Protocol (MCP): un estándar de código abierto para conectar aplicaciones de IA a sistemas externos.
MCP Toolbox for Databases: un servidor de Model Context Protocol (MCP) de código abierto que permite a los agentes de IA conectarse de forma segura a las bases de datos gestionando las complejidades de las bases de datos, como la agrupación de conexiones, la autenticación y la observabilidad.
Google Cloud Observability: servicios de observabilidad, como Cloud Monitoring, Cloud Logging y Cloud Trace, que te ayudan a comprender el comportamiento, el estado y el rendimiento de tus aplicaciones.

Casos prácticos

En esta sección se describen los posibles casos prácticos de la arquitectura que se describe en este documento.

Triaje automatizado de informes de errores

Puedes adaptar esta arquitectura de referencia para automatizar la evaluación de los informes de errores entrantes: comprender el problema, buscar duplicados, recopilar el contexto técnico pertinente y, a continuación, crear un error en el sistema. Un agente basado en IA puede actuar como un asistente inteligente que realice la investigación inicial, lo que permite a los expertos humanos centrarse en la resolución de problemas más complejos.

En este caso práctico, la arquitectura ofrece las siguientes ventajas:

Tiempos de resolución más rápidos: el agente automatiza la investigación inicial y la recopilación de contexto, lo que puede reducir significativamente el tiempo que se tarda en asignar y resolver las incidencias.
Mayor precisión y coherencia: el agente puede buscar sistemáticamente en varias fuentes de datos (bases de datos internas, repositorios de código y la Web pública). Esta función ofrece un análisis más completo y coherente que la clasificación manual.
Reducción de la carga de trabajo manual: el agente puede descargar tareas de triaje repetitivas de los equipos de Asistencia de TI e Ingeniería, lo que les permite centrarse en tareas de mayor valor.

Esta arquitectura es ideal para cualquier organización que desarrolle software y quiera mejorar la eficiencia y la eficacia de su proceso de resolución de errores. Para obtener más información y ver las opciones de implementación, consulta Software Bug Assistant - ADK Python Sample Agent (Asistente para errores de software: agente de muestra de Python de ADK) y Tools Make an Agent: From Zero to Assistant with ADK (Herramientas para crear un agente: de cero a asistente con ADK).

Servicio de atención al cliente

Puede adaptar esta arquitectura de referencia para ofrecer una experiencia de compra fluida y personalizada a los clientes. Un agente basado en IA puede ofrecer servicio de atención al cliente, recomendar productos, gestionar pedidos y programar servicios, lo que permite que los representantes humanos se centren en otras tareas.

En este caso práctico, la arquitectura ofrece las siguientes ventajas:

Ventas adicionales y promociones: el agente puede ayudar a aumentar las ventas sugiriendo productos, servicios y promociones. Las sugerencias del agente se basan en el pedido actual del cliente y en las ventas relevantes, en el historial de pedidos del cliente y en los artículos que tiene en el carrito.
Gestión de pedidos y programación: el agente puede aumentar la eficiencia y reducir los problemas de los clientes gestionando el contenido del carrito de la compra de un cliente y facilitando la programación automática de los servicios.
Reducción de la carga de trabajo manual: el agente gestiona las consultas generales, los pedidos y la programación, lo que permite a los agentes humanos del servicio de atención al cliente centrarse en problemas más complejos.

Esta arquitectura es ideal para cualquier organización de retail que quiera mejorar la experiencia de sus clientes, aumentar las ventas y simplificar la gestión de pedidos y la programación. Para obtener más información y ver las opciones de implementación, consulta Agente del servicio de atención al cliente de Cymbal Home & Garden.

Previsión de series temporales

Puede adaptar esta arquitectura de referencia para predecir resultados, como la previsión de la demanda, la predicción de patrones de tráfico o el análisis y la predicción de fallos de máquinas. Un agente basado en IA puede analizar datos en tiempo real, tendencias históricas y eventos futuros. El agente puede usar estos análisis para predecir los resultados durante un periodo específico. Estas previsiones pueden ayudarte a planificar y reducir el tiempo que dedican los analistas de datos humanos.

Este caso práctico puede beneficiar a las organizaciones en muchas situaciones, como las siguientes:

Gestión del inventario: al usar analíticas avanzadas combinadas con datos de ventas históricos y tendencias del mercado, el agente puede ayudarte a planificar los pedidos de reposición para que puedas prepararte ante los aumentos o las disminuciones de la demanda de los clientes.
Rutas de viaje: el agente puede ayudar a los proveedores de servicios y de envíos a ahorrar tiempo y reducir los costes de los viajes. Para ello, analiza los patrones de tráfico históricos y en tiempo real, así como eventos como obras o cierres de carreteras.
Evitar interrupciones: el agente puede ayudarte a evitar posibles interrupciones del servicio identificando la causa principal de las interrupciones anteriores. También puede ayudar a predecir posibles estados de error futuros para que puedas mitigar un problema antes de que se convierta en un problema.

Esta arquitectura es ideal para cualquier organización que necesite adaptarse a patrones cambiantes en función de las tendencias establecidas. También es ideal para organizaciones cuyos clientes pueden beneficiarse de las estadísticas proactivas que les ayudan a planificar el futuro. Para obtener más información y ver las opciones de implementación, consulta Time Series Forecasting Agent con ADK y MCP Toolbox de Google.

Recuperación de documentos

Puedes adaptar esta arquitectura de referencia para usar Vertex AI RAG Engine y crear un agente para gestionar la extracción de datos contextuales. Un agente de recuperación de documentos puede obtener datos relevantes de un conjunto de documentos seleccionados para proporcionar respuestas objetivas con citas del material de origen.

Con un agente de recuperación de documentos, puedes asegurarte de que los clientes y los usuarios internos reciban respuestas informadas y contextualizadas a sus consultas. Esta implementación puede ayudar a reducir los errores y las imprecisiones, ya que permite asegurarse de que las respuestas se basan en la información que has validado.

Una arquitectura de recuperación de documentos es ideal para bases de conocimientos sobre políticas y procesos, infraestructura técnica, funciones de productos y otra documentación basada en hechos. Para obtener información sobre cómo desarrollar un agente de recuperación de documentos basado en la generación aumentada de recuperación (RAG), consulta Agente de recuperación de documentación.

Alternativas de diseño

En esta sección se presentan enfoques de diseño alternativos que puedes tener en cuenta para desplegar tu agente de IA en Google Cloud.

Tiempo de ejecución del agente

En la arquitectura que se describe en este documento, el agente y sus herramientas se implementan en Cloud Run. También puedes usar GKE o Vertex AI Agent Engine como alternativa de tiempo de ejecución. Para obtener información sobre cómo elegir un tiempo de ejecución del agente, consulta Tiempo de ejecución del agente en "Elegir los componentes de la arquitectura de IA de tu agente".

Tiempo de ejecución del modelo de IA

En la arquitectura que se describe en este documento, el tiempo de ejecución del modelo de IA es Vertex AI. También puedes usar Cloud Run o GKE como alternativa de tiempo de ejecución. Para obtener información sobre cómo elegir un tiempo de ejecución del modelo, consulta Tiempo de ejecución del modelo en "Elegir los componentes de la arquitectura de IA con agentes".

Factores del diseño

En esta sección se ofrecen directrices para ayudarte a usar esta arquitectura de referencia y desarrollar una arquitectura que cumpla tus requisitos específicos de seguridad, fiabilidad, coste, eficiencia operativa y rendimiento.

Diseño de sistemas

En esta sección se ofrecen directrices para ayudarte a elegir las Google Cloud regiones de tu implementación y a seleccionar los Google Cloud productos y las herramientas adecuados.

Selección de regiones

Cuando selecciones Google Cloud regiones para tus aplicaciones de IA, ten en cuenta los siguientes factores:

Disponibilidad de los Google Cloud servicios en cada región.
Requisitos de latencia para el usuario final.
Coste de Google Cloud recursos.
Requisitos normativos.

Para seleccionar las Google Cloud ubicaciones adecuadas para sus aplicaciones, utilice las siguientes herramientas:

Google Cloud Selector de regiones: una herramienta web interactiva para seleccionar la región Google Cloud óptima para tus aplicaciones y datos en función de factores como la huella de carbono, el coste y la latencia.
API Cloud Location Finder: una API pública que proporciona una forma programática de encontrar ubicaciones de implementación en Google Cloud, Google Distributed Cloud y otros proveedores de servicios en la nube.

Diseño de agentes

En esta sección se ofrecen recomendaciones generales para diseñar agentes de IA. Las instrucciones detalladas sobre cómo escribir el código y la lógica de los agentes no se incluyen en este documento.

Diseño	Recomendaciones
Definición y diseño de agentes	Define claramente el objetivo de negocio del sistema de IA de agentes y la tarea que realiza cada agente. Elige un patrón de diseño de agente que se ajuste a tus requisitos. Usa ADK para crear, implementar y gestionar de forma eficiente tu arquitectura de agentes.
Interacciones con el agente	Diseña los agentes orientados a los humanos de la arquitectura para que admitan interacciones en lenguaje natural. Asegúrate de que cada agente comunique claramente sus acciones y su estado a sus clientes dependientes. Diseña los agentes para que detecten y gestionen consultas ambiguas e interacciones matizadas.
Contexto, herramientas y datos	Asegúrate de que los agentes tengan suficiente contexto para monitorizar las interacciones de varios turnos y los parámetros de sesión. Describe claramente el propósito, los argumentos y el uso de las herramientas que pueden usar los agentes. Asegúrate de que las respuestas de los agentes se basen en fuentes de datos fiables para reducir las alucinaciones. Implementa la lógica para gestionar situaciones en las que no se encuentra ninguna coincidencia, como cuando una petición no es pertinente.

Almacenamiento de memoria y de sesión

La arquitectura de ejemplo que se muestra en este documento no incluye almacenamiento en memoria ni almacenamiento de sesión. En un entorno de producción, puedes mejorar las respuestas y añadir personalización integrando el estado y la memoria en tu agente.

Sesión: Una sesión es la conversación entre un usuario y el agente, desde la interacción inicial hasta el final del diálogo.
Estado: El estado son los datos que el agente usa y recoge en una sesión específica. Los datos de estado que se recogen incluyen el historial de mensajes que han intercambiado el usuario y el agente, los resultados de las llamadas a herramientas y otras variables que el agente necesita para entender el contexto de la conversación.

El ADK puede monitorizar las sesiones en la memoria a corto plazo mediante el objeto Session y los atributos state. El ADK también admite la memoria a largo plazo en las sesiones con el mismo usuario, incluso a través de Memory Bank. Para almacenar el estado de la sesión, también puedes usar servicios como Memorystore para Redis.

Para obtener información sobre las opciones de memoria del agente, consulta el artículo Elegir los componentes de la arquitectura de tu IA con agentes.

Seguridad

En esta sección se describen las consideraciones y recomendaciones de diseño para diseñar una topología en Google Cloud que cumpla los requisitos de seguridad de tu carga de trabajo.

Componente	Consideraciones y recomendaciones de diseño
Agentes	Los agentes de IA introducen ciertos riesgos de seguridad únicos y críticos que las prácticas de seguridad convencionales y deterministas podrían no ser capaces de mitigar adecuadamente. Google recomienda un enfoque que combine los puntos fuertes de los controles de seguridad deterministas con defensas dinámicas basadas en el razonamiento. Este enfoque se basa en tres principios fundamentales: la supervisión humana, la autonomía de los agentes definida con precisión y la observabilidad. A continuación se incluyen recomendaciones específicas que se ajustan a estos principios básicos. Supervisión humana: un sistema de IA basado en agentes puede fallar o no funcionar como se espera. Por ejemplo, el modelo podría generar contenido impreciso o un agente podría seleccionar herramientas inadecuadas. En los sistemas de IA con capacidad de acción cruciales para la empresa, incorpora un flujo de trabajo con intervención humana para que los supervisores puedan monitorizar, anular y pausar a los agentes. Por ejemplo, los usuarios humanos pueden revisar el resultado de los agentes, aprobarlo o rechazarlo, y proporcionar más información para corregir errores o tomar decisiones estratégicas. Este enfoque combina la eficiencia de los sistemas de IA agentiva con el pensamiento crítico y la experiencia en el dominio de los usuarios humanos. Control de acceso de los agentes: configura los permisos de los agentes mediante los controles de Gestión de Identidades y Accesos (IAM). Concede a cada agente solo los permisos que necesite para llevar a cabo sus tareas y comunicarse con las herramientas y con otros agentes. Este enfoque ayuda a minimizar el posible impacto de una brecha de seguridad, ya que un agente vulnerado tendría un acceso limitado a otras partes del sistema. Para obtener más información, consulta Configurar la identidad y los permisos de tu agente y Gestionar el acceso de los agentes implementados. Monitorización: monitoriza el comportamiento de los agentes mediante funciones de seguimiento exhaustivas que te permiten ver todas las acciones que realizan los agentes, como su proceso de razonamiento, la selección de herramientas y las rutas de ejecución. Para obtener más información, consulta Registrar un agente en Vertex AI Agent Engine y Registrar en el ADK. Para obtener más información sobre cómo proteger los agentes de IA, consulta Seguridad de los agentes de IA.
Vertex AI	Responsabilidad compartida: la seguridad es una responsabilidad compartida. Vertex AI protege la infraestructura subyacente y proporciona herramientas y controles de seguridad para ayudarte a proteger tus datos, código y modelos. Eres responsable de configurar correctamente tus servicios, gestionar los controles de acceso y proteger tus aplicaciones. Para obtener más información, consulta Responsabilidad compartida de Vertex AI. Controles de seguridad: Vertex AI admite controles de seguridad Google Cloud que puedes usar para cumplir tus requisitos de residencia de datos, claves de cifrado gestionadas por el cliente (CMEK), seguridad de red mediante Controles de Servicio de VPC y Transparencia de acceso. Para obtener más información, consulta la siguiente documentación: Controles de seguridad de Vertex AI Controles de seguridad de la IA generativa IA generativa y conservación de datos cero Seguridad: los modelos de IA pueden generar respuestas dañinas, a veces en respuesta a peticiones maliciosas. Para mejorar la seguridad y mitigar el posible uso inadecuado del sistema de IA basado en agentes, puedes configurar filtros de contenido que actúen como barreras ante las entradas y respuestas dañinas. Para obtener más información, consulta Filtros de seguridad y de contenido. Para inspeccionar y desinfectar las solicitudes y respuestas de inferencia en busca de amenazas como la inyección de peticiones y el contenido dañino, puedes usar Model Armor. Model Armor te ayuda a evitar entradas maliciosas, verificar la seguridad del contenido, proteger los datos sensibles, mantener el cumplimiento y aplicar las políticas de seguridad de forma coherente. Acceso al modelo: puedes configurar políticas de la organización para limitar el tipo y las versiones de los modelos de IA que se pueden usar en un Google Cloud proyecto. Para obtener más información, consulta el artículo Controlar el acceso a los modelos de Model Garden. Protección de datos: para descubrir y anonimizar datos sensibles en las peticiones y respuestas, así como en los datos de registro, usa la API Cloud Data Loss Prevention. Para obtener más información, consulta este vídeo: Protecting sensitive data in AI apps (Protección de datos sensibles en aplicaciones de IA).
MCP	Cuando configures tus agentes para que usen MCP, asegúrate de que el acceso a datos y herramientas externos esté autorizado, implementa controles de privacidad como el cifrado, aplica filtros para proteger los datos sensibles y monitoriza las interacciones de los agentes. Para obtener más información, consulta MCP y seguridad.
A2A	Seguridad de transporte: el protocolo A2A exige el uso de HTTPS en todas las comunicaciones A2A en entornos de producción y recomienda usar las versiones 1.2 o posteriores del protocolo Seguridad en la capa de transporte (TLS). Autenticación: el protocolo A2A delega la autenticación en mecanismos web estándar, como las cabeceras HTTP, y en estándares como OAuth2 y OpenID Connect. Cada agente anuncia los requisitos de autenticación en su tarjeta de agente. Para obtener más información, consulta el artículo sobre la autenticación de A2A.
Cloud Run	Seguridad de entrada (para el servicio de frontend): para controlar el acceso a la aplicación, inhabilita la `run.app`URL predeterminada del servicio de Cloud Run de frontend y configura un balanceador de carga de aplicaciones externo regional. Además de balancear la carga del tráfico entrante a la aplicación, el balanceador de carga gestiona los certificados SSL. Para disfrutar de una protección adicional, puedes usar políticas de seguridad de Google Cloud Armor para proporcionar filtrado de solicitudes, protección frente a DDoS y limitación de frecuencia para el servicio. Autenticación de usuarios: Usuarios de tu organización: para autenticar el acceso de usuarios internos al servicio de frontend de Cloud Run, usa Identity-Aware Proxy (IAP). Cuando un usuario intenta acceder a un recurso protegido por IAP, IAP realiza comprobaciones de autenticación y autorización. Usuarios ajenos a tu organización: para autenticar el acceso de usuarios externos al servicio frontend, usa Identity Platform o Firebase Authentication. Para gestionar el acceso de usuarios externos, configura tu aplicación para que gestione un flujo de inicio de sesión y para que haga llamadas a la API autenticadas al servicio Cloud Run. Para obtener más información, consulta Autenticar usuarios. Seguridad de las imágenes de contenedor: para asegurarte de que solo se desplieguen imágenes de contenedor autorizadas en Cloud Run, puedes usar la autorización binaria. Para identificar y mitigar los riesgos de seguridad en las imágenes de contenedor, usa Artifact Analysis para ejecutar automáticamente análisis de vulnerabilidades. Para obtener más información, consulta la descripción general del análisis de contenedores. Residencia de datos: Cloud Run te ayuda a cumplir los requisitos de residencia de datos. Tus funciones de Cloud Run se ejecutan en la región seleccionada. Para obtener más información sobre la seguridad de los contenedores, consulta los consejos generales para el desarrollo en Cloud Run.
Todos los productos de la arquitectura	Cifrado de datos: de forma predeterminada, Google Cloud cifra los datos en reposo mediante Google-owned and Google-managed encryption keys. Para proteger los datos de tus agentes con claves de cifrado que controles, puedes usar CMEKs que crees y gestiones en Cloud KMS. Para obtener información sobre los servicios compatibles con Cloud KMS, consulta Servicios compatibles. Google Cloud Mitigar el riesgo de filtración externa de datos: para reducir el riesgo de filtración externa de datos, crea un perímetro de Controles de Servicio de VPC alrededor de la infraestructura. Controles de Servicio de VPC es compatible con todos los Google Cloud servicios que usa esta arquitectura de referencia. Control de acceso: cuando configures los permisos de los recursos de tu topología, sigue el principio de mínimos accesos. Seguridad del entorno de nube: usa las herramientas de Security Command Center para detectar vulnerabilidades, identificar y mitigar amenazas, definir e implementar una estrategia de seguridad y exportar datos para analizarlos en mayor profundidad. Optimización posterior a la implementación: después de implementar tu aplicación en Google Cloud, recibe recomendaciones para optimizar aún más la seguridad con Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en Active Assist.

Más recomendaciones de seguridad

Fiabilidad

En esta sección se describen las consideraciones de diseño y las recomendaciones para crear y operar una infraestructura fiable para tu implementación en Google Cloud.

Componente	Consideraciones y recomendaciones de diseño
Agente	Simular fallos: antes de desplegar el sistema de IA con agentes en producción, valídalo simulando un entorno de producción. Identificar y solucionar problemas y comportamientos inesperados. Escalar horizontalmente: para garantizar la alta disponibilidad y la tolerancia a fallos, ejecuta varias instancias de tu aplicación de agente detrás de un balanceador de carga. Este enfoque también puede ayudar a reducir la latencia y los tiempos de espera distribuyendo las solicitudes entre las instancias. Algunos tiempos de ejecución de agentes gestionan el balanceo de carga automáticamente, como el autoescalado de instancias en servicios de Cloud Run. Recuperación tras interrupciones: para asegurarte de que el agente pueda gestionar los reinicios correctamente y mantener el contexto, separa el estado del tiempo de ejecución. Para implementar una aplicación de agente sin estado, usa un almacén de datos externo, como una base de datos o una caché distribuida. Por ejemplo, puedes usar Memory Bank, Memorystore para Redis o un servicio de base de datos como Cloud SQL. Gestionar errores: para poder diagnosticar y solucionar errores, implementa mecanismos de registro, gestión de excepciones y reintentos.
Vertex AI	Gestión de cuotas: Vertex AI admite la cuota compartida dinámica (DSQ) para los modelos de Gemini. DSQ ayuda a gestionar de forma flexible las solicitudes de pago por uso y elimina la necesidad de gestionar la cuota manualmente o de solicitar aumentos de cuota. DSQ asigna de forma dinámica los recursos disponibles para un modelo y una región concretos entre los clientes activos. Con DSQ, no hay límites de cuota predefinidos para clientes concretos. Planificación de la capacidad: si el número de solicitudes al modelo supera la capacidad asignada, se devuelve el código de error 429. Para las cargas de trabajo críticas para la empresa que requieren un rendimiento alto y constante, puedes reservar rendimiento mediante Rendimiento aprovisionado. Disponibilidad del endpoint del modelo: si los datos se pueden compartir en varias regiones o países, puedes usar un endpoint global para el modelo.
Cloud Run	Robustez ante interrupciones de la infraestructura: Cloud Run es un servicio regional. Almacena los datos de forma síncrona en varias zonas de una región y balancea la carga del tráfico automáticamente entre las zonas. Si se produce una interrupción en una zona, Cloud Run seguirá funcionando y no se perderán datos. Si se produce una interrupción en una región, el servicio dejará de funcionar hasta que Google resuelva el problema. Escalado horizontal: los servicios de Cloud Run gestionan el autoescalado de instancias. El autoescalado ayuda a asegurar que las instancias puedan gestionar todas las solicitudes, eventos y uso de CPU entrantes necesarios para garantizar una alta disponibilidad.
Todos los productos de la arquitectura	Optimización posterior a la implementación: después de implementar tu aplicación en Google Cloud, recibe recomendaciones para optimizar aún más la seguridad con Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en Active Assist.

Para consultar los principios y las recomendaciones de fiabilidad específicos de las cargas de trabajo de IA y aprendizaje automático, consulta la sección Perspectiva de la fiabilidad de la IA y el aprendizaje automático del framework Well-Architected.

Operaciones

En esta sección se describen los factores que debes tener en cuenta al usar esta arquitectura de referencia para diseñar una topología que puedas gestionar de forma eficiente. Google Cloud

Componente	Consideraciones y recomendaciones de diseño
Agente	Depuración y análisis: implementa el registro estructurado en tu aplicación de agente. El registro y el seguimiento te permiten capturar información clave en un formato estructurado, como las herramientas que se han llamado, las entradas y salidas del agente y la latencia de cada paso.
Vertex AI	Monitorización mediante registros: de forma predeterminada, los registros del agente que se escriben en los flujos `stdout` y `stderr` se dirigen a Cloud Logging. Para registrar información de forma avanzada, puedes integrar el registrador de Python con Logging. Si necesitas tener control total sobre los registros y los registros estructurados, usa el cliente de registro. Para obtener más información, consulta Registrar un agente y Registrarte en el ADK. Evaluación continua: realiza periódicamente una evaluación cualitativa de los resultados de los agentes y de la trayectoria o los pasos que han seguido para obtenerlos. Para implementar la evaluación de agentes, puedes usar el servicio de evaluación de IA generativa o los métodos de evaluación que admite ADK.
Cloud Run	Estado y rendimiento: monitoriza tus servicios de Cloud Run con Google Cloud Observability. Configura alertas en Cloud Monitoring para recibir notificaciones sobre posibles problemas, como un aumento de las tasas de error, una latencia alta o un uso anormal de los recursos.
Bases de datos	Estado y rendimiento: monitoriza tu base de datos con Google Cloud Observability. Configura alertas en Monitoring para recibir notificaciones sobre posibles problemas, como un aumento de las tasas de error, una latencia alta o una utilización anormal de los recursos.
MCP	Herramientas de bases de datos: para gestionar de forma eficiente las herramientas de bases de datos de tus agentes de IA y asegurarte de que los agentes gestionan de forma segura complejidades como la agrupación de conexiones y la autenticación, usa MCP Toolbox for Databases. Proporciona una ubicación centralizada para almacenar y actualizar herramientas de bases de datos. Puedes compartir las herramientas entre agentes y actualizar las herramientas sin volver a implementar los agentes. La caja de herramientas incluye una amplia gama de herramientas para Google Cloud bases de datos como AlloyDB para PostgreSQL y para bases de datos de terceros, como MongoDB. Modelos de IA generativa: para permitir que los agentes de IA usen modelos de IA generativa de Google, como Imagen y Veo, puedes usar servidores MCP Google Cloud para APIs de contenido multimedia generativo. Productos y herramientas de seguridad de Google: para permitir que tus agentes de IA accedan a productos y herramientas de seguridad de Google, como Google Security Operations, Google Threat Intelligence y Security Command Center, usa servidores MCP para productos de seguridad de Google.
Todos los productos de Google Cloud de la arquitectura	Trazas: recoge y analiza continuamente datos de trazas mediante Trace. Los datos de seguimiento te permiten identificar y diagnosticar rápidamente problemas de latencia en flujos de trabajo de agentes complejos. Puedes hacer un análisis detallado mediante visualizaciones en la página Explorador de trazas de la Google Cloud consola. Para obtener más información, consulta Rastrear un agente.

Para consultar los principios y las recomendaciones de excelencia operativa específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: excelencia operativa del marco de trabajo Well-Architected.

Optimización de costes

En esta sección se ofrecen directrices para optimizar el coste de configurar y operar una Google Cloud topología que se cree con esta arquitectura de referencia.

Componente	Consideraciones y recomendaciones de diseño
Vertex AI	Análisis y gestión de costes: para analizar y gestionar los costes de Vertex AI, le recomendamos que cree métricas de referencia de consultas por segundo (CPS) y tokens por segundo (TPS). Después, monitoriza estas métricas tras la implementación. La línea de base también ayuda a planificar la capacidad. Por ejemplo, la línea de base te ayuda a determinar cuándo puede ser necesario el throughput aprovisionado. Selección del modelo: el modelo que selecciones para tu aplicación de IA afectará directamente a los costes y al rendimiento. Para identificar el modelo que ofrece un equilibrio óptimo entre rendimiento y coste para tu caso práctico específico, prueba los modelos de forma iterativa. Te recomendamos que empieces con el modelo más rentable y que vayas pasando gradualmente a opciones más potentes. Peticiones rentables: la longitud de tus peticiones (entrada) y de las respuestas generadas (salida) influyen directamente en el rendimiento y el coste. Escribe peticiones que sean cortas, directas y que proporcionen suficiente contexto. Diseña tus peticiones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "resume en dos frases" o "enumera tres puntos clave". Para obtener más información, consulta las prácticas recomendadas para diseñar peticiones. Almacenamiento en caché de contexto: para reducir el coste de las solicitudes que contienen contenido repetido con un número elevado de tokens de entrada, usa el almacenamiento en caché de contexto. Solicitudes por lotes: cuando sea pertinente, considera la predicción por lotes. Las solicitudes por lotes tienen un coste inferior al de las solicitudes estándar.
Cloud Run	Asignación de recursos: cuando creas un servicio de Cloud Run, puedes especificar la cantidad de memoria y CPU que se va a asignar. Empieza con las asignaciones predeterminadas de CPU y memoria. Observa el uso de recursos y el coste a lo largo del tiempo, y ajusta la asignación según sea necesario. Para obtener más información, consulta la siguiente documentación: Configurar límites de memoria para los servicios Configurar límites de CPU para los servicios Optimización de tarifas: si puedes predecir los requisitos de CPU y memoria, puedes ahorrar dinero con los descuentos por uso confirmado (CUDs).
Todos los productos de la arquitectura	Optimización posterior a la implementación: después de implementar tu aplicación en Google Cloud, recibe recomendaciones para optimizar aún más los costes con Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en Active Assist.

Componente

Consideraciones y recomendaciones de diseño

Vertex AI

Análisis y gestión de costes: para analizar y gestionar los costes de Vertex AI, le recomendamos que cree métricas de referencia de consultas por segundo (CPS) y tokens por segundo (TPS). Después, monitoriza estas métricas tras la implementación. La línea de base también ayuda a planificar la capacidad. Por ejemplo, la línea de base te ayuda a determinar cuándo puede ser necesario el throughput aprovisionado.

Selección del modelo: el modelo que selecciones para tu aplicación de IA afectará directamente a los costes y al rendimiento. Para identificar el modelo que ofrece un equilibrio óptimo entre rendimiento y coste para tu caso práctico específico, prueba los modelos de forma iterativa. Te recomendamos que empieces con el modelo más rentable y que vayas pasando gradualmente a opciones más potentes.

Peticiones rentables: la longitud de tus peticiones (entrada) y de las respuestas generadas (salida) influyen directamente en el rendimiento y el coste. Escribe peticiones que sean cortas, directas y que proporcionen suficiente contexto. Diseña tus peticiones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "resume en dos frases" o "enumera tres puntos clave". Para obtener más información, consulta las prácticas recomendadas para diseñar peticiones.

Almacenamiento en caché de contexto: para reducir el coste de las solicitudes que contienen contenido repetido con un número elevado de tokens de entrada, usa el almacenamiento en caché de contexto.

Solicitudes por lotes: cuando sea pertinente, considera la predicción por lotes. Las solicitudes por lotes tienen un coste inferior al de las solicitudes estándar.

Cloud Run

Asignación de recursos: cuando creas un servicio de Cloud Run, puedes especificar la cantidad de memoria y CPU que se va a asignar. Empieza con las asignaciones predeterminadas de CPU y memoria. Observa el uso de recursos y el coste a lo largo del tiempo, y ajusta la asignación según sea necesario. Para obtener más información, consulta la siguiente documentación:

Optimización de tarifas: si puedes predecir los requisitos de CPU y memoria, puedes ahorrar dinero con los descuentos por uso confirmado (CUDs).

Todos los productos de la arquitectura

Optimización posterior a la implementación: después de implementar tu aplicación en Google Cloud, recibe recomendaciones para optimizar aún más los costes con Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en Active Assist.

Para estimar el coste de tus Google Cloud recursos, usa la Google Cloud calculadora de precios.

Para consultar los principios y las recomendaciones de optimización de costes específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: optimización de costes del framework Well-Architected.

Optimización del rendimiento

En esta sección se describen las consideraciones y recomendaciones de diseño para diseñar una topología en Google Cloud que cumpla los requisitos de rendimiento de sus cargas de trabajo.

Componente	Consideraciones y recomendaciones de diseño
Agentes	Selección del modelo: cuando selecciones modelos para tu sistema de IA con agentes, ten en cuenta las funciones que necesitan los agentes para llevar a cabo las tareas. Optimización de las peticiones: para mejorar y optimizar rápidamente el rendimiento de las peticiones a gran escala y eliminar la necesidad de reescribirlas manualmente, usa el optimizador de peticiones de Vertex AI. El optimizador te ayuda a adaptar las peticiones de forma eficiente en diferentes modelos.
Vertex AI	Selección del modelo: el modelo que selecciones para tu aplicación de IA afectará directamente a los costes y al rendimiento. Para identificar el modelo que ofrece un equilibrio óptimo entre rendimiento y coste en tu caso práctico específico, prueba los modelos de forma iterativa. Te recomendamos que empieces con el modelo más rentable y que vayas pasando gradualmente a opciones más potentes. Ingeniería de peticiones: la longitud de tus peticiones (entrada) y las respuestas generadas (salida) afectan directamente al rendimiento y al coste. Escribe peticiones que sean cortas, directas y que proporcionen suficiente contexto. Diseña tus peticiones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "resume en dos frases" o "enumera tres puntos clave". Para obtener más información, consulta las prácticas recomendadas para diseñar peticiones. Almacenamiento en caché del contexto: para reducir la latencia de las solicitudes que contienen contenido repetido con un número elevado de tokens de entrada, usa el almacenamiento en caché del contexto.
Cloud Run	Asignación de recursos: en función de tus requisitos de rendimiento, configura la memoria y la CPU que se asignarán al servicio de Cloud Run. Para obtener más información, consulta la siguiente documentación: Configurar límites de memoria para los servicios Configurar límites de CPU para los servicios Para obtener más información sobre cómo optimizar el rendimiento, consulta los consejos generales de desarrollo de Cloud Run.
Todos los productos de la arquitectura	Optimización posterior a la implementación: después de implementar tu aplicación en Google Cloud, recibe recomendaciones para optimizar aún más el rendimiento con Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en Active Assist.

Para consultar los principios y las recomendaciones de optimización del rendimiento específicos de las cargas de trabajo de IA y aprendizaje automático, consulte el artículo Perspectiva de la IA y el aprendizaje automático: optimización del rendimiento del marco de trabajo Well-Architected.

Implementación

La implementación automatizada de esta arquitectura de referencia no está disponible. Usa los siguientes ejemplos de código para crear una arquitectura de un solo agente:

Despliega una arquitectura similar desplegando el agente de ejemplo de Python de ADK para el asistente de errores de software.
Consulta más información sobre la memoria y el estado en Python Tutor - ADK State and Memory Example.

Para ver ejemplos de código que te ayuden a empezar a usar ADK junto con servidores MCP, consulta Herramientas de MCP.

Para ver ejemplos de sistemas de IA de un solo agente, puedes usar los siguientes ejemplos de código. Estos ejemplos de código son puntos de partida totalmente funcionales para aprender y experimentar. Para que funcione de forma óptima en entornos de producción, debe personalizar el código en función de los requisitos técnicos y empresariales específicos.

Compras personalizadas: ofrece recomendaciones de productos personalizadas para una marca, un comerciante o un mercado online específicos.
Gestión de incidentes: valida el token y la identidad del usuario final por solicitud mediante la propagación dinámica de la identidad.
Procesamiento de pedidos: procesa y almacena pedidos, y organiza la confirmación por correo electrónico con una revisión humana condicional para cantidades de pedido específicas.
Ingeniería de datos: desarrolla flujos de procesamiento de Dataform, soluciona problemas de flujos de procesamiento y gestiona la ingeniería de datos, desde consultas SQL complejas hasta transformaciones de datos y dependencias de datos.
Recuperación de documentación: usa RAG para consultar los documentos que subas a Vertex AI RAG Engine y obtener respuestas con citas de documentación y código.

Siguientes pasos

Explora agentes y herramientas de ejemplo en Agent Garden.
Crea agentes con ADK.
Implementar agentes en Google Cloud.
Aloja servidores de MCP en Cloud Run.
Aloja aplicaciones y agentes de IA en Cloud Run.
Consulta cómo implementar una infraestructura de RAG para aplicaciones de IA generativa en Google Cloud.
Para obtener una descripción general de los principios y las recomendaciones de arquitectura específicos de las cargas de trabajo de IA y aprendizaje automático en Google Cloud, consulta la sección Perspectiva de IA y aprendizaje automático del marco de trabajo Well-Architected.
Para ver más arquitecturas de referencia, diagramas y prácticas recomendadas, consulta el centro de arquitectura de Cloud.

Colaboradores

Kumar Dhanagopal | Desarrollador de soluciones entre productos
Megan O'Keefe | Developer Advocate
Shir Meir Lador | Gestora de Ingeniería de Relaciones con Desarrolladores

Sistema de IA de un solo agente con ADK y Cloud Run Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.