Sistema de IA de un solo agente que usa ADK y Cloud Run

Last reviewed 2025-12-09 UTC

En este documento, se proporciona una arquitectura de referencia para ayudarte a diseñar un sistema de IA de un solo agente en Google Cloud. El sistema de un solo agente de esta arquitectura se compila con el Kit de desarrollo de agentes (ADK) y se implementa en Cloud Run. También puedes implementar el agente en Vertex AI Agent Engine o Google Kubernetes Engine (GKE). La arquitectura usa el Protocolo de contexto del modelo (MCP), que permite que el agente acceda a información de múltiples fuentes y la procese para proporcionar estadísticas enriquecidas en contexto.

Este documento está dirigido a arquitectos, desarrolladores y administradores de aplicaciones basadas en IA. Se supone que tienes conocimientos básicos sobre IA, aprendizaje automático (AA) y conceptos del modelo de lenguaje grande (LLM). En el documento, también se supone que tienes conocimientos básicos sobre los modelos y agentes de IA. No proporciona orientación específica para diseñar y codificar agentes de IA.

En la sección Implementación de este documento, se enumeran muestras de código que puedes usar para aprender a compilar e implementar sistemas de IA de un solo agente.

Arquitectura

En el siguiente diagrama, se muestra una arquitectura para un sistema de IA de un solo agente que se implementa en Cloud Run:

Arquitectura de un solo agente implementada en Cloud Run

Componentes de la arquitectura

La arquitectura de ejemplo consta de los siguientes componentes:

Componente	Descripción
Frontend	Los usuarios interactúan con el agente a través de un frontend, como una interfaz de chat, que se ejecuta como un servicio sin servidores de Cloud Run.
Agente	El agente recibe solicitudes de los usuarios, interpreta su intención, selecciona las herramientas adecuadas y, luego, sintetiza la información para responder las preguntas.
Entorno de ejecución de agentes	El agente se compila con el ADK y se implementa como un servicio sin servidores de Cloud Run. También puedes implementar el agente en Vertex AI Agent Engine o como una aplicación alojada en un contenedor en GKE. Para obtener información sobre cómo elegir un tiempo de ejecución del agente, consulta Elige los componentes de la arquitectura de tu IA basada en agentes.
ADK	El ADK proporciona herramientas y un framework para desarrollar, probar y, luego, implementar agentes. El ADK abstrae la complejidad de la creación de agentes y permite que los desarrolladores de IA se enfoquen en la lógica y las capacidades del agente. Cuando desarrollas agentes con el ADK, puedes configurarlos para que accedan a herramientas integradas, como la Búsqueda de Google, y las usen.
Modelo de IA y tiempo de ejecución del modelo	Para la entrega de inferencias, el agente de esta arquitectura de ejemplo usa el modelo de IA de Gemini en Vertex AI.
Caja de herramientas de MCP	MCP Toolbox for Databases proporciona herramientas específicas de la base de datos para el agente. Puede controlar complejidades, como la agrupación de conexiones y la autenticación.
Clientes, servidores y herramientas de MCP	MCP facilita el acceso a las herramientas estandarizando la interacción entre agentes y herramientas. Para cada par agente-herramienta, un cliente de MCP envía solicitudes a un servidor de MCP a través del cual el agente accede a una herramienta como un sistema de archivos o una API. Por ejemplo, las herramientas externas, como la herramienta de StackOverflow de LangChain y la herramienta de Búsqueda de Google, pueden proporcionar datos y fundamentación.
Observabilidad	El agente se supervisa con Google Cloud Observability para el registro, la supervisión y el seguimiento.

Flujo de agentes

El sistema de un solo agente de ejemplo en la arquitectura anterior tiene el siguiente flujo:

Un usuario ingresa una instrucción a través de un frontend, como una interfaz de chat, que se ejecuta como un servicio de Cloud Run sin servidores.
El frontend reenvía la instrucción al agente.
El agente usa el modelo de IA para razonar sobre la instrucción del usuario y sintetizar una respuesta:
- El modelo de IA determina qué herramientas usar para recopilar información contextual o realizar una tarea.
- El agente realiza llamadas a herramientas y agrega la respuesta a su contexto.
- El agente realiza la fundamentación y la validación intermedia.

Productos usados

En esta arquitectura de referencia, se usan los siguientes productos y herramientas Google Cloud de código abierto:

Cloud Run es una plataforma de procesamiento administrada que te permite ejecutar contenedores directamente sobre la infraestructura escalable de Google.
Gemini : Es una familia de modelos de IA multimodales desarrollados por Google.

Vertex AI: Es una plataforma de AA que te permite entrenar y, también, implementar modelos de AA y aplicaciones de IA, y personalizar LLM para usarlos en aplicaciones impulsadas por IA.
Protocolo de contexto del modelo (MCP): Es un estándar de código abierto para conectar aplicaciones de IA a sistemas externos.
MCP Toolbox for Databases: Es un servidor de Model Context Protocol (MCP) de código abierto que permite que los agentes de IA se conecten de forma segura a las bases de datos administrando las complejidades de las bases de datos, como la agrupación de conexiones, la autenticación y la observabilidad.
Google Cloud Observability: Servicios de observabilidad, incluidos Cloud Monitoring, Cloud Logging y Cloud Trace, para ayudarte a comprender el comportamiento, el estado y el rendimiento de tus aplicaciones.

Casos de uso

En esta sección, se describen los posibles casos de uso de la arquitectura que se describe en este documento.

Clasificación automática de informe de errores

Puedes adaptar esta arquitectura de referencia para automatizar la clasificación de los informes de errores entrantes: comprender el problema, buscar duplicados, recopilar contexto técnico pertinente y, luego, crear un error en el sistema. Un agente potenciado por IA puede actuar como un asistente inteligente que realiza la investigación inicial, lo que permite que los expertos humanos se enfoquen en la resolución de problemas más complejos.

En este caso de uso, la arquitectura proporciona los siguientes beneficios:

Tiempos de resolución más rápidos: El agente automatiza la investigación inicial y la recopilación de contexto, lo que puede reducir significativamente el tiempo que lleva asignar y resolver tickets de errores.
Mayor precisión y coherencia: El agente puede buscar de forma sistemática en múltiples fuentes de datos (bases de datos internas, repositorios de código y la Web pública). Esta capacidad proporciona un análisis más completo y coherente que el que podría permitir la clasificación manual.
Reducción de la carga de trabajo manual: El agente puede descargar tareas de clasificación repetitivas de los equipos de asistencia técnica y de ingeniería de TI, lo que les permite enfocarse en trabajos de mayor valor.

Esta arquitectura es ideal para cualquier organización que desarrolla software y que desea mejorar la eficiencia y la eficacia de su proceso de resolución de errores. Para obtener más información y opciones de implementación, consulta Software Bug Assistant: Agente de muestra de Python del ADK y Tools Make an Agent: From Zero to Assistant with ADK.

Atención al cliente

Puedes adaptar esta arquitectura de referencia para brindar una experiencia de compra personalizada y sin interrupciones a los clientes. Un agente potenciado por IA puede brindar atención al cliente, recomendar productos, administrar pedidos y programar servicios, lo que permite que los representantes humanos se enfoquen en otras tareas.

En este caso de uso, la arquitectura proporciona los siguientes beneficios:

Ventas adicionales y promociones: El agente puede ayudar a aumentar las ventas sugiriendo productos, servicios y promociones. Las sugerencias del agente se basan en el pedido actual del cliente y las ventas pertinentes, el historial de pedidos del cliente y los artículos que se encuentran en su carrito.
Administración y programación de pedidos: El agente puede aumentar la eficiencia y reducir la fricción del cliente administrando el contenido del carrito de compras del cliente y facilitando la autoprogramación de servicios.
Reducción de la carga de trabajo manual: El agente se encarga de las consultas generales, los pedidos y la programación, lo que permite que los agentes humanos de atención al cliente se enfoquen en los problemas más complejos de los clientes.

Esta arquitectura es ideal para cualquier organización minorista que desee mejorar la experiencia del cliente, aumentar las ventas y simplificar la administración y la programación de pedidos. Para obtener más información y conocer las opciones de implementación, consulta Cymbal Home & Garden Customer Service Agent.

Previsión de series temporales

Puedes adaptar esta arquitectura de referencia para predecir resultados, como la previsión de la demanda, la predicción de patrones de tráfico o el análisis y la predicción de fallas de máquinas. Un agente potenciado por IA puede analizar datos en tiempo real, tendencias históricas y eventos próximos. El agente puede usar estos análisis para predecir resultados durante un período específico. Estas previsiones pueden ayudarte a planificar y reducir el tiempo que dedican los analistas de datos humanos.

Este caso de uso puede beneficiar a las organizaciones en muchas situaciones, como las siguientes:

Administración del inventario: Con el uso de estadísticas avanzadas combinadas con datos históricos de ventas y tendencias del mercado, el agente puede ayudarte a planificar los pedidos de reposición para que puedas prepararte para los aumentos o las disminuciones en la demanda de los clientes.
Rutas de viaje: El agente puede ayudar a ahorrar tiempo y reducir los costos de viaje de los proveedores de servicios y entregas analizando los patrones de tráfico históricos y en tiempo real, junto con eventos como construcciones o cierres de rutas.
Evita interrupciones: El agente puede ayudarte a evitar posibles interrupciones del servicio, ya que te ayuda a identificar la causa raíz de las interrupciones históricas. También puede ayudar a predecir posibles estados de falla futuros para que puedas mitigar un problema antes de que se convierta en un problema.

Esta arquitectura es ideal para cualquier organización que necesite adaptarse a patrones cambiantes en función de las tendencias establecidas. También es ideal para las organizaciones cuyos clientes pueden beneficiarse de las estadísticas proactivas que los ayudan a planificar el futuro. Para obtener más información y conocer las opciones de implementación, consulta Agente de previsión de series temporales con el ADK y MCP Toolbox de Google.

Recuperación de documentos

Puedes adaptar esta arquitectura de referencia para usar Vertex AI RAG Engine y crear un agente para administrar la recuperación de datos contextuales. Un agente de recuperación de documentos puede obtener datos pertinentes de un conjunto seleccionado de documentos para proporcionar respuestas fácticas con citas del material de origen.

Con un agente de recuperación de documentos, puedes ayudar a garantizar que los clientes y los usuarios internos obtengan respuestas informadas y contextuales a sus preguntas. Esta implementación puede ayudar a reducir los errores y las imprecisiones, ya que garantiza que las respuestas se basen en la información que validaste.

Una arquitectura de recuperación de documentos es ideal para bases de conocimiento sobre políticas y procesos, infraestructura técnica, capacidades de productos y otra documentación basada en hechos. Para obtener información sobre cómo desarrollar un agente de recuperación de documentos potenciado por la generación aumentada por recuperación (RAG), consulta Agente de recuperación de documentación.

Alternativas de diseño

En esta sección, se presentan enfoques de diseño alternativos que puedes considerar para la implementación de tu agente de IA en Google Cloud.

Entorno de ejecución de agentes

En la arquitectura que se describe en este documento, el agente y sus herramientas se implementan en Cloud Run. También puedes usar GKE o Vertex AI Agent Engine como un entorno de ejecución alternativo. Para obtener información sobre cómo elegir un tiempo de ejecución del agente, consulta Tiempo de ejecución del agente en "Elige los componentes de la arquitectura de IA basada en agentes".

Tiempo de ejecución del modelo de IA

En la arquitectura que se describe en este documento, el entorno de ejecución del modelo de IA es Vertex AI. También puedes usar Cloud Run o GKE como un entorno de ejecución alternativo. Para obtener información sobre cómo elegir un tiempo de ejecución del modelo, consulta Tiempo de ejecución del modelo en "Elige los componentes de la arquitectura de tu IA basada en agentes".

Consideraciones del diseño

En esta sección, se proporciona orientación para ayudarte a usar esta arquitectura de referencia para desarrollar una arquitectura que cumpla con tus requisitos específicos de seguridad, confiabilidad, costo, eficiencia operativa y rendimiento.

Diseño de sistemas

En esta sección, se proporciona orientación para que puedas elegir Google Cloud regiones para tu implementación y seleccionar los Google Cloud productos y las herramientas adecuados.

Selección de región

Cuando selecciones Google Cloud regiones para tus aplicaciones basadas en IA, ten en cuenta los siguientes factores:

Disponibilidad de los Google Cloud servicios en cada región.
Requisitos de latencia del usuario final.
Costo de los Google Cloud recursos.
Requisitos reglamentarios

Para seleccionar Google Cloud ubicaciones adecuadas para tus aplicaciones, usa las siguientes herramientas:

Google Cloud Selector de regiones: Una herramienta interactiva basada en la Web para seleccionar la región Google Cloudóptima para tus aplicaciones y datos en función de factores como la huella de carbono, el costo y la latencia.
API de Cloud Location Finder: Es una API pública que proporciona una forma programática de encontrar ubicaciones de implementación en Google Cloud, Google Distributed Cloud y otros proveedores de servicios en la nube.

Diseño de agentes

En esta sección, se proporcionan recomendaciones generales para diseñar agentes de IA. La orientación detallada sobre cómo escribir código y lógica del agente está fuera del alcance de este documento.

Enfoque de diseño	Recomendaciones
Definición y diseño del agente	Define claramente el objetivo comercial del sistema de IA basado en agentes y la tarea que realiza cada agente. Elige un patrón de diseño de agentes que satisfaga mejor tus requisitos. Usa el ADK para crear, implementar y administrar de manera eficiente tu arquitectura basada en agentes.
Interacciones del agente	Diseña los agentes orientados al usuario en la arquitectura para admitir interacciones en lenguaje natural. Asegúrate de que cada agente comunique claramente sus acciones y su estado a sus clientes dependientes. Diseña los agentes para que detecten y controlen las consultas ambiguas y las interacciones matizadas.
Contexto, herramientas y datos	Asegúrate de que los agentes tengan suficiente contexto para hacer un seguimiento de las interacciones de varios turnos y los parámetros de sesión. Describe claramente el propósito, los argumentos y el uso de las herramientas que pueden usar los agentes. Garantizar que las respuestas de los agentes se basen en fuentes de datos confiables para reducir las alucinaciones Implementa lógica para controlar situaciones de no coincidencia, como cuando una instrucción está fuera de tema.

Almacenamiento de la memoria y de la sesión

La arquitectura de ejemplo que se muestra en este documento no incluye almacenamiento de memoria ni de sesión. En un entorno de producción, puedes mejorar las respuestas y agregar personalización integrando el estado y la memoria en tu agente.

Sesión: Una sesión es el hilo conversacional entre un usuario y el agente, desde la interacción inicial hasta el final del diálogo.
Estado: El estado son los datos que el agente usa y recopila dentro de una sesión específica. Los datos de estado que se recopilan incluyen el historial de mensajes que intercambiaron el usuario y el agente, los resultados de cualquier llamada a herramientas y otras variables que el agente necesita para comprender el contexto de la conversación.

El ADK puede hacer un seguimiento de las sesiones en la memoria a corto plazo con el objeto Session y los atributos state. El ADK también admite la memoria a largo plazo en las sesiones con el mismo usuario, incluso a través de Memory Bank. Para almacenar el estado de la sesión, también puedes usar servicios como Memorystore para Redis.

Para obtener información sobre las opciones de memoria del agente, consulta Elige los componentes de la arquitectura de IA basada en agentes.

Seguridad

En esta sección, se describen las consideraciones y recomendaciones de diseño para crear una topología en Google Cloud que cumpla con los requisitos de seguridad de tu carga de trabajo.

Componente	Consideraciones y recomendaciones de diseño
Agentes	Los agentes de IA introducen ciertos riesgos de seguridad únicos y críticos que las prácticas de seguridad convencionales y determinísticas tal vez no puedan mitigar de manera adecuada. Google recomienda un enfoque que combine las fortalezas de los controles de seguridad determinísticos con las defensas dinámicas basadas en el razonamiento. Este enfoque se basa en tres principios fundamentales: supervisión humana, autonomía del agente cuidadosamente definida y observabilidad. Las siguientes son recomendaciones específicas que se alinean con estos principios fundamentales. Supervisión humana: A veces, un sistema de IA basado en agentes puede fallar o no funcionar según lo esperado. Por ejemplo, el modelo podría generar contenido impreciso o un agente podría seleccionar herramientas inapropiadas. En los sistemas de IA basados en agentes que son fundamentales para la empresa, incorpora un flujo con interacción humana para permitir que los supervisores humanos monitoreen, anulen y pausen a los agentes. Por ejemplo, los usuarios humanos pueden revisar el resultado de los agentes, aprobarlo o rechazarlo, y brindar más orientación para corregir errores o tomar decisiones estratégicas. Este enfoque combina la eficiencia de los sistemas de IA basados en agentes con el pensamiento crítico y la experiencia en el dominio de los usuarios humanos. Control de acceso para agentes: Configura los permisos de los agentes con los controles de Identity and Access Management (IAM). Otorga a cada agente solo los permisos que necesita para realizar sus tareas y comunicarse con las herramientas y otros agentes. Este enfoque ayuda a minimizar el posible impacto de una vulneración de seguridad, ya que un agente comprometido tendría acceso limitado a otras partes del sistema. Para obtener más información, consulta Configura la identidad y los permisos de tu agente y Administra el acceso de los agentes implementados. Supervisión: Supervisa el comportamiento del agente con capacidades de seguimiento integrales que te brindan visibilidad de cada acción que realiza un agente, incluido su proceso de razonamiento, la selección de herramientas y las rutas de ejecución. Para obtener más información, consulta Registro de un agente en Vertex AI Agent Engine y Registro en el ADK. Para obtener más información sobre la protección de los agentes de IA, consulta Seguridad de los agentes de IA.
Vertex AI	Responsabilidad compartida: La seguridad es una responsabilidad compartida. Vertex AI protege la infraestructura subyacente y proporciona herramientas y controles de seguridad para ayudarte a proteger tus datos, código y modelos. Eres responsable de configurar correctamente tus servicios, administrar los controles de acceso y proteger tus aplicaciones. Para obtener más información, consulta Responsabilidad compartida de Vertex AI. Controles de seguridad: Vertex AI admite Google Cloud controles de seguridad que puedes usar para cumplir con tus requisitos de residencia de datos, claves de encriptación administradas por el cliente (CMEK), seguridad de red con Controles del servicio de VPC y Transparencia de acceso. Para obtener más información, consulta la siguiente documentación: Controles de seguridad para Vertex AI Controles de seguridad para la IA generativa IA generativa y retención cero de datos Seguridad: Los modelos de IA pueden producir respuestas dañinas, en ocasiones, en respuesta a instrucciones maliciosas. Para mejorar la seguridad y mitigar el posible uso inadecuado del sistema de IA con agentes, puedes configurar filtros de contenido que actúen como barreras para las entradas y respuestas dañinas. Para obtener más información, consulta Filtros de seguridad y contenido. Para inspeccionar y depurar las solicitudes y respuestas de inferencia en busca de amenazas como la inyección de instrucciones y el contenido dañino, puedes usar Model Armor. Model Armor te ayuda a evitar entradas maliciosas, verificar la seguridad del contenido, proteger los datos sensibles, mantener el cumplimiento y aplicar políticas de seguridad de forma coherente. Acceso al modelo: Puedes configurar políticas de la organización para limitar el tipo y las versiones de los modelos de IA que se pueden usar en un proyecto de Google Cloud . Para obtener más información, consulta Cómo controlar el acceso a los modelos de Model Garden. Protección de datos: Para descubrir y desidentificar datos sensibles en las instrucciones y respuestas, y en los datos de registro, usa la API de Cloud Data Loss Prevention. Para obtener más información, mira este video: Protege datos sensibles en apps de IA.
MCP	Cuando configures tus agentes para que usen MCP, asegúrate de que se autorice el acceso a datos y herramientas externos, implementa controles de privacidad, como la encriptación, aplica filtros para proteger los datos sensibles y supervisa las interacciones de los agentes. Para obtener más información, consulta MCP y seguridad.
A2A	Seguridad del transporte: El protocolo A2A exige HTTPS para todas las comunicaciones A2A en entornos de producción y recomienda las versiones 1.2 o posteriores de la seguridad de la capa de transporte (TLS). Autenticación: El protocolo A2A delega la autenticación a mecanismos web estándares, como los encabezados HTTP, y a estándares como OAuth2 y OpenID Connect. Cada agente anuncia los requisitos de autenticación en su tarjeta de agente. Para obtener más información, consulta Autenticación de A2A.
Cloud Run	Seguridad de entrada (para el servicio de frontend): Para controlar el acceso a la aplicación, inhabilita la URL `run.app` predeterminada del servicio de Cloud Run de frontend y configura un balanceador de cargas de aplicaciones externo regional. Además de balancear las cargas del tráfico entrante a la aplicación, el balanceador de cargas controla la administración de certificados SSL. Para mayor protección, puedes usar las políticas de seguridad de Google Cloud Armor para proporcionar filtrado de solicitudes, protección DSD y límite de frecuencia para el servicio. Autenticación de usuarios: Usuarios dentro de tu organización: Para autenticar el acceso de usuarios internos al servicio de Cloud Run de frontend, usa Identity-Aware Proxy (IAP). Cuando un usuario intenta acceder a un recurso protegido por IAP, IAP realiza verificaciones de autenticación y autorización. Usuarios fuera de tu organización: Para autenticar el acceso de usuarios externos al servicio de frontend, usa Identity Platform o Firebase Authentication. Para administrar el acceso de usuarios externos, configura tu aplicación para que controle un flujo de acceso y realice llamadas a la API autenticadas al servicio de Cloud Run. Si deseas obtener más información, consulta Cómo autenticar usuarios. Seguridad de imágenes de contenedor: Para garantizar que solo se implementen imágenes de contenedor autorizadas en Cloud Run, puedes usar la autorización binaria. Para identificar y mitigar los riesgos de seguridad en las imágenes de contenedores, usa Artifact Analysis para ejecutar automáticamente análisis de vulnerabilidades. Para obtener más información, consulta Descripción general del análisis de contenedores. Residencia de datos: Cloud Run te ayuda a cumplir con los requisitos de residencia de datos. Tus Cloud Run Functions se ejecutan dentro de la región seleccionada. Para obtener más orientación sobre la seguridad de los contenedores, consulta Sugerencias generales para el desarrollo de Cloud Run.
Todos los productos de la arquitectura	Encriptación de datos: De forma predeterminada, Google Cloud encripta los datos en reposo con Google-owned and Google-managed encryption keys. Para proteger los datos de tus agentes con claves de encriptación que controlas, puedes usar CMEK que creas y administras en Cloud KMS. Para obtener información sobre los servicios compatibles con Cloud KMS, consulta Servicios compatibles. Google Cloud Mitiga el riesgo de robo de datos: Para reducir el riesgo de robo de datos, crea un perímetro de Controles del servicio de VPC alrededor de la infraestructura. Los Controles del servicio de VPC admiten todos los Google Cloud servicios que usa esta arquitectura de referencia. Control de acceso: Cuando configures los permisos para los recursos de tu topología, sigue el principio de privilegio mínimo. Seguridad del entorno de nube: Usa las herramientas de Security Command Center para detectar vulnerabilidades, identificar y mitigar amenazas, definir y, luego, implementar una postura de seguridad, y exportar datos para su análisis posterior. Optimización posterior a la implementación: Después de implementar tu aplicación en Google Cloud, obtén recomendaciones para optimizar aún más la seguridad con Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta Cómo encontrar recomendaciones en Active Assist.

Más recomendaciones de seguridad

Confiabilidad

En esta sección, se describen las consideraciones y recomendaciones de diseño para compilar y operar una infraestructura confiable para tu implementación en Google Cloud.

Componente	Consideraciones y recomendaciones de diseño
Agente	Simula fallas: Antes de implementar el sistema de IA con agentes en producción, valídalo simulando un entorno de producción. Identificar y corregir problemas y comportamientos inesperados Escala horizontalmente: Para garantizar la alta disponibilidad y la tolerancia a errores, ejecuta varias instancias de tu aplicación de agente detrás de un balanceador de cargas. Este enfoque también puede ayudar a reducir la latencia y los tiempos de espera, ya que distribuye las solicitudes entre las instancias. Algunos tiempos de ejecución de agentes controlan el balanceo de cargas automáticamente, como con el ajuste de escala automático de instancias en los servicios de Cloud Run. Recuperación ante interrupciones: Para garantizar que el agente pueda controlar los reinicios y mantener el contexto de forma correcta, desacopla el estado del tiempo de ejecución. Para implementar una aplicación de agente sin estado, usa un almacén de datos externo, como una base de datos o una caché distribuida. Por ejemplo, puedes usar Memory Bank, Memorystore para Redis o un servicio de base de datos como Cloud SQL. Controla los errores: Para permitir el diagnóstico y la solución de problemas de errores, implementa mecanismos de registro, control de excepciones y reintentos.
Vertex AI	Administración de cuotas: Vertex AI admite la cuota compartida dinámica (DSQ) para los modelos de Gemini. DSQ ayuda a administrar de forma flexible las solicitudes de pago por uso y elimina la necesidad de administrar la cuota de forma manual o solicitar aumentos de cuota. DSQ asigna de forma dinámica los recursos disponibles para un modelo y una región determinados entre los clientes activos. Con DSQ, no hay límites de cuota predefinidos para los clientes individuales. Planificación de la capacidad: Si la cantidad de solicitudes al modelo supera la capacidad asignada, se muestra el código de error 429. Para las cargas de trabajo que son fundamentales para la empresa y que requieren una capacidad de procesamiento alta de forma constante, puedes reservar capacidad de procesamiento con la capacidad de procesamiento aprovisionada. Disponibilidad del extremo del modelo: Si los datos se pueden compartir en varias regiones o países, puedes usar un extremo global para el modelo.
Cloud Run	Robustez ante interrupciones de la infraestructura: Cloud Run es un servicio regional. Almacena datos de forma síncrona en varias zonas dentro de una región y balancea automáticamente las cargas del tráfico entre las zonas. Si se produce una interrupción zonal, Cloud Run seguirá ejecutándose y no se perderán datos. Si se produce una interrupción regional, el servicio deja de ejecutarse hasta que Google resuelva la interrupción. Escalamiento horizontal: Los servicios de Cloud Run controlan el ajuste de escala automático de instancias por ti. El ajuste de escala automático ayuda a garantizar que las instancias puedan controlar todas las solicitudes entrantes, los eventos y la utilización de CPU necesarios para garantizar una alta disponibilidad.
Todos los productos de la arquitectura	Optimización posterior a la implementación: Después de implementar tu aplicación en Google Cloud, obtén recomendaciones para optimizar aún más la seguridad con Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta Cómo encontrar recomendaciones en Active Assist.

Para conocer los principios y las recomendaciones de confiabilidad específicos de las cargas de trabajo de IA y AA, consulta la perspectiva de IA y AA: Confiabilidad en Well-Architected Framework.

Operaciones

En esta sección, se describen los factores que debes tener en cuenta cuando usas esta arquitectura de referencia para diseñar una topología de Google Cloud que puedas operar de manera eficiente.

Componente	Consideraciones y recomendaciones de diseño
Agente	Depuración y análisis: Implementa registros estructurados en la aplicación del agente. El registro y el seguimiento te permiten capturar información clave en un formato estructurado, como las herramientas que se llamaron, las entradas y salidas del agente, y la latencia de cada paso.
Vertex AI	Supervisión con registros: De forma predeterminada, los registros del agente que se escriben en las transmisiones `stdout` y `stderr` se enrutan a Cloud Logging. Para el registro avanzado, puedes integrar el registrador de Python en Logging. Si necesitas control total sobre el registro y los registros estructurados, usa el cliente de Logging. Para obtener más información, consulta Cómo registrar un agente y Cómo acceder al ADK. Evaluación continua: Realiza periódicamente una evaluación cualitativa del resultado de los agentes y de la trayectoria o los pasos que siguieron los agentes para producir el resultado. Para implementar la evaluación del agente, puedes usar el servicio de evaluación de IA generativa o los métodos de evaluación que admite el ADK.
Cloud Run	Estado y rendimiento: Supervisa tus servicios de Cloud Run con Google Cloud Observability. Configura alertas en Cloud Monitoring para que se te notifique sobre posibles problemas, como un aumento en las tasas de error, una latencia alta o un uso anormal de los recursos.
Bases de datos	Estado y rendimiento: Supervisa tu base de datos con Google Cloud Observability. Configura alertas en Monitoring para que te notifiquen sobre posibles problemas, como un aumento en las tasas de error, una latencia alta o un uso anormal de los recursos.
MCP	Herramientas de bases de datos: Para administrar de manera eficiente las herramientas de bases de datos de tus agentes de IA y garantizar que los agentes manejen de forma segura complejidades como la agrupación de conexiones y la autenticación, usa MCP Toolbox para bases de datos. Proporciona una ubicación centralizada para almacenar y actualizar herramientas de bases de datos. Puedes compartir las herramientas entre los agentes y actualizarlas sin volver a implementarlos. La caja de herramientas incluye una amplia variedad de herramientas para Google Cloud bases de datos como AlloyDB para PostgreSQL y para bases de datos de terceros, como MongoDB. Modelos de IA generativa: Para permitir que los agentes de IA usen modelos de IA generativa de Google, como Imagen y Veo, puedes usar servidores de MCP para Google Cloud APIs de medios generativos. Productos y herramientas de seguridad de Google: Para permitir que tus agentes de IA accedan a los productos y herramientas de seguridad de Google, como Google Security Operations, Google Threat Intelligence y Security Command Center, usa servidores de MCP para los productos de seguridad de Google.
Todos los Google Cloud productos de la arquitectura	Seguimiento: Recopila y analiza datos de seguimiento de forma continua con Trace. Los datos de seguimiento te permiten identificar y diagnosticar rápidamente problemas de latencia en flujos de trabajo complejos del agente. Puedes realizar análisis detallados a través de visualizaciones en la página Explorador de seguimiento de la consola de Google Cloud . Para obtener más información, consulta Cómo rastrear un agente.

Para conocer los principios y las recomendaciones de excelencia operativa específicos para las cargas de trabajo de IA y AA, consulta la perspectiva de IA y AA: excelencia operativa en Well-Architected Framework.

Optimización de costos

En esta sección, se proporciona orientación para optimizar el costo de configurar y operar una topología de Google Cloud que compilas a través de esta arquitectura de referencia.

Componente	Consideraciones y recomendaciones de diseño
Vertex AI	Análisis y administración de costos: Para analizar y administrar los costos de Vertex AI, te recomendamos que crees métricas de referencia para las consultas por segundo (QPS) y los tokens por segundo (TPS). Luego, supervisa estas métricas después de la implementación. La referencia también ayuda con la planificación de la capacidad. Por ejemplo, el valor de referencia te ayuda a determinar cuándo podría ser necesario el Provisioned Throughput. Selección del modelo: El modelo que selecciones para tu aplicación de IA afecta directamente los costos y el rendimiento. Para identificar el modelo que proporciona un equilibrio óptimo entre el rendimiento y el costo para tu caso de uso específico, prueba los modelos de forma iterativa. Te recomendamos que comiences con el modelo más rentable y que avances gradualmente hacia opciones más potentes. Instrucciones rentables: La longitud de tus instrucciones (entrada) y las respuestas generadas (salida) afectan directamente el rendimiento y el costo. Escribe instrucciones que sean breves, directas y proporcionen suficiente contexto. Diseña tus instrucciones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "Resume en 2 oraciones" o "Enumera 3 puntos clave". Para obtener más información, consulta las prácticas recomendadas para el diseño de instrucciones. Almacenamiento de contexto en caché: Para reducir el costo de las solicitudes que contienen contenido repetido con altos recuentos de tokens de entrada, usa el almacenamiento de contexto en caché. Solicitudes por lotes: Cuando sea pertinente, considera la predicción por lotes. Las solicitudes por lotes generan un costo menor que las solicitudes estándares.
Cloud Run	Asignación de recursos: Cuando creas un servicio de Cloud Run, puedes especificar la cantidad de memoria y CPU que se asignarán. Comienza con las asignaciones de CPU y memoria predeterminadas. Observa el uso y el costo de los recursos a lo largo del tiempo, y ajusta la asignación según sea necesario. Para obtener más información, consulta la siguiente documentación: Configura límites de memoria para los servicios Configura límites de CPU para los servicios Optimización de tarifas: Si puedes predecir los requisitos de CPU y memoria, puedes ahorrar dinero con los descuentos por compromiso de uso (CUD).
Todos los productos de la arquitectura	Optimización posterior a la implementación: Después de implementar tu aplicación en Google Cloud, obtén recomendaciones para optimizar aún más los costos con Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta Cómo encontrar recomendaciones en Active Assist.

Componente

Consideraciones y recomendaciones de diseño

Vertex AI

Análisis y administración de costos: Para analizar y administrar los costos de Vertex AI, te recomendamos que crees métricas de referencia para las consultas por segundo (QPS) y los tokens por segundo (TPS). Luego, supervisa estas métricas después de la implementación. La referencia también ayuda con la planificación de la capacidad. Por ejemplo, el valor de referencia te ayuda a determinar cuándo podría ser necesario el Provisioned Throughput.

Selección del modelo: El modelo que selecciones para tu aplicación de IA afecta directamente los costos y el rendimiento. Para identificar el modelo que proporciona un equilibrio óptimo entre el rendimiento y el costo para tu caso de uso específico, prueba los modelos de forma iterativa. Te recomendamos que comiences con el modelo más rentable y que avances gradualmente hacia opciones más potentes.

Instrucciones rentables: La longitud de tus instrucciones (entrada) y las respuestas generadas (salida) afectan directamente el rendimiento y el costo. Escribe instrucciones que sean breves, directas y proporcionen suficiente contexto. Diseña tus instrucciones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "Resume en 2 oraciones" o "Enumera 3 puntos clave". Para obtener más información, consulta las prácticas recomendadas para el diseño de instrucciones.

Almacenamiento de contexto en caché: Para reducir el costo de las solicitudes que contienen contenido repetido con altos recuentos de tokens de entrada, usa el almacenamiento de contexto en caché.

Solicitudes por lotes: Cuando sea pertinente, considera la predicción por lotes. Las solicitudes por lotes generan un costo menor que las solicitudes estándares.

Cloud Run

Asignación de recursos: Cuando creas un servicio de Cloud Run, puedes especificar la cantidad de memoria y CPU que se asignarán. Comienza con las asignaciones de CPU y memoria predeterminadas. Observa el uso y el costo de los recursos a lo largo del tiempo, y ajusta la asignación según sea necesario. Para obtener más información, consulta la siguiente documentación:

Optimización de tarifas: Si puedes predecir los requisitos de CPU y memoria, puedes ahorrar dinero con los descuentos por compromiso de uso (CUD).

Todos los productos de la arquitectura

Optimización posterior a la implementación: Después de implementar tu aplicación en Google Cloud, obtén recomendaciones para optimizar aún más los costos con Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta Cómo encontrar recomendaciones en Active Assist.

Para estimar el costo de tus recursos de Google Cloud , usa la Google Cloud calculadora de precios.

Para conocer los principios y las recomendaciones de optimización de costos específicos para las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: Optimización de costos en el Framework de Well-Architected.

Optimización del rendimiento

En esta sección, se describen las consideraciones y recomendaciones de diseño para crear una topología en Google Cloud que cumpla con los requisitos de rendimiento de tus cargas de trabajo.

Componente	Consideraciones y recomendaciones de diseño
Agentes	Selección del modelo: Cuando selecciones modelos para tu sistema de IA basada en agentes, ten en cuenta las capacidades que se requieren para las tareas que deben realizar los agentes. Optimización de instrucciones: Para mejorar y optimizar rápidamente el rendimiento de las instrucciones a gran escala y eliminar la necesidad de reescribirlas manualmente, usa el optimizador de instrucciones de Vertex AI. El optimizador te ayuda a adaptar de manera eficiente las instrucciones en diferentes modelos.
Vertex AI	Selección del modelo: El modelo que selecciones para tu aplicación de IA afecta directamente los costos y el rendimiento. Para identificar el modelo que proporciona un equilibrio óptimo entre el rendimiento y el costo para tu caso de uso específico, prueba los modelos de forma iterativa. Te recomendamos que comiences con el modelo más rentable y que avances gradualmente hacia opciones más potentes. Ingeniería de instrucciones: La longitud de tus instrucciones (entrada) y las respuestas generadas (salida) afectan directamente el rendimiento y el costo. Escribe instrucciones que sean breves, directas y proporcionen suficiente contexto. Diseña tus instrucciones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "Resume en 2 oraciones" o "Enumera 3 puntos clave". Para obtener más información, consulta las prácticas recomendadas para el diseño de instrucciones. Almacenamiento de contexto en caché: Para reducir la latencia de las solicitudes que contienen contenido repetido con recuentos altos de tokens de entrada, usa el almacenamiento de contexto en caché.
Cloud Run	Asignación de recursos: Según tus requisitos de rendimiento, configura la memoria y la CPU que se asignarán al servicio de Cloud Run. Para obtener más información, consulta la siguiente documentación: Configura límites de memoria para los servicios Configura límites de CPU para los servicios Para obtener más orientación sobre la optimización del rendimiento, consulta Sugerencias generales para el desarrollo de Cloud Run.
Todos los productos de la arquitectura	Optimización posterior a la implementación: Después de implementar tu aplicación en Google Cloud, obtén recomendaciones para optimizar aún más el rendimiento con Active Assist. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta Cómo encontrar recomendaciones en Active Assist.

Si deseas conocer los principios y las recomendaciones de optimización del rendimiento específicos para las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: Optimización del rendimiento en Well-Architected Framework.

Implementación

La implementación automatizada para esta arquitectura de referencia no está disponible. Usa los siguientes ejemplos de código para ayudarte a compilar una arquitectura de un solo agente:

Implementa una arquitectura similar implementando el Agente de muestra de Python del asistente para errores de software del ADK.
Obtén más información sobre la memoria y el estado con Python Tutor: ejemplo de estado y memoria del ADK.

Para ver muestras de código que te ayudarán a comenzar a usar el ADK junto con los servidores de MCP, consulta Herramientas de MCP.

Para ver ejemplos de sistemas de IA de un solo agente adicionales, puedes usar las siguientes muestras de código. Estos ejemplos de código son puntos de partida completamente funcionales para el aprendizaje y la experimentación. Para un funcionamiento óptimo en entornos de producción, debes personalizar el código según tus requisitos técnicos y comerciales específicos.

Compras personalizadas: Proporciona recomendaciones de productos personalizadas para una marca, un comercio o un mercado en línea específicos.
Administración de incidentes: Valida la identidad y el token del usuario final por solicitud con la propagación dinámica de la identidad.
Procesamiento de pedidos: Procesa y almacena pedidos, y coordina la confirmación por correo electrónico con una revisión humana condicional para cantidades de pedidos específicas.
Ingeniería de datos: Desarrolla canalizaciones de Dataform, soluciona problemas relacionados con ellas y administra la ingeniería de datos, desde consultas complejas en SQL hasta transformaciones y dependencias de datos.
Recuperación de documentación: Usa la RAG para consultar los documentos que subas a Vertex AI RAG Engine y obtener respuestas con citas a la documentación y el código.

¿Qué sigue?

Explora agentes y herramientas de muestra en Agent Garden.
Compila agentes con el ADK.
Implementa agentes en Google Cloud.
Aloja servidores de MCP en Cloud Run.
Aloja apps y agentes de IA en Cloud Run.
Aprende a implementar una infraestructura de RAG para aplicaciones de IA generativa en Google Cloud.
Para obtener una descripción general de los principios y las recomendaciones de arquitectura específicos para las cargas de trabajo de IA y AA en Google Cloud, consulta la perspectiva de IA y AA en Well-Architected Framework.
Para obtener más información sobre las arquitecturas de referencia, los diagramas y las prácticas recomendadas, explora Cloud Architecture Center.

Colaboradores

Autor: Kumar Dhanagopal | Desarrollador de soluciones entre productos
Megan O'Keefe | Developer Advocate
Shir Meir Lador | Gerente de Ingeniería de Relaciones con Desarrolladores

Sistema de IA de un solo agente que usa ADK y Cloud Run Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.