Usos de la IA en Cloud Run

Tanto si creas agentes como si ejecutas modelos de inferencia o te integras con varios servicios de IA, Cloud Run te ofrece la escalabilidad, la flexibilidad y la facilidad de uso que necesitas para dar vida a tus innovaciones de IA.

En esta página se destacan algunos casos prácticos generales para alojar, compilar y desplegar cargas de trabajo de IA en Cloud Run.

¿Por qué usar Cloud Run para cargas de trabajo de IA?

Cloud Run ofrece varias ventajas para garantizar que tus aplicaciones de IA sean escalables, flexibles y fáciles de gestionar. Entre lo más destacado, se incluye lo siguiente:

  • Compatibilidad con contenedores flexibles: empaqueta tu aplicación y sus dependencias en un contenedor o usa cualquier lenguaje, biblioteca o framework compatible. Consulta más información sobre el contrato de entorno de ejecución de contenedor de Cloud Run.
  • Punto final HTTP: después de desplegar un servicio de Cloud Run, recibe un punto final de URL de Cloud Run seguro y listo para usar. Cloud Run ofrece streaming mediante la compatibilidad con la codificación de transferencia fragmentada HTTP, HTTP/2 y WebSockets.
  • Escalado automático o manual: de forma predeterminada, Cloud Run escala automáticamente tu servicio en función de la demanda, incluso a cero. De esta forma, solo pagas por lo que utilizas, por lo que es ideal para cargas de trabajo de IA impredecibles. También puedes configurar tu servicio para que se escale manualmente en función de tus necesidades de tráfico y uso de CPU.
  • Compatibilidad con GPUs: acelera tus modelos de IA configurando recursos de Cloud Run con GPUs. Los servicios de Cloud Run con GPUs habilitadas pueden reducirse a cero para ahorrar costes cuando no se estén usando.

  • Ecosistema integrado: conéctate sin problemas a otros servicios Google Cloud , como Vertex AI, BigQuery, Cloud SQL, Memorystore, Pub/Sub, AlloyDB para PostgreSQL, Cloud CDN, Secret Manager y dominios personalizados, para crear pipelines de IA integrales. Google Cloud Observability también ofrece herramientas de monitorización y registro integradas para comprender el rendimiento de las aplicaciones y solucionar problemas de forma eficaz.

Casos prácticos clave de la IA

Estas son algunas formas de usar Cloud Run para potenciar tus aplicaciones de IA:

Alojar agentes y bots de IA

Cloud Run es una plataforma ideal para alojar la lógica de backend de agentes de IA, chatbots y asistentes virtuales. Estos agentes pueden orquestar llamadas a modelos de IA como Gemini en Vertex AI, gestionar estados e integrarse con varias herramientas y APIs.

  • Microservicios para agentes: despliega las funciones de los agentes individuales como servicios de Cloud Run independientes. Consulta más información sobre cómo alojar agentes de IA.
  • Comunicación Agent2Agent (A2A): crea sistemas de agentes colaborativos con el protocolo A2A. Consulta más información sobre cómo alojar agentes de A2A.
  • Servidores de Model Context Protocol (MCP): implementa servidores de MCP para proporcionar contexto estandarizado a los LLMs desde tus herramientas y fuentes de datos. Consulta Alojar servidores de MCP para obtener más información.

Servir modelos de IA o aprendizaje automático para la inferencia

Despliega tus modelos de aprendizaje automático entrenados como endpoints HTTP escalables.

  • Inferencia en tiempo real: ofrece predicciones de modelos creados con frameworks como TensorFlow, PyTorch o scikit-learn, o con modelos abiertos como Gemma. Consulta un ejemplo en Ejecutar Gemma 3 en Cloud Run.
  • Aceleración de GPU: usa GPUs de NVIDIA para acelerar la inferencia de modelos más exigentes. Para obtener más información, consulta Configurar la GPU para los servicios.
  • Integración con Vertex AI: sirve modelos entrenados o desplegados en Vertex AI mediante Cloud Run como frontend escalable.
  • Desacopla los archivos de modelos grandes de tu contenedor: el adaptador FUSE de Cloud Storage te permite montar un segmento de Cloud Storage y acceder a él como un directorio local dentro de tu contenedor de Cloud Run.

Crear sistemas de generación aumentada por recuperación (RAG)

Crea aplicaciones de RAG conectando servicios de Cloud Run a tus fuentes de datos.

  • Bases de datos vectoriales: conéctate a bases de datos vectoriales alojadas en Cloud SQL (con pgvector), AlloyDB para PostgreSQL, Memorystore para Redis u otros almacenes vectoriales especializados para obtener el contexto relevante para tus LLMs. Consulta un ejemplo de infraestructura de uso de Cloud Run para alojar una aplicación de IA generativa compatible con RAG y el procesamiento de datos con Vertex AI y Vector Search.
  • Acceso a datos: obtiene datos de Cloud Storage, BigQuery, Firestore u otras APIs para enriquecer las peticiones.

Aloja APIs y back-ends basados en IA

Crea APIs y microservicios que incorporen funciones de IA.

  • APIs inteligentes: desarrolla APIs que usen LLMs para la comprensión del lenguaje natural, el análisis de sentimientos, la traducción, el resumen, etc.
  • Flujos de trabajo automatizados: crea servicios que activen acciones basadas en IA en función de eventos o solicitudes.

Prototipos y experimentos de ideas

Itera rápidamente en ideas de IA.

  • Despliegue rápido: mueve rápidamente prototipos de entornos como Vertex AI Studio, Google AI Studio o cuadernos de Jupyter a despliegues escalables en Cloud Run con una configuración mínima.
  • División del tráfico: usa la función de división del tráfico de Cloud Run para hacer pruebas A/B con diferentes modelos, peticiones o configuraciones, y Google Cloud Observability para monitorizar las métricas (latencia, tasa de errores y coste) y medir el éxito de las pruebas A/B.

Siguientes pasos

En función de tu familiarización con los conceptos de IA y tu caso práctico de IA, consulta los recursos de IA de Cloud Run.