Casos de uso de la IA en Cloud Run

Ya sea que estés creando agentes, ejecutando modelos de inferencia o integrándote con varios servicios de IA, Cloud Run proporciona la escalabilidad, la flexibilidad y la facilidad de uso necesarias para hacer realidad tus innovaciones basadas en IA.

En esta página, se destacan algunos casos de uso de alto nivel para alojar, compilar y, luego, implementar cargas de trabajo de IA en Cloud Run.

¿Por qué usar Cloud Run para cargas de trabajo de IA?

Cloud Run ofrece varias ventajas para garantizar que tus aplicaciones de IA sean escalables, flexibles y fáciles de administrar. Estos son algunos aspectos destacados:

  • Compatibilidad con contenedores flexibles: Empaqueta tu app y sus dependencias en un contenedor, o bien usa cualquier lenguaje, biblioteca o framework admitidos. Obtén más información sobre el contrato del entorno de ejecución de contenedores de Cloud Run.
  • Extremo HTTP: Después de implementar un servicio de Cloud Run, recibe un extremo de URL de Cloud Run seguro y listo para usar. Cloud Run proporciona transmisión a través de la codificación de transferencia fragmentada HTTP, HTTP/2 y WebSockets compatibles.
  • Ajuste de escala automático o manual: De forma predeterminada, Cloud Run ajusta automáticamente la escala de tu servicio según la demanda, incluso hasta cero. Esto garantiza que solo pagues por lo que usas, lo que lo hace ideal para cargas de trabajo de IA impredecibles. También puedes configurar tu servicio para que se escale de forma manual según tus necesidades de tráfico y uso de CPU.
  • Compatibilidad con GPU: Acelera tus modelos de IA configurando recursos de Cloud Run con GPU. Los servicios de Cloud Run con GPUs habilitadas pueden reducir la escala verticalmente a cero para ahorrar costos cuando no están en uso.

  • Ecosistema integrado: Conéctate sin problemas a otros Google Cloud servicios, como Vertex AI, BigQuery, Cloud SQL, Memorystore, Pub/Sub, AlloyDB para PostgreSQL, Cloud CDN, Secret Manager y dominios personalizados para compilar canalizaciones de IA integrales de extremo a extremo. Google Cloud Observability también proporciona herramientas integradas de supervisión y registro para comprender el rendimiento de las aplicaciones y solucionar problemas de manera eficaz.

Casos de uso clave de la IA

Estas son algunas formas en las que puedes usar Cloud Run para potenciar tus aplicaciones basadas en IA:

Aloja agentes y bots de IA

Cloud Run es una plataforma ideal para alojar la lógica de backend de agentes basados en IA, chatbots y asistentes virtuales. Estos agentes pueden coordinar llamadas a modelos de IA, como Gemini en Vertex AI, administrar el estado y realizar integraciones con diversas herramientas y APIs.

  • Microservicios para agentes: Implementa capacidades individuales del agente como servicios separados de Cloud Run. Consulta Cómo alojar agentes de IA para obtener más información.
  • Comunicación Agent2Agent (A2A): Crea sistemas de agentes colaborativos con el protocolo A2A. Consulta Cómo alojar agentes de A2A para obtener más información.
  • Servidores del Protocolo de contexto del modelo (MCP): Implementa servidores MCP para proporcionar contexto estandarizado a los LLM desde tus herramientas y fuentes de datos. Consulta Cómo alojar servidores de MCP para obtener más información.

Entrega modelos de IA/AA para la inferencia

Implementa tus modelos de aprendizaje automático entrenados como extremos HTTP escalables.

  • Inferencia en tiempo real: Entrega predicciones de modelos creados con frameworks como TensorFlow, PyTorch, scikit-learn o con modelos abiertos como Gemma. Consulta Cómo ejecutar Gemma 3 en Cloud Run para ver un ejemplo.
  • Aceleración por GPU: Usa GPUs de NVIDIA para acelerar la inferencia en modelos más exigentes. Consulta Cómo configurar la GPU para los servicios para obtener más información.
  • Integración con Vertex AI: Entrega modelos entrenados o implementados en Vertex AI con Cloud Run como frontend escalable.
  • Desvincula los archivos de modelos grandes de tu contenedor: El adaptador de Cloud Storage FUSE te permite activar un bucket de Cloud Storage y hacerlo accesible como un directorio local dentro de tu contenedor de Cloud Run.

Crea sistemas de generación mejorada por recuperación (RAG)

Crea aplicaciones de RAG conectando servicios de Cloud Run a tus fuentes de datos.

  • Bases de datos vectoriales: Conéctate a bases de datos vectoriales alojadas en Cloud SQL (con pgvector), AlloyDB para PostgreSQL, Memorystore para Redis o cualquier otro almacén de vectores especializado para recuperar contexto relevante para tus LLM. Consulta un ejemplo de infraestructura para usar Cloud Run y alojar una aplicación de IA generativa compatible con RAG, y procesar datos con Vertex AI y Vector Search.
  • Acceso a los datos: Recupera datos de Cloud Storage, BigQuery, Firestore o de otras APIs para enriquecer las instrucciones.

Aloja APIs y backends potenciados por IA

Crea APIs y microservicios que incorporen capacidades de IA.

  • APIs inteligentes: Desarrolla APIs que usen LLMs para la comprensión del lenguaje natural, el análisis de opiniones, la traducción, el resumen, etcétera.
  • Flujos de trabajo automatizados: Crea servicios que activen acciones basadas en IA según eventos o solicitudes.

Crea prototipos y experimenta con ideas

Itera rápidamente sobre las ideas de IA.

  • Implementación rápida: Mueve rápidamente prototipos de entornos como Vertex AI Studio, Google AI Studio o notebooks de Jupyter a implementaciones escalables en Cloud Run con una configuración mínima.
  • División del tráfico: Usa la función de división del tráfico de Cloud Run para realizar pruebas A/B de diferentes modelos, instrucciones o configuraciones, y Google Cloud Observability para supervisar las métricas (latencia, tasa de errores, costo) y medir el éxito de las pruebas A/B.

¿Qué sigue?

Según tu familiaridad con los conceptos de IA y tu caso de uso de IA, explora los recursos de IA de Cloud Run.