Documentación sobre la orquestación de IA y aprendizaje automático en Cloud Run

Cloud Run es una plataforma totalmente gestionada que te permite ejecutar tus aplicaciones en contenedores, incluidas las cargas de trabajo de IA y aprendizaje automático, directamente en la infraestructura escalable de Google. Se encarga de la infraestructura para que puedas centrarte en escribir el código en lugar de dedicar tiempo a operar, configurar y escalar tus recursos de Cloud Run. Las funciones de Cloud Run ofrecen lo siguiente:

  • Aceleradores de hardware: accede a GPUs y gestiónalas para hacer inferencias a gran escala.
  • Compatibilidad con frameworks: integra los frameworks de servicio de modelos que ya conoces y en los que confías, como Hugging Face, TGI y vLLM.
  • Plataforma gestionada: disfruta de todas las ventajas de una plataforma gestionada para automatizar, escalar y mejorar la seguridad de todo tu ciclo de vida de IA y aprendizaje automático, al tiempo que mantienes la flexibilidad.

Consulta nuestros tutoriales y prácticas recomendadas para ver cómo puede optimizar Cloud Run tus cargas de trabajo de IA y aprendizaje automático.

  • Desarrolla con nuestros modelos y herramientas de IA generativa más recientes.
  • Disfruta del uso gratuito de más de 20 productos populares, como Compute Engine y las APIs de IA.
  • Sin cargos automáticos ni permanencia.

Sigue explorando con más de 20 productos Always Free.

Accede a más de 20 productos gratuitos para casos prácticos habituales, como APIs de IA, máquinas virtuales, almacenes de datos y más.

Descubre formación a tu ritmo, casos prácticos, arquitecturas de referencia y ejemplos de código sobre cómo usar y conectar Google Cloud servicios.
Uso
Casos prácticos

Usa GPUs NVIDIA L4 en Cloud Run para hacer inferencias de IA en tiempo real, incluidas las ventajas de inicio en frío rápido y escalado a cero para modelos de lenguaje grandes (LLMs).

GPUs LLMs

Uso
Casos prácticos

Aprende a usar Cloud Run para crear aplicaciones de IA listas para producción. En esta guía se describen casos prácticos, como la división del tráfico para hacer pruebas A/B de las peticiones, los patrones de generación aumentada de recuperación (RAG) y la conectividad con almacenes de vectores.

Aplicaciones de IA División del tráfico para pruebas A/B Patrones de RAG Almacenes de vectores Conectividad con almacenes de vectores

Uso
Casos prácticos

Despliegue con un solo clic desde Google AI Studio a Cloud Run y al servidor MCP (Model Context Protocol) de Cloud Run para habilitar agentes de IA en IDEs o SDKs de agentes y desplegar aplicaciones.

Servidores de MCP despliegues Cloud Run

Uso
Casos prácticos

Integra las GPUs NVIDIA L4 con Cloud Run para ofrecer LLMs de forma rentable. En esta guía se hace hincapié en la escalada a cero y se proporcionan los pasos de implementación de modelos como Gemma 2 con Ollama.

LLMs GPU Ollama Optimización de costes

Uso
Casos prácticos

Desacopla los archivos de modelos grandes de la imagen de contenedor mediante Cloud Storage FUSE. El desacoplamiento mejora los tiempos de compilación, simplifica las actualizaciones y crea una arquitectura de servicio más escalable.

Empaquetado de modelos Cloud Storage FUSE Prácticas recomendadas Modelos grandes

Uso
Casos prácticos

Usa el framework Cog, optimizado para el servicio de aprendizaje automático, para simplificar el empaquetado y el despliegue de contenedores en Cloud Run.

Engranaje Empaquetado de modelos Implementación Tutorial

Uso
Casos prácticos

Usa Cloud Run para la inferencia de aprendizaje automático ligera y crea una pila de monitorización rentable con servicios nativos de Google Cloud, como Cloud Logging y BigQuery.

Monitorización MLOps Eficiencia de costes Inferencia

Uso
Casos prácticos

Despliega una aplicación Flask sencilla que llama a la API Generative AI de Vertex AI en un servicio de Cloud Run escalable.

IA generativa Vertex AI Flask Despliegue

Uso
Casos prácticos

Usa el código Python de Gemma de AI Studio y despliégalo directamente en una instancia de Cloud Run. Para ello, aprovecha Secret Manager para gestionar las claves de API de forma segura.

AI Studio Gemma Implementación Tutorial

Vídeos relacionados