Documentación de la organización de IA/AA en Cloud Run

Cloud Run es una plataforma completamente administrada que te permite ejecutar tus aplicaciones alojadas en contenedores, incluidas las cargas de trabajo de AA/ML, directamente en la infraestructura escalable de Google. Maneja la infraestructura por ti, para que puedas enfocarte en escribir tu código en lugar de dedicar tiempo a operar, configurar y escalar tus recursos de Cloud Run. Las capacidades de Cloud Run proporcionan lo siguiente:

  • Aceleradores de hardware: Accede a las GPUs y adminístralas para realizar inferencias a gran escala.
  • Compatibilidad con frameworks: Se integra con los frameworks de entrega de modelos que ya conoces y en los que confías, como Hugging Face, TGI y vLLM.
  • Plataforma administrada: Obtén todos los beneficios de una plataforma administrada para automatizar, escalar y mejorar la seguridad de todo tu ciclo de vida de IA/AA, sin dejar de ser flexible.

Explora nuestros instructivos y prácticas recomendadas para ver cómo Cloud Run puede optimizar tus cargas de trabajo de IA/AA.

  • Desarrolla con nuestros modelos y herramientas de IA generativa más recientes.
  • Usa de manera gratuita más de 20 productos populares, incluidos Compute Engine y las APIs de IA.
  • Sin cargos automáticos ni compromisos.

Sigue explorando con más de 20 productos siempre gratuitos.

Accede a más de 20 productos gratuitos para casos de uso comunes, incluidas APIs de IA, VMs, almacenes de datos y mucho más.

Explora la capacitación de autoaprendizaje, los casos de uso, las arquitecturas de referencia y las muestras de código con ejemplos de cómo usar y conectar los servicios de Google Cloud .
Caso de uso
Casos de uso

Usa las GPUs NVIDIA L4 en Cloud Run para la inferencia de IA en tiempo real, incluidos los beneficios de inicio en frío rápido y la reducción a cero para los modelos de lenguaje grande (LLM).

GPUs LLMs

Caso de uso
Casos de uso

Aprende a usar Cloud Run para aplicaciones de IA listas para la producción. En esta guía, se describen casos de uso, como la división del tráfico para las instrucciones de prueba A/B, los patrones de RAG (generación mejorada por recuperación) y la conectividad con los almacenes de vectores.

Aplicaciones de IA División del tráfico para pruebas A/B Patrones de RAG Almacenes de vectores Conectividad a almacenes de vectores

Caso de uso
Casos de uso

Implementación con un solo clic desde Google AI Studio en Cloud Run y el servidor de MCP (Model Context Protocol) de Cloud Run para habilitar agentes de IA en IDEs o SDKs de agentes, y para implementar apps

Servidores de MCP Implementaciones Cloud Run

Caso de uso
Casos de uso

Integra las GPUs NVIDIA L4 con Cloud Run para ofrecer LLM de manera rentable. En esta guía, se hace hincapié en la reducción a cero y se proporcionan los pasos de implementación para modelos como Gemma 2 con Ollama.

LLMs GPU Ollama Optimización de costos

Caso de uso
Casos de uso

Desacopla los archivos de modelos grandes de la imagen del contenedor con Cloud Storage FUSE. El desacoplamiento mejora los tiempos de compilación, simplifica las actualizaciones y crea una arquitectura de publicación más escalable.

Empaquetado de modelos Cloud Storage FUSE Prácticas recomendadas Modelos grandes

Caso de uso
Casos de uso

Usa el framework de Cog, que está optimizado para la entrega de AA, para simplificar el empaquetado y la implementación de contenedores en Cloud Run.

Cog Model Packaging Deployment Tutorial

Caso de uso
Casos de uso

Usa Cloud Run para la inferencia de AA liviana y compila una pila de supervisión rentable con servicios nativos de GCP, como Cloud Logging y BigQuery.

Supervisión MLOps Eficiencia de costos Inferencias

Caso de uso
Casos de uso

Implementa una aplicación de Flask simple que llame a la API de Vertex AI Generative AI en un servicio de Cloud Run escalable.

Generative AI Vertex AI Flask Deployment

Caso de uso
Casos de uso

Usa el código de Python de Gemma desde AI Studio y, luego, impleméntalo directamente en una instancia de Cloud Run, aprovechando Secret Manager para el manejo seguro de claves de API.

AI Studio Gemma Deployment Tutorial

Videos relacionados