Documentación de la organización de IA/AA en Cloud Run
Cloud Run es una plataforma completamente administrada que te permite ejecutar tus aplicaciones alojadas en contenedores, incluidas las cargas de trabajo de AA/ML, directamente en la infraestructura escalable de Google. Maneja la infraestructura por ti, para que puedas enfocarte en escribir tu código en lugar de dedicar tiempo a operar, configurar y escalar tus recursos de Cloud Run. Las capacidades de Cloud Run proporcionan lo siguiente:
- Aceleradores de hardware: Accede a las GPUs y adminístralas para realizar inferencias a gran escala.
- Compatibilidad con frameworks: Se integra con los frameworks de entrega de modelos que ya conoces y en los que confías, como Hugging Face, TGI y vLLM.
- Plataforma administrada: Obtén todos los beneficios de una plataforma administrada para automatizar, escalar y mejorar la seguridad de todo tu ciclo de vida de IA/AA, sin dejar de ser flexible.
Explora nuestros instructivos y prácticas recomendadas para ver cómo Cloud Run puede optimizar tus cargas de trabajo de IA/AA.
Comienza tu prueba de concepto con un crédito gratis de $300
- Desarrolla con nuestros modelos y herramientas de IA generativa más recientes.
- Usa de manera gratuita más de 20 productos populares, incluidos Compute Engine y las APIs de IA.
- Sin cargos automáticos ni compromisos.
Sigue explorando con más de 20 productos siempre gratuitos.
Accede a más de 20 productos gratuitos para casos de uso comunes, incluidas APIs de IA, VMs, almacenes de datos y mucho más.
Recursos de documentación
Ejecuta soluciones de IA
- Concepto
- Concept
- Instructivo
- Instructivo
- Instructivo
- Instructivo
- Concept
- Concept
Inferencia con GPUs
- Instructivo
- Instructivo
- Instructivo
- Práctica recomendada
- Instructivo
- Instructivo
- Práctica recomendada
- Práctica recomendada
Solucionar problemas
- Concept
- Instructivo
- Instructivo
- Instructivo
Recursos relacionados
Ejecuta tus aplicaciones de inferencia de IA en Cloud Run con GPUs de NVIDIA
Usa las GPUs NVIDIA L4 en Cloud Run para la inferencia de IA en tiempo real, incluidos los beneficios de inicio en frío rápido y la reducción a cero para los modelos de lenguaje grande (LLM).
Cloud Run: La forma más rápida de llevar tus aplicaciones basadas en IA a producción
Aprende a usar Cloud Run para aplicaciones de IA listas para la producción. En esta guía, se describen casos de uso, como la división del tráfico para las instrucciones de prueba A/B, los patrones de RAG (generación mejorada por recuperación) y la conectividad con los almacenes de vectores.
Implementación de IA simplificada: Implementa tu app en Cloud Run desde AI Studio o agentes de IA compatibles con MCP
Implementación con un solo clic desde Google AI Studio en Cloud Run y el servidor de MCP (Model Context Protocol) de Cloud Run para habilitar agentes de IA en IDEs o SDKs de agentes, y para implementar apps
Potencia Cloud Run con la potencia de las GPU: Una nueva era para las cargas de trabajo de IA
Integra las GPUs NVIDIA L4 con Cloud Run para ofrecer LLM de manera rentable. En esta guía, se hace hincapié en la reducción a cero y se proporcionan los pasos de implementación para modelos como Gemma 2 con Ollama.
¿Aún empaquetas modelos de IA en contenedores? En su lugar, haz lo siguiente en Cloud Run:
Desacopla los archivos de modelos grandes de la imagen del contenedor con Cloud Storage FUSE. El desacoplamiento mejora los tiempos de compilación, simplifica las actualizaciones y crea una arquitectura de publicación más escalable.
Empaqueta e implementa tus modelos de aprendizaje automático en Google Cloud con Cog
Usa el framework de Cog, que está optimizado para la entrega de AA, para simplificar el empaquetado y la implementación de contenedores en Cloud Run.
Implementación y supervisión de modelos de AA con Cloud Run: Ligero, escalable y rentable
Usa Cloud Run para la inferencia de AA liviana y compila una pila de supervisión rentable con servicios nativos de GCP, como Cloud Logging y BigQuery.
Implementa una app de IA generativa de Google Cloud en un sitio web con Cloud Run
Implementa una aplicación de Flask simple que llame a la API de Vertex AI Generative AI en un servicio de Cloud Run escalable.
Implementa Gemma directamente desde AI Studio en Cloud Run
Usa el código de Python de Gemma desde AI Studio y, luego, impleméntalo directamente en una instancia de Cloud Run, aprovechando Secret Manager para el manejo seguro de claves de API.