Documentación de la organización de IA/AA en Cloud Run
Cloud Run es una plataforma completamente administrada que te permite ejecutar tus aplicaciones alojadas en contenedores, incluidas las cargas de trabajo de AA/ML, directamente en la infraestructura escalable de Google. Maneja la infraestructura por ti, para que puedas enfocarte en escribir tu código en lugar de dedicar tiempo a operar, configurar y escalar tus recursos de Cloud Run. Las capacidades de Cloud Run proporcionan lo siguiente:
- Aceleradores de hardware: Accede a las GPUs y adminístralas para la inferencia a gran escala.
- Compatibilidad con frameworks: Se integra con los frameworks de entrega de modelos que ya conoces y en los que confías, como Hugging Face, TGI y vLLM.
- Plataforma administrada: Obtén todos los beneficios de una plataforma administrada para automatizar, escalar y mejorar la seguridad de todo tu ciclo de vida de la IA/AA, a la vez que mantienes la flexibilidad.
Explora nuestros instructivos y prácticas recomendadas para ver cómo Cloud Run puede optimizar tus cargas de trabajo de IA/AA.
Comienza tu prueba de concepto con un crédito gratis de $300
- Desarrolla con nuestros modelos y herramientas de IA generativa más recientes.
- Usa de manera gratuita más de 20 productos populares, incluidos Compute Engine y las APIs de IA.
- No tendrás cargos automáticos ni compromisos.
Sigue explorando con más de 20 productos siempre gratuitos.
Accede a más de 20 productos gratuitos para casos de uso comunes, incluidas las APIs de IA, las VMs, los almacenes de datos y mucho más.
Recursos de documentación
Ejecuta soluciones de IA
- Concepto
- Concepto
- Instructivo
- Instructivo
- Instructivo
- Instructivo
- Concepto
- Concepto
- Instructivo
- Instructivo
Inferencia con GPUs
- Instructivo
- Instructivo
- Instructivo
- Práctica recomendada
- Instructivo
- Instructivo
- Práctica recomendada
- Práctica recomendada
Solucionar problemas
- Concepto
- Instructivo
- Instructivo
- Instructivo
Recursos relacionados
Guía para el inicio en frío de la IA en
Optimiza la latencia de inicio en frío para la inferencia de LLM en contenedores en con la configuración sin servidores y el ajuste del patrón de diseño de la arquitectura.
Protección de agentes de IA con autorización de MCP
Configura y aplica reglas de autorización del Protocolo de contexto del modelo (MCP) para proteger la conectividad de herramientas remotas para los agentes de IA implementados en .
AI Studio desbloquea el vibe coding de full stack con , Firebase y , sin necesidad de tarjeta de crédito
Implementa aplicaciones de pila completa en directamente desde el modo de compilación de Google AI Studio con Firebase integrado y compatibilidad con copias de seguridad de .
Ejecuta tus aplicaciones de inferencia de IA en con GPUs de NVIDIA
Usa las GPU NVIDIA L4 en para la inferencia de IA en tiempo real, incluidos los beneficios de inicio en frío rápido y reducción de escala a cero para los modelos de lenguaje grandes (LLM).
: La forma más rápida de llevar tus aplicaciones basadas en IA a producción
Aprende a usar para aplicaciones basadas en IA listas para producción. En esta guía, se describen casos de uso, como la división del tráfico para las instrucciones de pruebas A/B, los patrones de RAG (generación mejorada por recuperación) y la conectividad con los almacenes de vectores.
Implementación de IA simplificada: Implementa tu app en desde AI Studio o agentes de IA compatibles con MCP
Implementación con un solo clic desde Google AI Studio al servidor de y del MCP (Protocolo de contexto del modelo) para habilitar agentes de IA en IDE o SDKs de agentes, y para implementar apps
Potenciación con la potencia de la GPU: Una nueva era para las cargas de trabajo de IA
Integra las GPU NVIDIA L4 con para ofrecer LLM de manera rentable. En esta guía, se hace hincapié en la reducción de escala a cero y se proporcionan los pasos de implementación para modelos como 2 con Ollama.
¿Aún empaquetas modelos de IA en contenedores? En su lugar, haz lo siguiente en
Desacopla los archivos de modelos grandes de la imagen del contenedor con . El desacoplamiento mejora los tiempos de compilación, simplifica las actualizaciones y crea una arquitectura de publicación más escalable.
Empaqueta e implementa tus modelos de aprendizaje automático en con Cog
Usa el framework de Cog optimizado para la entrega de AA para simplificar el empaquetado y la implementación de contenedores en .
Implementación y supervisión de modelos de AA con : Ligero, escalable y rentable
Usa para la inferencia de AA liviana y crea una pila de supervisión rentable con los servicios nativos de , como y .