Documentación sobre la orquestación de IA y aprendizaje automático en Cloud Run
Cloud Run es una plataforma totalmente gestionada que te permite ejecutar tus aplicaciones en contenedores, incluidas las cargas de trabajo de IA y aprendizaje automático, directamente en la infraestructura escalable de Google. Se encarga de la infraestructura para que puedas centrarte en escribir el código en lugar de dedicar tiempo a operar, configurar y escalar tus recursos de Cloud Run. Las funciones de Cloud Run ofrecen lo siguiente:
- Aceleradores de hardware: accede a GPUs y gestiónalas para hacer inferencias a gran escala.
- Compatibilidad con frameworks: integra los frameworks de servicio de modelos que ya conoces y en los que confías, como Hugging Face, TGI y vLLM.
- Plataforma gestionada: disfruta de todas las ventajas de una plataforma gestionada para automatizar, escalar y mejorar la seguridad de todo tu ciclo de vida de IA y aprendizaje automático, al tiempo que mantienes la flexibilidad.
Consulta nuestros tutoriales y prácticas recomendadas para ver cómo puede optimizar Cloud Run tus cargas de trabajo de IA y aprendizaje automático.
Empieza tu prueba de concepto con 300 USD en crédito gratis
- Desarrolla con nuestros modelos y herramientas de IA generativa más recientes.
- Disfruta del uso gratuito de más de 20 productos populares, como Compute Engine y las APIs de IA.
- Sin cargos automáticos ni permanencia.
Sigue explorando con más de 20 productos Always Free.
Accede a más de 20 productos gratuitos para casos prácticos habituales, como APIs de IA, máquinas virtuales, almacenes de datos y más.
Recursos de documentación
Ejecutar soluciones de IA
- Concepto
- Concepto
- Guía práctica
- Guía práctica
- Guía práctica
- Tutorial
- Concepto
- Concepto
Inferencia con GPUs
- Tutorial
- Guía práctica
- Tutorial
- Práctica recomendada
- Tutorial
- Tutorial
- Práctica recomendada
- Práctica recomendada
Solucionar problemas
- Concepto
- Guía práctica
- Guía práctica
- Guía práctica
Recursos relacionados
Ejecuta tus aplicaciones de inferencia de IA en Cloud Run con GPUs de NVIDIA
Usa GPUs NVIDIA L4 en Cloud Run para hacer inferencias de IA en tiempo real, incluidas las ventajas de inicio en frío rápido y escalado a cero para modelos de lenguaje grandes (LLMs).
Cloud Run: la forma más rápida de llevar tus aplicaciones de IA a producción
Aprende a usar Cloud Run para crear aplicaciones de IA listas para producción. En esta guía se describen casos prácticos, como la división del tráfico para hacer pruebas A/B de las peticiones, los patrones de generación aumentada de recuperación (RAG) y la conectividad con almacenes de vectores.
Despliegue de IA sencillo: despliega tu aplicación en Cloud Run desde AI Studio o agentes de IA compatibles con MCP
Despliegue con un solo clic desde Google AI Studio a Cloud Run y al servidor MCP (Model Context Protocol) de Cloud Run para habilitar agentes de IA en IDEs o SDKs de agentes y desplegar aplicaciones.
Potenciar Cloud Run con la potencia de las GPUs: una nueva era para las cargas de trabajo de IA
Integra las GPUs NVIDIA L4 con Cloud Run para ofrecer LLMs de forma rentable. En esta guía se hace hincapié en la escalada a cero y se proporcionan los pasos de implementación de modelos como Gemma 2 con Ollama.
¿Sigues empaquetando modelos de IA en contenedores? En su lugar, haz lo siguiente en Cloud Run
Desacopla los archivos de modelos grandes de la imagen de contenedor mediante Cloud Storage FUSE. El desacoplamiento mejora los tiempos de compilación, simplifica las actualizaciones y crea una arquitectura de servicio más escalable.
Empaqueta y despliega tus modelos de aprendizaje automático en Google Cloud con Cog
Usa el framework Cog, optimizado para el servicio de aprendizaje automático, para simplificar el empaquetado y el despliegue de contenedores en Cloud Run.
Despliegue y monitorización de modelos de aprendizaje automático con Cloud Run: ligero, escalable y rentable
Usa Cloud Run para la inferencia de aprendizaje automático ligera y crea una pila de monitorización rentable con servicios nativos de Google Cloud, como Cloud Logging y BigQuery.
Desplegar una aplicación de IA generativa de Google Cloud en un sitio web con Cloud Run
Despliega una aplicación Flask sencilla que llama a la API Generative AI de Vertex AI en un servicio de Cloud Run escalable.
Desplegar Gemma directamente desde AI Studio en Cloud Run
Usa el código Python de Gemma de AI Studio y despliégalo directamente en una instancia de Cloud Run. Para ello, aprovecha Secret Manager para gestionar las claves de API de forma segura.