Documentación sobre la orquestación de IA y aprendizaje automático en Cloud Run

Leer documentación del producto

Cloud Run es una plataforma totalmente gestionada que te permite ejecutar tus aplicaciones en contenedores, incluidas las cargas de trabajo de IA y aprendizaje automático, directamente en la infraestructura escalable de Google. Se encarga de la infraestructura para que puedas centrarte en escribir el código en lugar de dedicar tiempo a operar, configurar y escalar tus recursos de Cloud Run. Las funciones de Cloud Run ofrecen lo siguiente:

Aceleradores de hardware: accede a GPUs y gestiónalas para hacer inferencias a gran escala.
Compatibilidad con frameworks: integra los frameworks de servicio de modelos que ya conoces y en los que confías, como Hugging Face, TGI y vLLM.
Plataforma gestionada: disfruta de todas las ventajas de una plataforma gestionada para automatizar, escalar y mejorar la seguridad de todo tu ciclo de vida de IA y aprendizaje automático, al tiempo que mantienes la flexibilidad.

Consulta nuestros tutoriales y prácticas recomendadas para ver cómo puede optimizar Cloud Run tus cargas de trabajo de IA y aprendizaje automático.

Empieza gratis

Empieza tu prueba de concepto con 300 USD en crédito gratis

Desarrolla con nuestros modelos y herramientas de IA generativa más recientes.
Disfruta del uso gratuito de más de 20 productos populares, como Compute Engine y las APIs de IA.
Sin cargos automáticos ni permanencia.

Ver ofertas de productos gratuitas

Sigue explorando con más de 20 productos Always Free.

Accede a más de 20 productos gratuitos para casos prácticos habituales, como APIs de IA, máquinas virtuales, almacenes de datos y más.

Recursos de documentación

Encuentra guías de inicio rápido y manuales, revisa las referencias clave y obtén ayuda con problemas habituales.

Descubre formación a tu ritmo, casos prácticos, arquitecturas de referencia y ejemplos de código sobre cómo usar y conectar Google Cloud servicios.

Uso

Ejecuta tus aplicaciones de inferencia de IA en Cloud Run con GPUs de NVIDIA

Usa GPUs NVIDIA L4 en Cloud Run para hacer inferencias de IA en tiempo real, incluidas las ventajas de inicio en frío rápido y escalado a cero para modelos de lenguaje grandes (LLMs).

GPUs LLMs

Uso

Cloud Run: la forma más rápida de llevar tus aplicaciones de IA a producción

Aprende a usar Cloud Run para crear aplicaciones de IA listas para producción. En esta guía se describen casos prácticos, como la división del tráfico para hacer pruebas A/B de las peticiones, los patrones de generación aumentada de recuperación (RAG) y la conectividad con almacenes de vectores.

Aplicaciones de IA División del tráfico para pruebas A/B Patrones de RAG Almacenes de vectores Conectividad con almacenes de vectores

Uso

Despliegue de IA sencillo: despliega tu aplicación en Cloud Run desde AI Studio o agentes de IA compatibles con MCP

Despliegue con un solo clic desde Google AI Studio a Cloud Run y al servidor MCP (Model Context Protocol) de Cloud Run para habilitar agentes de IA en IDEs o SDKs de agentes y desplegar aplicaciones.

Servidores de MCP despliegues Cloud Run

Uso

Potenciar Cloud Run con la potencia de las GPUs: una nueva era para las cargas de trabajo de IA

Integra las GPUs NVIDIA L4 con Cloud Run para ofrecer LLMs de forma rentable. En esta guía se hace hincapié en la escalada a cero y se proporcionan los pasos de implementación de modelos como Gemma 2 con Ollama.

LLMs GPU Ollama Optimización de costes

Uso

¿Sigues empaquetando modelos de IA en contenedores? En su lugar, haz lo siguiente en Cloud Run

Desacopla los archivos de modelos grandes de la imagen de contenedor mediante Cloud Storage FUSE. El desacoplamiento mejora los tiempos de compilación, simplifica las actualizaciones y crea una arquitectura de servicio más escalable.

Empaquetado de modelos Cloud Storage FUSE Prácticas recomendadas Modelos grandes

Uso

Empaqueta y despliega tus modelos de aprendizaje automático en Google Cloud con Cog

Usa el framework Cog, optimizado para el servicio de aprendizaje automático, para simplificar el empaquetado y el despliegue de contenedores en Cloud Run.

Engranaje Empaquetado de modelos Implementación Tutorial

Uso

Despliegue y monitorización de modelos de aprendizaje automático con Cloud Run: ligero, escalable y rentable

Usa Cloud Run para la inferencia de aprendizaje automático ligera y crea una pila de monitorización rentable con servicios nativos de Google Cloud, como Cloud Logging y BigQuery.

Monitorización MLOps Eficiencia de costes Inferencia

Uso

Desplegar una aplicación de IA generativa de Google Cloud en un sitio web con Cloud Run

Despliega una aplicación Flask sencilla que llama a la API Generative AI de Vertex AI en un servicio de Cloud Run escalable.

IA generativa Vertex AI Flask Despliegue

Uso

Desplegar Gemma directamente desde AI Studio en Cloud Run

Usa el código Python de Gemma de AI Studio y despliégalo directamente en una instancia de Cloud Run. Para ello, aprovecha Secret Manager para gestionar las claves de API de forma segura.

AI Studio Gemma Implementación Tutorial

Documentación sobre la orquestación de IA y aprendizaje automático en Cloud Run

Empieza tu prueba de concepto con 300 USD en crédito gratis

Sigue explorando con más de 20 productos Always Free.

Ejecutar soluciones de IA

Inferencia con GPUs

Solucionar problemas

Vídeos relacionados