Documentación de la organización de IA/AA en Cloud Run

Leer la documentación del producto

Cloud Run es una plataforma completamente administrada que te permite ejecutar tus aplicaciones alojadas en contenedores, incluidas las cargas de trabajo de AA/ML, directamente en la infraestructura escalable de Google. Maneja la infraestructura por ti, para que puedas enfocarte en escribir tu código en lugar de dedicar tiempo a operar, configurar y escalar tus recursos de Cloud Run. Las capacidades de Cloud Run proporcionan lo siguiente:

Aceleradores de hardware: Accede a las GPUs y adminístralas para realizar inferencias a gran escala.
Compatibilidad con frameworks: Se integra con los frameworks de entrega de modelos que ya conoces y en los que confías, como Hugging Face, TGI y vLLM.
Plataforma administrada: Obtén todos los beneficios de una plataforma administrada para automatizar, escalar y mejorar la seguridad de todo tu ciclo de vida de IA/AA, sin dejar de ser flexible.

Explora nuestros instructivos y prácticas recomendadas para ver cómo Cloud Run puede optimizar tus cargas de trabajo de IA/AA.

Comenzar gratis

Comienza tu prueba de concepto con un crédito gratis de $300

Desarrolla con nuestros modelos y herramientas de IA generativa más recientes.
Usa de manera gratuita más de 20 productos populares, incluidos Compute Engine y las APIs de IA.
Sin cargos automáticos ni compromisos.

Consultar las ofertas de productos gratuitos

Sigue explorando con más de 20 productos siempre gratuitos.

Accede a más de 20 productos gratuitos para casos de uso comunes, incluidas APIs de IA, VMs, almacenes de datos y mucho más.

Recursos de documentación

Encuentra guías de inicio rápido y otras guías, revisa las referencias clave y obtén ayuda con problemas habituales.

Explora la capacitación de autoaprendizaje, los casos de uso, las arquitecturas de referencia y las muestras de código con ejemplos de cómo usar y conectar los servicios de Google Cloud .

Caso de uso

Ejecuta tus aplicaciones de inferencia de IA en Cloud Run con GPUs de NVIDIA

Usa las GPUs NVIDIA L4 en Cloud Run para la inferencia de IA en tiempo real, incluidos los beneficios de inicio en frío rápido y la reducción a cero para los modelos de lenguaje grande (LLM).

GPUs LLMs

Caso de uso

Cloud Run: La forma más rápida de llevar tus aplicaciones basadas en IA a producción

Aprende a usar Cloud Run para aplicaciones de IA listas para la producción. En esta guía, se describen casos de uso, como la división del tráfico para las instrucciones de prueba A/B, los patrones de RAG (generación mejorada por recuperación) y la conectividad con los almacenes de vectores.

Aplicaciones de IA División del tráfico para pruebas A/B Patrones de RAG Almacenes de vectores Conectividad a almacenes de vectores

Caso de uso

Implementación de IA simplificada: Implementa tu app en Cloud Run desde AI Studio o agentes de IA compatibles con MCP

Implementación con un solo clic desde Google AI Studio en Cloud Run y el servidor de MCP (Model Context Protocol) de Cloud Run para habilitar agentes de IA en IDEs o SDKs de agentes, y para implementar apps

Servidores de MCP Implementaciones Cloud Run

Caso de uso

Potencia Cloud Run con la potencia de las GPU: Una nueva era para las cargas de trabajo de IA

Integra las GPUs NVIDIA L4 con Cloud Run para ofrecer LLM de manera rentable. En esta guía, se hace hincapié en la reducción a cero y se proporcionan los pasos de implementación para modelos como Gemma 2 con Ollama.

LLMs GPU Ollama Optimización de costos

Caso de uso

¿Aún empaquetas modelos de IA en contenedores? En su lugar, haz lo siguiente en Cloud Run:

Desacopla los archivos de modelos grandes de la imagen del contenedor con Cloud Storage FUSE. El desacoplamiento mejora los tiempos de compilación, simplifica las actualizaciones y crea una arquitectura de publicación más escalable.

Empaquetado de modelos Cloud Storage FUSE Prácticas recomendadas Modelos grandes

Caso de uso

Empaqueta e implementa tus modelos de aprendizaje automático en Google Cloud con Cog

Usa el framework de Cog, que está optimizado para la entrega de AA, para simplificar el empaquetado y la implementación de contenedores en Cloud Run.

Cog Model Packaging Deployment Tutorial

Caso de uso

Implementación y supervisión de modelos de AA con Cloud Run: Ligero, escalable y rentable

Usa Cloud Run para la inferencia de AA liviana y compila una pila de supervisión rentable con servicios nativos de GCP, como Cloud Logging y BigQuery.

Supervisión MLOps Eficiencia de costos Inferencias

Caso de uso

Implementa una app de IA generativa de Google Cloud en un sitio web con Cloud Run

Implementa una aplicación de Flask simple que llame a la API de Vertex AI Generative AI en un servicio de Cloud Run escalable.

Generative AI Vertex AI Flask Deployment

Caso de uso

Implementa Gemma directamente desde AI Studio en Cloud Run

Usa el código de Python de Gemma desde AI Studio y, luego, impleméntalo directamente en una instancia de Cloud Run, aprovechando Secret Manager para el manejo seguro de claves de API.

AI Studio Gemma Deployment Tutorial

Documentación de la organización de IA/AA en Cloud Run

Comienza tu prueba de concepto con un crédito gratis de $300

Sigue explorando con más de 20 productos siempre gratuitos.

Ejecuta soluciones de IA

Inferencia con GPUs

Solucionar problemas

Videos relacionados