Documentación de la organización de IA/AA en Cloud Run

Cloud Run es una plataforma completamente administrada que te permite ejecutar tus aplicaciones alojadas en contenedores, incluidas las cargas de trabajo de AA/ML, directamente en la infraestructura escalable de Google. Maneja la infraestructura por ti, para que puedas enfocarte en escribir tu código en lugar de dedicar tiempo a operar, configurar y escalar tus recursos de Cloud Run. Las capacidades de Cloud Run proporcionan lo siguiente:

  • Aceleradores de hardware: Accede a las GPUs y adminístralas para la inferencia a gran escala.
  • Compatibilidad con frameworks: Se integra con los frameworks de entrega de modelos que ya conoces y en los que confías, como Hugging Face, TGI y vLLM.
  • Plataforma administrada: Obtén todos los beneficios de una plataforma administrada para automatizar, escalar y mejorar la seguridad de todo tu ciclo de vida de la IA/AA, a la vez que mantienes la flexibilidad.

Explora nuestros instructivos y prácticas recomendadas para ver cómo Cloud Run puede optimizar tus cargas de trabajo de IA/AA.

  • Desarrolla con nuestros modelos y herramientas de IA generativa más recientes.
  • Usa de manera gratuita más de 20 productos populares, incluidos Compute Engine y las APIs de IA.
  • No tendrás cargos automáticos ni compromisos.

Sigue explorando con más de 20 productos siempre gratuitos.

Accede a más de 20 productos gratuitos para casos de uso comunes, incluidas las APIs de IA, las VMs, los almacenes de datos y mucho más.

Explora la capacitación de autoaprendizaje, los casos de uso, las arquitecturas de referencia y las muestras de código con ejemplos de cómo usar y conectar los servicios de Google Cloud .
Caso de uso
Casos de uso

Optimiza la latencia de inicio en frío para la inferencia de LLM en contenedores en con la configuración sin servidores y el ajuste del patrón de diseño de la arquitectura.

Inicios en frío Latencia Optimización LLMs

Caso de uso
Casos de uso

Configura y aplica reglas de autorización del Protocolo de contexto del modelo (MCP) para proteger la conectividad de herramientas remotas para los agentes de IA implementados en .

Seguridad MCP Agentes

Caso de uso
Casos de uso

Implementa aplicaciones de pila completa en directamente desde el modo de compilación de Google AI Studio con Firebase integrado y compatibilidad con copias de seguridad de .

AI Studio Firebase vibe coding

Caso de uso
Casos de uso

Usa las GPU NVIDIA L4 en para la inferencia de IA en tiempo real, incluidos los beneficios de inicio en frío rápido y reducción de escala a cero para los modelos de lenguaje grandes (LLM).

GPUs LLMs

Caso de uso
Casos de uso

Aprende a usar para aplicaciones basadas en IA listas para producción. En esta guía, se describen casos de uso, como la división del tráfico para las instrucciones de pruebas A/B, los patrones de RAG (generación mejorada por recuperación) y la conectividad con los almacenes de vectores.

Aplicaciones de IA División del tráfico para pruebas A/B Patrones de RAG Almacenes de vectores Conectividad a almacenes de vectores

Caso de uso
Casos de uso

Implementación con un solo clic desde Google AI Studio al servidor de y del MCP (Protocolo de contexto del modelo) para habilitar agentes de IA en IDE o SDKs de agentes, y para implementar apps

Servidores de MCP implementaciones

Caso de uso
Casos de uso

Integra las GPU NVIDIA L4 con para ofrecer LLM de manera rentable. En esta guía, se hace hincapié en la reducción de escala a cero y se proporcionan los pasos de implementación para modelos como 2 con Ollama.

LLMs GPU Ollama Optimización de costos

Caso de uso
Casos de uso

Desacopla los archivos de modelos grandes de la imagen del contenedor con . El desacoplamiento mejora los tiempos de compilación, simplifica las actualizaciones y crea una arquitectura de publicación más escalable.

Empaquetado de modelos Prácticas recomendadas Modelos grandes

Caso de uso
Casos de uso

Usa el framework de Cog optimizado para la entrega de AA para simplificar el empaquetado y la implementación de contenedores en .

Cog Model Packaging Deployment Tutorial

Caso de uso
Casos de uso

Usa para la inferencia de AA liviana y crea una pila de supervisión rentable con los servicios nativos de , como y .

Supervisión MLOps Eficiencia de costos Inferencia

Videos relacionados