Ir al contenido principal
Google Cloud Documentation
Áreas de tecnología
  • IA y AA
  • Desarrollo de aplicaciones
  • Hosting de aplicaciones
  • Procesamiento
  • Canalizaciones y análisis de datos
  • Bases de datos
  • Nubes distribuidas, híbridas y múltiples
  • IA generativa
  • Soluciones de la industria
  • Redes
  • Observabilidad y supervisión
  • Seguridad
  • Storage
Herramientas para uso entre productos
  • Administración de accesos y recursos
  • Administración de uso y costos
  • Infraestructura como código
  • Migración
  • SDK, lenguajes, frameworks y herramientas
/
Consola
  • English
  • Deutsch
  • Español – América Latina
  • Français
  • Português – Brasil
  • 中文 – 简体
  • 日本語
  • 한국어
Acceder
  • Cloud Run
Comenzar gratis
Descripción general Guías Referencia Ejemplos Recursos
Google Cloud Documentation
  • Áreas de tecnología
    • Más
    • Descripción general
    • Guías
    • Referencia
    • Ejemplos
    • Recursos
  • Herramientas para uso entre productos
    • Más
  • Consola
  • Descubrimiento
  • Descripción general del producto
  • Modelo de recursos de Cloud Run
  • Contrato de entorno de ejecución del contenedor
  • Casos de uso
    • ¿Mi app es adecuada para un servicio de Cloud Run?
    • ¿Cuándo debo implementar una función?
    • Casos de uso de la IA en Cloud Run
  • Comenzar
  • Descripción general
  • Implementa un servicio web de muestra
    • Implementar un contenedor de muestra
    • Implementa desde un repositorio de Git
    • Implementa un servicio de Hello World desde el código fuente
      • Go
      • Node.js
      • Python
        • Flask
        • FastAPI
        • Gradio
        • Streamlit
        • Kit de desarrollo de agentes (ADK) para Python
      • Java
      • Kotlin
      • C#
      • C++
      • PHP
      • Ruby
      • Otros
      • Frameworks
        • Descripción general
        • SSR de Angular
        • Next.js
        • Nuxt.js
        • SvelteKit
  • Implementa una función de muestra
    • Implementa una función con la consola
    • Implementa una función con gcloud
  • Ejecuta un trabajo de muestra
    • Ejecuta un trabajo
    • Ejecuta un trabajo desde un código fuente
      • Go
      • Node.js
      • Python
      • Java
      • Shell
  • Implementa un grupo de trabajadores de muestra
  • Desarrollo
  • Cómo configurar tu entorno
  • Planificar y preparar tu servicio
    • Desarrollar tu servicio
    • Alojar tu código en contenedores
    • Conéctate a los servicios de Google Cloud
    • Instalar un paquete de sistema en tu contenedor
    • Ejecutar comandos de gcloud en tu contenedor
  • Planifica y prepara tu función
    • Descripción general
    • Compara Cloud Run Functions
    • Escribe funciones de Cloud Run
    • Entornos de ejecución
      • Descripción general
      • Node.js
        • Descripción general
        • Dependencias de Node.js
      • Python
        • Descripción general
        • Dependencias de Python
      • Go
        • Descripción general
        • Dependencias de Go
      • Java
        • Descripción general
        • Dependencias de Java
      • .NET
      • Ruby
      • PHP
    • Desarrollo de funciones locales
    • Activadores de funciones
    • Instructivos
      • Crea una función que devuelva resultados de BigQuery
      • Crea una función que devuelva resultados de Spanner
      • Integrarse a bases de datos de Cloud
      • Codelabs
  • Compilación y prueba
    • Compila fuentes en contenedores
    • Compila funciones en contenedores
    • Cómo realizar pruebas locales
  • Entregar solicitudes HTTP
  • Implementa servicios
    • Implementar imágenes de contenedor
    • Implementación continua desde Git
    • Implementa desde el código fuente
    • Implementa desde Compose
    • Implementa funciones
  • Entrega tráfico web
    • Asigna dominios personalizados
    • Entrega recursos estáticos con CDN
    • Entrega tráfico desde varias regiones
    • Habilita la afinidad de sesión
    • Proxy de frontend con Nginx
  • Administrar servicios
    • Visualizar, copiar o borrar servicios
    • Ver o borrar revisiones
    • Migración de tráfico, lanzamientos graduales y reversiones
  • Configurar servicios
    • Descripción general
    • Capacidad
      • Límites de memoria
      • Límites de CPU
      • GPU
        • Configuración de GPU
        • Prácticas recomendadas para el rendimiento de la GPU
      • Tiempo de espera de la solicitud
      • Máximo de solicitudes simultáneas
        • Acerca de la cantidad máxima de solicitudes simultáneas por instancia
        • Configurar la cantidad máxima de solicitudes simultáneas
      • Facturación
      • Optimizar las configuraciones de servicios con el recomendador
    • Entorno
      • Puerto y punto de entrada del contenedor
      • Variables de entorno
      • Activaciones de volúmenes
        • Volúmenes de Cloud Storage
        • Volúmenes NFS
        • Volúmenes en memoria
        • CIFS/SMB
      • Entorno de ejecución
        • Descripción general
        • Seleccionar un entorno de ejecución
      • Verificaciones de estado de los contenedores
      • Solicitudes HTTP/2
      • Secrets
      • Identidad del servicio
    • Escalamiento
      • Información sobre el ajuste de escala automático de instancias para servicios
      • Cantidad máxima de instancias
        • Acerca de la cantidad máxima de instancias para los servicios
        • Configura la cantidad máxima de instancias
      • Cantidad mínima de instancias
      • Ajuste de escala manual
    • Metadata
      • Descripción
      • Etiquetas
      • Etiquetas
    • Opciones de configuración de la implementación de origen
      • Entornos de ejecución de lenguajes y las imágenes base compatibles
      • Configura actualizaciones automáticas de imágenes base
      • Variables de entorno de compilación
      • Crea la cuenta de servicio
      • Crea grupos de trabajadores
  • Invocar y activar servicios
    • Invoca con solicitudes HTTPS
    • Alojar un destino del webhook
    • Transmite con WebSockets
      • Descripción general
      • Instructivo para compilar un servicio de chat de WebSocket
    • Invocar de forma asíncrona
      • Invocar servicios según un programa
      • Crear un flujo de trabajo
        • Invocar servicios como parte de un flujo de trabajo
        • Instructivo para conectar una serie de servicios desde Cloud Functions y Cloud Run
      • Ejecutar tareas asíncronas
      • Llamar a un servicio desde una suscripción de envío a Pub/Sub
        • Activar el servicio de Pub/Sub
        • Instructivo de muestra para integrar el procesamiento de imágenes en Pub/Sub
    • Activar a partir de eventos
      • Crear activadores con Eventarc
      • Activadores de Pub/Sub
        • Crea activadores de Pub/Sub EventArc
        • Activa funciones desde Pub/Sub con Eventarc
        • Activa funciones desde entradas de registro enrutadas
      • Activadores de Cloud Storage
        • Crea activadores con Cloud Storage
        • Activar servicios desde Cloud Storage con Eventarc
        • Activar funciones desde Cloud Storage con Eventarc
      • Activadores de Firestore
        • Crea activadores con Firestore
        • Activa funciones a partir de eventos en una base de datos de Firestore
    • Conectarse con otros servicios con gRPC
  • Prácticas recomendadas
    • Sugerencias generales de desarrollo para los servicios
    • Optimizar los servicios de Java
    • Optimizar los servicios de Python
    • Optimiza los servicios de Node.js
    • Prácticas recomendadas para las pruebas de carga
    • Comprender la redundancia zonal
    • Prácticas recomendadas para las funciones
      • Descripción general
      • Configura los reintentos de funciones controladas por eventos
  • Ejecuta las tareas del trabajo hasta su finalización
  • Crear trabajos
  • Ejecuta trabajos
    • Ejecuta trabajos
    • Ejecuta trabajos programados
    • Ejecuta trabajos de Workflows
  • Configurar trabajos
    • Punto de entrada del contenedor
    • Límites de CPU
    • Límites de memoria
    • GPU
      • Configuración de GPU
      • Prácticas recomendadas de GPU
    • Variables de entorno
    • Verificaciones de estado de los contenedores
    • Activaciones de volúmenes
      • Volúmenes de Cloud Storage
      • Volúmenes NFS
      • Volúmenes en memoria
      • Otros sistemas de archivos de red
      • Usa sistemas de archivos de red CIFS/SMB
    • Etiquetas
    • Máximo de reintentos
    • Paralelismo
    • Secrets
    • Identidad del servicio
    • Se agotó el tiempo de espera de la tarea
    • Etiquetas
  • Administrar Trabajos
    • Visualizar o borrar trabajos
    • Ver o detener las ejecuciones de trabajos
  • Prácticas recomendadas
  • Realizar trabajo continuo en segundo plano
  • Implementa grupos de trabajadores
    • Implementa grupos de trabajadores
    • Implementa grupos de trabajadores desde el código fuente
  • Administra grupos de trabajadores
    • Cómo ver o borrar grupos de trabajadores
    • Cómo ver o borrar revisiones de grupos de trabajadores
    • Divisiones y reversiones de instancias
  • Configura grupos de trabajadores
    • Capacidad
      • Límites de memoria
      • Límites de CPU
      • GPU
        • Configuración de GPU
        • Prácticas recomendadas de GPU
    • Entorno
      • Contenedor y punto de entrada
      • Variables de entorno
      • Activaciones de volúmenes
        • Volúmenes de Cloud Storage
        • Volúmenes NFS
        • Volúmenes en memoria
        • Otros sistemas de archivos de red
        • Usa sistemas de archivos de red CIFS/SMB
      • Verificaciones de estado de los contenedores
      • Secrets
      • Identidad del servicio
    • Recuento de instancias
    • Metadata
      • Descripción
      • Etiquetas
      • Etiquetas
  • Ajuste de escala en función de métricas externas
    • Ajusta automáticamente la escala de los grupos de trabajadores con métricas externas
    • Ajustador automático de Kafka
    • Cómo alojar ejecutores de GitHub con grupos de trabajadores
    • Automatiza el ajuste de escala con Workflows
  • Configura las Herramientas de redes
  • Prácticas recomendadas para las redes de Cloud Run
  • Configura herramientas de redes privadas
  • Envía tráfico a la red de VPC
    • Descripción general
    • Salida de VPC directa
    • Servicios y trabajos de pila doble
    • Migra el conector de VPC estándar a la salida de VPC directa
    • Conectores de VPC
  • Envía tráfico a una red de VPC compartida
    • Descripción general
    • Salida de VPC directa
    • Migra el conector de VPC compartida a la salida de VPC directa
    • Conectores en proyectos de servicio
    • Conectores en el proyecto host
  • Dirección IP saliente estática
  • Seguridad de la red
    • Restringe la entrada (servicios)
    • Usa los Controles del servicio de VPC (VPC SC)
  • Cloud Service Mesh
  • Seguro
  • Descripción general del diseño de seguridad
  • Autentica solicitudes
    • Descripción general
    • Permite el acceso público
    • Públicos personalizados
    • Autentica desarrolladores
    • Servicio a servicio
    • Autenticar usuarios
    • Instructivo de autenticación de usuarios finales
  • Protege tus recursos
    • Control de acceso con la IAM
    • Configura IAP para Cloud Run
    • Introducción a la identidad del servicio
    • Protege servicios con Cloud Armor
    • Usa la autorización binaria
    • Usa la detección de amenazas de Cloud Run
    • Usa claves de encriptación administradas por el cliente
    • Administra restricciones personalizadas para proyectos
    • Consulta las estadísticas de seguridad de la cadena de suministro de software
    • Instructivo de protección de los servicios de Cloud Run
  • Supervisa y registra
  • Descripción general de la supervisión y el registro
  • Visualiza métricas integradas
  • Escribe métricas de Prometheus
  • Escribe métricas de OpenTelemetry
  • Registrar y visualizar registros
  • Registros de auditoría
  • Informes de errores
  • Usa el seguimiento distribuido para servicios
  • Ejecuta soluciones de IA
  • Descripción general
  • Explorar los recursos
  • Agentes de IA
    • Descripción general
    • Crea e implementa agentes de A2A
      • Descripción general
      • Implementa agentes A2A
    • Compila e implementa agentes del ADK
    • Crea e implementa agentes de n8n
  • Servidores de MCP
    • Descripción general
    • Compila e implementa un servidor de MCP remoto
  • Herramientas
    • Ejecución de código
    • Automatización del navegador
  • Inferencia con GPUs
    • Descripción general
    • Servicios
      • Ejecuta la inferencia de LLM en GPUs de Cloud Run con Ollama
      • Ejecuta modelos de Gemma 3 en Cloud Run
      • Ejecuta la inferencia de LLM en GPUs de Cloud Run con vLLM
      • Ejecuta OpenCV en Cloud Run con aceleración de GPU
      • Ejecuta la inferencia de LLM en GPUs de Cloud Run con Hugging Face Transformers.js
      • Ejecuta la inferencia de LLM en GPUs de Cloud Run con Hugging Face TGI
    • Trabajos
      • Ajusta LLM con GPU usando trabajos de Cloud Run
      • Ejecuta la inferencia por lotes con GPUs y trabajos de Cloud Run
      • Transcodificación de video acelerada por GPU con FFmpeg
  • Desarrollo asistido por IA y programación de ambiente
    • Introducción a Cloud Run para desarrolladores asistidos por IA
  • Guía de soluciones
  • Cómo migrar
  • Un servicio web existente
  • Desde App Engine
  • Desde Cloud Run Functions (1ª gen.)
  • Desde AWS Lambda
  • Desde Heroku
  • Desde Cloud Foundry
    • Descripción general de la migración
    • Elige una estrategia que cumpla con OCI
    • Migra a contenedores de OCI
    • Migra la configuración
    • Migración de muestra: Spring Music
  • Desde VMware Tanzu
  • Desde una VM con Migrate to Containers
  • Desde Kubernetes
  • Hasta GKE
  • Solución de problemas
  • Introducción
  • Solucionar errores
  • Instructivo para solucionar problemas locales
  • Errores conocidos
  • Ejemplos
  • Todas las muestras de código de Cloud Run
  • Todas las muestras de código de las funciones de Cloud Run
  • Muestras de código de todos los productos
  • IA y AA
  • Desarrollo de aplicaciones
  • Hosting de aplicaciones
  • Procesamiento
  • Canalizaciones y análisis de datos
  • Bases de datos
  • Nubes distribuidas, híbridas y múltiples
  • IA generativa
  • Soluciones de la industria
  • Redes
  • Observabilidad y supervisión
  • Seguridad
  • Storage
  • Administración de accesos y recursos
  • Administración de uso y costos
  • Infraestructura como código
  • Migración
  • SDK, lenguajes, frameworks y herramientas
  • Home
  • Documentation
  • Application hosting
  • Cloud Run
  • Guías

Ajusta LLM con GPU usando trabajos de Cloud Run Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Puedes ajustar un modelo de Gemma 3 en un trabajo de Cloud Run y, luego, entregar el modelo ajustado en un servicio de Cloud Run con vLLM.

Consulta un codelab instructivo paso a paso en Cómo ajustar un modelo con trabajos de Cloud Run.

Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.

Última actualización: 2026-01-22 (UTC)

  • Productos y precios

    • Ve todos los productos
    • Precios de Google Cloud
    • Google Cloud Marketplace
    • Comunícate con Ventas
  • Asistencia

    • Foros de la comunidad
    • Asistencia
    • Notas de versión
    • Estado del sistema
  • Recursos

    • GitHub
    • Primeros pasos con Google Cloud
    • Muestras de código
    • Cloud Architecture Center
    • Capacitación y certificación
  • Interactúa

    • Blog
    • Eventos
    • X (Twitter)
    • Google Cloud en YouTube
    • Google Cloud Tech en YouTube
  • Acerca de Google
  • Privacidad
  • Condiciones del sitio
  • Condiciones de Google Cloud
  • Manage cookies
  • Nuestra tercera década de acción climática: Únete a nosotros
  • Regístrate en el boletín informativo de Google Cloud Suscribirse
  • English
  • Deutsch
  • Español – América Latina
  • Français
  • Português – Brasil
  • 中文 – 简体
  • 日本語
  • 한국어