Ir para o conteúdo principal
Google Cloud Documentation
Áreas de tecnologia
  • IA e ML
  • Desenvolvimento de aplicativos
  • Hospedagem de aplicativos
  • Computação
  • Pipelines e análises de dados
  • Bancos de dados
  • Distribuído, híbrido e multicloud
  • IA generativa
  • Soluções por setor
  • Rede
  • Observabilidade e monitoramento
  • Segurança
  • Storage
Ferramentas de vários produtos
  • Gerenciamento de recursos e acesso
  • Gerenciamento de custos e uso
  • Infraestrutura como código
  • Migração
  • SDK, linguagens, frameworks e ferramentas
/
Console
  • English
  • Deutsch
  • Español
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어
Fazer login
  • Cloud Run
Comece sem custos financeiros
Visão geral Guias Referência Exemplos Recursos
Google Cloud Documentation
  • Áreas de tecnologia
    • Mais
    • Visão geral
    • Guias
    • Referência
    • Exemplos
    • Recursos
  • Ferramentas de vários produtos
    • Mais
  • Console
  • Descoberta
  • Visão geral do produto
  • Modelo de recurso do Cloud Run
  • Contrato de ambiente de execução de contêiner
  • Casos de uso
    • Meu app é adequado para um serviço do Cloud Run?
    • Quando devo implantar uma função?
    • Casos de uso de IA no Cloud Run
  • Começar
  • Visão geral
  • Implantar um serviço da Web de amostra
    • Implantar um contêiner de amostra
    • Implantar de um repositório Git
    • Implantar um serviço "Hello World" a partir do código-fonte
      • Go
      • Node.js
      • Python
        • Flask
        • FastAPI
        • Gradio
        • Streamlit
        • Kit de Desenvolvimento de Agente (ADK) para Python
      • Java
      • Kotlin
      • C#
      • C++
      • PHP
      • Ruby
      • Outros
      • Frameworks
        • Visão geral
        • SSR do Angular
        • Next.js
        • Nuxt.js
        • SvelteKit
  • Implantar uma função de amostra
    • Implantar uma função usando o console
    • Implantar uma função usando o gcloud
  • Executar um job de amostra
    • Executar um job
    • Executar um job a partir do código-fonte
      • Go
      • Node.js
      • Python
      • Java
      • Shell
  • Implantar um pool de workers de amostra
  • Desenvolver
  • Configurar o ambiente
  • Planejar e preparar seu serviço
    • Desenvolver seu serviço
    • Conteinerizar o código
    • Conectar-se aos serviços do Google Cloud
    • Instalar um pacote de sistema no contêiner
    • Executar comandos gcloud no contêiner
  • Planejar e preparar sua função
    • Visão geral
    • Comparar funções do Cloud Run
    • Gravar funções do Cloud Run
    • Ambientes de execução
      • Visão geral
      • Node.js
        • Visão geral
        • Dependências do Node.js
      • Python
        • Visão geral
        • Dependências do Python
      • Go
        • Visão geral
        • Dependências do Go
      • Java
        • Visão geral
        • Dependências de Java
      • .NET
      • Ruby
      • PHP
    • Desenvolvimento de funções locais
    • Acionadores de função
    • Tutoriais
      • Criar uma função que retorne resultados do BigQuery
      • Criar uma função que retorne resultados do Spanner
      • Integração com bancos de dados do Google Cloud
      • Codelabs
  • Criação e teste
    • Criar origens para contêineres
    • Criar funções para contêineres
    • Teste local
  • Exibir solicitações HTTP
  • Implantar serviços
    • Implantar imagens de contêiner
    • Implantação contínua do git
    • Implantar a partir do código-fonte
    • Implantar do Compose
    • Implantar funções
  • Veicular tráfego da Web
    • Como mapear domínios personalizados
    • Como veicular recursos estáticos com o CDN
    • Como exibir o tráfego de várias regiões
    • Ativar a afinidade de sessão
    • Proxy de front-end usando Nginx
  • Gerenciar serviços
    • Ver, copiar ou excluir serviços
    • Ver ou excluir revisões
    • Migração de tráfego, lançamentos graduais e reversões
  • Configura serviços
    • Visão geral
    • Capacidade
      • Limites de memória
      • Limites de CPU
      • GPU
        • Configuração da GPU
        • Práticas recomendadas de desempenho da GPU
      • Tempo limite da solicitação
      • Máximo de solicitações simultâneas
        • Sobre o número máximo de solicitações simultâneas por instância
        • Configurar o máximo de solicitações simultâneas
      • Faturamento
      • Otimizar configurações de serviço com o Recommender
    • Ambiente
      • Porta do contêiner e ponto de entrada
      • Variáveis de ambiente
      • Montagens de volumes
        • Volumes do Cloud Storage
        • Volumes do NFS
        • Volumes na memória
      • Ambiente de execução
        • Visão geral
        • Selecionar um ambiente de execução
      • Verificações de integridade do contêiner
      • Solicitações HTTP/2
      • Secrets
      • Identidade do serviço
    • Escalonamento
      • Sobre o escalonamento automático de instâncias para serviços
      • Número máximo de instâncias
        • Sobre o número máximo de instâncias para serviços
        • Configurar o máximo de instâncias
      • Instâncias mínimas
      • Escalonamento manual
    • Metadados
      • Descrição
      • Rótulos
      • Tags
    • Configurações de implantação de origem
      • Ambientes de execução de linguagem e imagens de base compatíveis
      • Configurar atualizações automáticas da imagem de base
      • Variáveis de ambiente de build
      • Criar conta de serviço
      • Pools de workers do build
  • Invocar e acionar serviços
    • Invocar com solicitações HTTPS
    • Hospedar um destino de webhook
    • Fazer streaming com WebSockets
      • Visão geral
      • Tutorial de criação de um serviço de chat do WebSocket
    • Invocar de forma assíncrona
      • Invocar serviços em uma programação
      • Criar um fluxo de trabalho
        • Invocar serviços como parte de um fluxo de trabalho
        • Conectar uma série de serviços do Cloud Functions e do tutorial do Cloud Run
      • Executar tarefas assíncronas
      • Chamar um serviço de uma assinatura de push do Pub/Sub
        • Acionar serviço do Pub/Sub
        • Tutorial de integração de processamento de imagens no Pub/Sub
    • Acionar eventos
      • Criar gatilhos com o Eventarc
      • Gatilhos do Pub/Sub
        • Criar gatilhos do Eventarc no Pub/Sub
        • Acionar funções do Pub/Sub usando o Eventarc
        • Acionar funções de entradas de registro roteadas
      • Gatilhos do Cloud Storage
        • Criar gatilhos com o Cloud Storage
        • Acionar serviços do Cloud Storage usando o Eventarc
        • Acionar funções do Cloud Storage usando o Eventarc
      • Gatilhos do Firestore
        • Criar gatilhos com o Firestore
        • Acionar funções de eventos em um banco de dados do Firestore
    • Conectar-se a outros serviços usando o gRPC
  • Práticas recomendadas
    • Dicas gerais de desenvolvimento para serviços
    • Otimizar serviços Java
    • Otimizar serviços do Python
    • Otimizar serviços do Node.js
    • Práticas recomendadas de teste de carga
    • Entenda a redundância zonal
    • Práticas recomendadas para funções
      • Visão geral
      • Configurar novas tentativas de funções orientadas a eventos
  • Executar tarefas de job até a conclusão
  • Criar jobs
  • Executar jobs
    • Executar jobs
    • Executar jobs programados
    • Executar jobs com o Workflows
  • Configurar jobs
    • Ponto de entrada de contêiner
    • Limites de CPU
    • Limites de memória
    • GPU
      • Configuração da GPU
      • Práticas recomendadas para GPU
    • Variáveis de ambiente
    • Verificações de integridade do contêiner
    • Montagens de volumes
      • Volumes do Cloud Storage
      • Volumes do NFS
      • Volumes na memória
      • Outros sistemas de arquivos de rede
    • Rótulos
    • Máximo de novas tentativas
    • Paralelismo
    • Secrets
    • Identidade do serviço
    • Tempo limite da tarefa
    • Tags
  • Gerencie vagas
    • Ver ou excluir jobs
    • Ver ou parar execuções de job
  • Práticas recomendadas
  • Realizar trabalho contínuo em segundo plano
  • Implantar pools de workers
    • Implantar pools de workers
    • Implantar pools de workers do código-fonte
  • Gerenciar pools de workers
    • Ver ou excluir pools de workers
    • Ver ou excluir revisões do pool de workers
    • Divisões e reversões de instâncias
  • Configurar pools de workers
    • Capacidade
      • Limites de memória
      • Limites de CPU
      • GPU
        • Configuração da GPU
        • Práticas recomendadas para GPU
    • Ambiente
      • Contêiner e ponto de entrada
      • Variáveis de ambiente
      • Montagens de volumes
        • Volumes do Cloud Storage
        • Volumes do NFS
        • Volumes na memória
        • Outros sistemas de arquivos de rede
      • Verificações de integridade do contêiner
      • Secrets
      • Identidade do serviço
    • Contagem de instâncias
    • Metadados
      • Descrição
      • Rótulos
      • Tags
  • Escalonamento com base em métricas externas
    • Escalonar automaticamente pools de workers com métricas externas
    • Autoscaler do Kafka
    • Hospedar executores do GitHub com pools de workers
  • Configurar rede
  • Práticas recomendadas para redes do Cloud Run
  • Configurar rede particular
  • Enviar tráfego para a rede VPC
    • Visão geral
    • Saída de VPC direta
    • Serviços e jobs de pilha dupla
    • Migrar o conector de VPC padrão para a saída direta de VPC
    • Conectores de VPC
  • Enviar tráfego para a rede VPC compartilhada
    • Visão geral
    • Saída de VPC direta
    • Migrar o conector de VPC compartilhada para a saída direta de VPC
    • Conectores em projetos de serviço
    • Conectores no projeto host
  • Endereço IP de saída estático
  • Segurança de rede
    • Restringir entrada (serviços)
    • Usar o VPC Service Controls (VPC SC)
  • Cloud Service Mesh
  • Seguro
  • Visão geral do design de segurança
  • Autenticar solicitações
    • Visão geral
    • Permitir acesso público
    • Públicos-alvo personalizados
    • Autenticar desenvolvedores
    • Serviço a serviço
    • Autenticar usuários
    • Tutorial de autenticação de usuário final
  • Proteger seus recursos
    • Controle de acesso com o IAM
    • Configurar o IAP para o Cloud Run
    • Introdução à identidade de serviço
    • Proteger serviços com o Cloud Armor
    • Usar autorização binária
    • Usar a detecção de ameaças do Cloud Run
    • Usar chaves de criptografia gerenciadas pelo cliente
    • Gerenciar restrições personalizadas para projetos
    • Ver insights de segurança da cadeia de suprimentos de software
    • Tutorial de serviços seguros do Cloud Run
  • Monitorar e registrar
  • Visão geral do monitoramento e da geração de registros
  • Conferir métricas integradas
  • Gravar métricas do Prometheus
  • Gravar métricas do OpenTelemetry
  • Registrar e visualizar registros
  • Registro de auditoria
  • Error Reporting
  • Usar o rastreamento distribuído para serviços
  • Executar soluções de IA
  • Visão geral
  • Conheça os recursos
  • Agentes de IA
    • Visão geral
    • Criar e implantar agentes A2A
      • Visão geral
      • Implantar agentes A2A
    • Criar e implantar agentes do ADK
    • Criar e implantar agentes do n8n
  • Servidores MCP
    • Visão geral
    • Criar e implantar um servidor MCP remoto
  • Ferramentas
    • Execução de código
    • Automação de navegador
  • Inferência com GPUs
    • Visão geral
    • Serviços
      • Executar inferência de LLM em GPUs do Cloud Run com o Ollama
      • Executar modelos do Gemma 3 no Cloud Run
      • Executar inferência de LLM em GPUs do Cloud Run com vLLM
      • Executar o OpenCV no Cloud Run com aceleração de GPU
      • Executar inferência de LLM em GPUs do Cloud Run com o Transformers.js do Hugging Face
      • Executar inferência de LLM em GPUs do Cloud Run com o TGI do Hugging Face
    • Empregos
      • Ajustar LLMs usando GPUs com jobs do Cloud Run
      • Executar inferência em lote usando GPUs com jobs do Cloud Run
      • Transcodificação de vídeo acelerada por GPU com FFmpeg
  • Desenvolvimento e programação de vibe assistidos por IA
    • Introdução ao Cloud Run para desenvolvedores com tecnologia de IA
  • Migrar
  • Um serviço da Web existente
  • Do App Engine
  • Das funções do Cloud Run (1ª geração)
  • Do AWS Lambda
  • Da Heroku
  • Do Cloud Foundry
    • Visão geral da migração
    • Escolha uma estratégia em conformidade com a OCI
    • Migrar para contêineres OCI
    • Migrar configuração
    • Exemplo de migração: Spring Music
  • Do VMware Tanzu
  • A partir de uma VM que usa o Migrate to Containers
  • Usando o Kubernetes
  • Para o GKE
  • Resolver problemas
  • Introdução
  • Resolver erros
  • Tutorial de solução de problemas locais
  • Problemas conhecidos
  • Exemplos
  • Todos os exemplos de código do Cloud Run
  • Todos os exemplos de código das funções do Cloud Run
  • Exemplos de código para todos os produtos
  • IA e ML
  • Desenvolvimento de aplicativos
  • Hospedagem de aplicativos
  • Computação
  • Pipelines e análises de dados
  • Bancos de dados
  • Distribuído, híbrido e multicloud
  • IA generativa
  • Soluções por setor
  • Rede
  • Observabilidade e monitoramento
  • Segurança
  • Storage
  • Gerenciamento de recursos e acesso
  • Gerenciamento de custos e uso
  • Infraestrutura como código
  • Migração
  • SDK, linguagens, frameworks e ferramentas
  • Home
  • Documentation
  • Application hosting
  • Cloud Run
  • Guias

Ajustar LLMs usando GPUs com jobs do Cloud Run Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

É possível ajustar um modelo Gemma 3 em um job do Cloud Run e disponibilizar o modelo ajustado em um serviço do Cloud Run usando o vLLM.

Confira um codelab com instruções detalhadas em Como ajustar um modelo usando jobs do Cloud Run.

Exceto em caso de indicação contrária, o conteúdo desta página é licenciado de acordo com a Licença de atribuição 4.0 do Creative Commons, e as amostras de código são licenciadas de acordo com a Licença Apache 2.0. Para mais detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou afiliadas.

Última atualização 2026-01-14 UTC.

  • Produtos e preços

    • Veja todos os produtos
    • Preços do Google Cloud
    • Google Cloud Marketplace
    • Entre em contato com a equipe de vendas.
  • Suporte

    • Fóruns da comunidade
    • Suporte
    • Notas da versão
    • Status do sistema
  • Recursos

    • GitHub
    • Introdução ao Google Cloud
    • Exemplos de código
    • Centro de arquitetura do Cloud
    • Treinamento e certificação
  • Envolver

    • Blog
    • Eventos
    • X (Twitter)
    • Google Cloud no YouTube
    • Google Cloud Tech no YouTube
  • Sobre o Google
  • Privacidade
  • Termos do site
  • Termos do Google Cloud
  • Manage cookies
  • Essa é nossa terceira década de ação climática: participe!
  • Inscreva-se para receber a newsletter do Google Cloud Inscrever-se
  • English
  • Deutsch
  • Español
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어