Documentação da orquestração de IA/ML no Cloud Run

O Cloud Run é uma plataforma totalmente gerenciada que permite executar aplicativos conteinerizados, incluindo cargas de trabalho de IA/ML, diretamente na infraestrutura escalonável do Google. Ele cuida da infraestrutura para você, assim você pode se concentrar em escrever o código em vez de gastar tempo operando, configurando e escalonando seus recursos do Cloud Run. Os recursos do Cloud Run oferecem o seguinte:

  • Aceleradores de hardware: acesse e gerencie GPUs para inferência em grande escala.
  • Suporte a frameworks: integre-se aos frameworks de veiculação de modelos que você já conhece e confia, como Hugging Face, TGI e vLLM.
  • Plataforma gerenciada: aproveite todos os benefícios de uma plataforma gerenciada para automatizar, escalonar e aumentar a segurança de todo o ciclo de vida de IA/ML, mantendo a flexibilidade.

Confira nossos tutoriais e práticas recomendadas para saber como o Cloud Run pode otimizar suas cargas de trabalho de IA/ML.

  • Trabalhe em desenvolvimentos com nossos modelos e ferramentas de IA generativa mais recentes.
  • Aproveite mais de 20 produtos muito usados sem custos financeiros, incluindo o Compute Engine e as APIs de IA.
  • Sem cobranças automáticas, sem compromisso.

Aproveite mais de 20 produtos sem custos financeiros.

Acesse mais de 20 produtos sem custos financeiros voltados a casos de uso comuns, incluindo APIs de IA, VMs, data warehouses e muito mais.

Entenda o treinamento autoguiado, os casos de uso, as arquiteturas de referência e os exemplos de código sobre como usar e conectar serviços do Google Cloud .
Caso de uso
Casos de uso

Use GPUs NVIDIA L4 no Cloud Run para inferência de IA em tempo real, incluindo benefícios de inicialização a frio rápida e escalonamento até zero para modelos de linguagem grandes (LLMs).

GPUs LLMs

Caso de uso
Casos de uso

Saiba como usar o Cloud Run para aplicativos de IA prontos para produção. Este guia descreve casos de uso, como divisão de tráfego para comandos de teste A/B, padrões de RAG (geração aumentada por recuperação) e conectividade com repositórios de vetores.

Aplicativos de IA divisão de tráfego para testes A/B padrões de RAG armazenamentos de vetores conectividade com armazenamentos de vetores

Caso de uso
Casos de uso

Implantação com um clique do Google AI Studio no Cloud Run e no servidor MCP (Model Context Protocol) do Cloud Run para ativar agentes de IA em ambientes de desenvolvimento integrados ou SDKs de agentes e implantar apps.

Implantações servidores MCP Cloud Run

Caso de uso
Casos de uso

Integre GPUs NVIDIA L4 ao Cloud Run para veiculação de LLMs com boa relação custo-benefício. Este guia enfatiza o escalonamento até zero e fornece etapas de implantação para modelos como o Gemma 2 com o Ollama.

LLMs GPU Ollama Otimização de custos

Caso de uso
Casos de uso

Desvincule arquivos de modelos grandes da imagem do contêiner usando o Cloud Storage FUSE. O desacoplamento melhora os tempos de build, simplifica as atualizações e cria uma arquitetura de veiculação mais escalonável.

Pacotes de modelos Cloud Storage FUSE Práticas recomendadas Modelos grandes

Caso de uso
Casos de uso

Use o framework Cog, otimizado para veiculação de ML, para simplificar o empacotamento e a implantação de contêineres no Cloud Run.

Cog Empacotamento de modelos Implantação Tutorial

Caso de uso
Casos de uso

Use o Cloud Run para inferência de ML leve e crie uma pilha de monitoramento econômica usando serviços nativos do GCP, como o Cloud Logging e o BigQuery.

Monitoramento MLOps Eficiência de custos Inferência

Caso de uso
Casos de uso

Implante um aplicativo Flask simples que chama a API de IA generativa da Vertex AI em um serviço escalonável do Cloud Run.

IA generativa Vertex AI Flask Implantação

Caso de uso
Casos de uso

Use o código Python do Gemma no AI Studio e implante-o diretamente em uma instância do Cloud Run, aproveitando o Secret Manager para o processamento seguro de chaves de API.

AI Studio Gemma Implantação Tutorial

Vídeos relacionados