Documentação da orquestração de IA/ML no Cloud Run
O Cloud Run é uma plataforma totalmente gerenciada que permite executar aplicativos conteinerizados, incluindo cargas de trabalho de IA/ML, diretamente na infraestrutura escalonável do Google. Ele cuida da infraestrutura para você, assim você pode se concentrar em escrever o código em vez de gastar tempo operando, configurando e escalonando seus recursos do Cloud Run. Os recursos do Cloud Run oferecem o seguinte:
- Aceleradores de hardware: acesse e gerencie GPUs para inferência em grande escala.
- Suporte a frameworks: integre-se aos frameworks de veiculação de modelos que você já conhece e confia, como Hugging Face, TGI e vLLM.
- Plataforma gerenciada: aproveite todos os benefícios de uma plataforma gerenciada para automatizar, escalonar e aumentar a segurança de todo o ciclo de vida de IA/ML, mantendo a flexibilidade.
Confira nossos tutoriais e práticas recomendadas para saber como o Cloud Run pode otimizar suas cargas de trabalho de IA/ML.
Comece sua prova de conceito com US$ 300 de crédito sem custos financeiros
- Trabalhe em desenvolvimentos com nossos modelos e ferramentas de IA generativa mais recentes.
- Aproveite mais de 20 produtos muito usados sem custos financeiros, incluindo o Compute Engine e as APIs de IA.
- Sem cobranças automáticas, sem compromisso.
Aproveite mais de 20 produtos sem custos financeiros.
Acesse mais de 20 produtos sem custos financeiros voltados a casos de uso comuns, incluindo APIs de IA, VMs, data warehouses e muito mais.
Recursos de documentação
Executar soluções de IA
- Conceito
- Conceito
- Instruções
- Instruções
- Instruções
- Tutorial
- Conceito
- Conceito
Inferência com GPUs
- Tutorial
- Instruções
- Tutorial
- Prática recomendada
- Tutorial
- Tutorial
- Prática recomendada
- Prática recomendada
Resolver problemas
- Conceito
- Instruções
- Instruções
- Instruções
Recursos relacionados
Execute seus aplicativos de inferência de IA no Cloud Run com GPUs NVIDIA
Use GPUs NVIDIA L4 no Cloud Run para inferência de IA em tempo real, incluindo benefícios de inicialização a frio rápida e escalonamento até zero para modelos de linguagem grandes (LLMs).
Cloud Run: a maneira mais rápida de colocar seus aplicativos de IA em produção
Saiba como usar o Cloud Run para aplicativos de IA prontos para produção. Este guia descreve casos de uso, como divisão de tráfego para comandos de teste A/B, padrões de RAG (geração aumentada por recuperação) e conectividade com repositórios de vetores.
Implantação de IA facilitada: implante seu app no Cloud Run pelo AI Studio ou por agentes de IA compatíveis com o MCP
Implantação com um clique do Google AI Studio no Cloud Run e no servidor MCP (Model Context Protocol) do Cloud Run para ativar agentes de IA em ambientes de desenvolvimento integrados ou SDKs de agentes e implantar apps.
Aumentando a potência do Cloud Run com GPUs: uma nova era para cargas de trabalho de IA
Integre GPUs NVIDIA L4 ao Cloud Run para veiculação de LLMs com boa relação custo-benefício. Este guia enfatiza o escalonamento até zero e fornece etapas de implantação para modelos como o Gemma 2 com o Ollama.
Ainda está empacotando modelos de IA em contêineres? Faça isso no Cloud Run
Desvincule arquivos de modelos grandes da imagem do contêiner usando o Cloud Storage FUSE. O desacoplamento melhora os tempos de build, simplifica as atualizações e cria uma arquitetura de veiculação mais escalonável.
Empacote e implante seus modelos de machine learning no Google Cloud com o Cog
Use o framework Cog, otimizado para veiculação de ML, para simplificar o empacotamento e a implantação de contêineres no Cloud Run.
Como implantar e monitorar modelos de ML com o Cloud Run: leve, escalonável e econômico
Use o Cloud Run para inferência de ML leve e crie uma pilha de monitoramento econômica usando serviços nativos do GCP, como o Cloud Logging e o BigQuery.
Implantar um app de IA generativa do Google Cloud em um site com o Cloud Run
Implante um aplicativo Flask simples que chama a API de IA generativa da Vertex AI em um serviço escalonável do Cloud Run.
Implantar o Gemma diretamente do AI Studio no Cloud Run
Use o código Python do Gemma no AI Studio e implante-o diretamente em uma instância do Cloud Run, aproveitando o Secret Manager para o processamento seguro de chaves de API.