Documentação sobre a orquestração de IA/ML no Cloud Run
O Cloud Run é uma plataforma totalmente gerida que lhe permite executar as suas aplicações em contentores, incluindo cargas de trabalho de IA/ML, diretamente na infraestrutura escalável da Google. Esta plataforma gere a infraestrutura por si, para que se possa concentrar em escrever o seu código em vez de gastar tempo a operar, configurar e dimensionar os seus recursos do Cloud Run. As capacidades do Cloud Run oferecem o seguinte:
- Aceleradores de hardware: aceda e faça a gestão de GPUs para inferência em grande escala.
- Suporte de frameworks: integre-se com as frameworks de apresentação de modelos que já conhece e nas quais confia, como o Hugging Face, o TGI e o vLLM.
- Plataforma gerida: usufrua de todas as vantagens de uma plataforma gerida para automatizar, dimensionar e melhorar a segurança de todo o ciclo de vida da IA/AA, mantendo a flexibilidade.
Explore os nossos tutoriais e práticas recomendadas para ver como o Cloud Run pode otimizar as suas cargas de trabalho de IA/ML.
Inicie a sua prova de conceito com 300 USD de crédito grátis
- Desenvolva com os nossos modelos e ferramentas de IA generativa mais recentes.
- Usufrua da utilização gratuita de mais de 20 produtos populares, incluindo o Compute Engine e as APIs de IA.
- Sem cobranças automáticas nem compromissos.
Continue a explorar com mais de 20 produtos sempre gratuitos.
Aceda a mais de 20 produtos gratuitos para exemplos de utilização comuns, incluindo APIs de IA, VMs, armazéns de dados e muito mais.
Recursos de documentação
Execute soluções de IA
- Concept
- Concept
- Procedimentos
- Procedimentos
- Procedimentos
- Tutorial
- Concept
- Concept
Inferência com GPUs
- Tutorial
- Procedimentos
- Tutorial
- Prática recomendada
- Tutorial
- Tutorial
- Prática recomendada
- Prática recomendada
Resolver problemas
- Concept
- Procedimentos
- Procedimentos
- Procedimentos
Recursos relacionados
Execute as suas aplicações de inferência de IA no Cloud Run com GPUs NVIDIA
Use GPUs NVIDIA L4 no Cloud Run para inferência de IA em tempo real, incluindo vantagens de arranque a frio rápido e de escalabilidade para zero para modelos de linguagem (conteúdo extenso) (MDIs/CEs).
Cloud Run: a forma mais rápida de colocar as suas aplicações de IA em produção
Saiba como usar o Cloud Run para aplicações de IA prontas para produção. Este guia descreve exemplos de utilização, como a divisão de tráfego para comandos de testes A/B, padrões de RAG (geração aumentada de recuperação) e conetividade a bancos de dados vetoriais.
Implementação de IA facilitada: implemente a sua app no Cloud Run a partir do AI Studio ou de agentes de IA compatíveis com o MCP
Implementação com um clique do Google AI Studio para o Cloud Run e o servidor MCP (Model Context Protocol) do Cloud Run para ativar agentes de IA em IDEs ou SDKs de agentes e implementar apps.
Otimizar o Cloud Run com a potência da GPU: uma nova era para as cargas de trabalho de IA
Integre GPUs NVIDIA L4 com o Cloud Run para um serviço de MDIs rentável. Este guia realça a redução a zero e fornece passos de implementação para modelos como o Gemma 2 com o Ollama.
Ainda está a embalar modelos de IA em contentores? Em alternativa, faça o seguinte no Cloud Run:
Desassocie ficheiros de modelos grandes da imagem do contentor através do Cloud Storage FUSE. A desvinculação melhora os tempos de compilação, simplifica as atualizações e cria uma arquitetura de publicação mais escalável.
Empacote e implemente os seus modelos de aprendizagem automática no Google Cloud com o Cog
Use a framework Cog otimizada para o serviço de ML para simplificar o empacotamento e a implementação de contentores no Cloud Run.
Implementação e monitorização de modelos de ML com o Cloud Run: leve, escalável e rentável
Use o Cloud Run para inferência de ML simples e crie uma pilha de monitorização económica usando serviços nativos da GCP, como o Cloud Logging e o BigQuery.
Implementar uma app de IA generativa do Google Cloud num Website com o Cloud Run
Implemente uma aplicação Flask simples que chama a API Vertex AI Generative AI num serviço do Cloud Run escalável.
Implementar o Gemma diretamente do AI Studio no Cloud Run
Use o código Python do Gemma do AI Studio e implemente-o diretamente numa instância do Cloud Run, tirando partido do Secret Manager para o processamento seguro de chaves da API.