Documentação sobre a orquestração de IA/ML no Cloud Run

O Cloud Run é uma plataforma totalmente gerida que lhe permite executar as suas aplicações em contentores, incluindo cargas de trabalho de IA/ML, diretamente na infraestrutura escalável da Google. Esta plataforma gere a infraestrutura por si, para que se possa concentrar em escrever o seu código em vez de gastar tempo a operar, configurar e dimensionar os seus recursos do Cloud Run. As capacidades do Cloud Run oferecem o seguinte:

  • Aceleradores de hardware: aceda e faça a gestão de GPUs para inferência em grande escala.
  • Suporte de frameworks: integre-se com as frameworks de apresentação de modelos que já conhece e nas quais confia, como o Hugging Face, o TGI e o vLLM.
  • Plataforma gerida: usufrua de todas as vantagens de uma plataforma gerida para automatizar, dimensionar e melhorar a segurança de todo o ciclo de vida da IA/AA, mantendo a flexibilidade.

Explore os nossos tutoriais e práticas recomendadas para ver como o Cloud Run pode otimizar as suas cargas de trabalho de IA/ML.

  • Desenvolva com os nossos modelos e ferramentas de IA generativa mais recentes.
  • Usufrua da utilização gratuita de mais de 20 produtos populares, incluindo o Compute Engine e as APIs de IA.
  • Sem cobranças automáticas nem compromissos.

Continue a explorar com mais de 20 produtos sempre gratuitos.

Aceda a mais de 20 produtos gratuitos para exemplos de utilização comuns, incluindo APIs de IA, VMs, armazéns de dados e muito mais.

Explore a formação ao seu ritmo, exemplos de utilização, arquiteturas de referência e exemplos de código com exemplos de como usar e associar Google Cloud serviços.
Exemplo de utilização
Exemplos de utilização

Use GPUs NVIDIA L4 no Cloud Run para inferência de IA em tempo real, incluindo vantagens de arranque a frio rápido e de escalabilidade para zero para modelos de linguagem (conteúdo extenso) (MDIs/CEs).

GPUs LLMs

Exemplo de utilização
Exemplos de utilização

Saiba como usar o Cloud Run para aplicações de IA prontas para produção. Este guia descreve exemplos de utilização, como a divisão de tráfego para comandos de testes A/B, padrões de RAG (geração aumentada de recuperação) e conetividade a bancos de dados vetoriais.

Aplicações de IA Divisão de tráfego para testes A/B Padrões RAG Armazenamentos de vetores Conetividade com armazenamentos de vetores

Exemplo de utilização
Exemplos de utilização

Implementação com um clique do Google AI Studio para o Cloud Run e o servidor MCP (Model Context Protocol) do Cloud Run para ativar agentes de IA em IDEs ou SDKs de agentes e implementar apps.

Servidores MCP Implementações Cloud Run

Exemplo de utilização
Exemplos de utilização

Integre GPUs NVIDIA L4 com o Cloud Run para um serviço de MDIs rentável. Este guia realça a redução a zero e fornece passos de implementação para modelos como o Gemma 2 com o Ollama.

LLMs GPU Ollama Otimização de custos

Exemplo de utilização
Exemplos de utilização

Desassocie ficheiros de modelos grandes da imagem do contentor através do Cloud Storage FUSE. A desvinculação melhora os tempos de compilação, simplifica as atualizações e cria uma arquitetura de publicação mais escalável.

Pacotes de modelos FUSE do Cloud Storage Práticas recomendadas Modelos grandes

Exemplo de utilização
Exemplos de utilização

Use a framework Cog otimizada para o serviço de ML para simplificar o empacotamento e a implementação de contentores no Cloud Run.

Cog Model Packaging Deployment Tutorial

Exemplo de utilização
Exemplos de utilização

Use o Cloud Run para inferência de ML simples e crie uma pilha de monitorização económica usando serviços nativos da GCP, como o Cloud Logging e o BigQuery.

Monitorização MLOps Eficiência de custos Inferência

Exemplo de utilização
Exemplos de utilização

Implemente uma aplicação Flask simples que chama a API Vertex AI Generative AI num serviço do Cloud Run escalável.

IA generativa Vertex AI Flask Implementação

Exemplo de utilização
Exemplos de utilização

Use o código Python do Gemma do AI Studio e implemente-o diretamente numa instância do Cloud Run, tirando partido do Secret Manager para o processamento seguro de chaves da API.

AI Studio Gemma Implementação Tutorial

Vídeos relacionados