Seja para criar agentes, executar modelos de inferência ou integrar com vários serviços de IA, o Cloud Run oferece a escalonabilidade, a flexibilidade e a facilidade de uso necessárias para dar vida às suas inovações de IA.
Nesta página, destacamos alguns casos de uso de alto nível para hospedagem, criação e implantação de cargas de trabalho de IA no Cloud Run.
Por que usar o Cloud Run para cargas de trabalho de IA?
O Cloud Run oferece várias vantagens para garantir que seus aplicativos de IA sejam escalonáveis, flexíveis e gerenciáveis. Alguns destaques:
- Suporte flexível a contêineres: empacote seu app e as dependências dele em um contêiner ou use qualquer linguagem, biblioteca ou framework compatível. Saiba mais sobre o contrato de ambiente de execução de contêineres do Cloud Run.
- Endpoint HTTP: depois de implantar um serviço do Cloud Run, receba um endpoint URL do Cloud Run seguro e pronto para uso. O Cloud Run oferece streaming com suporte à codificação de transferência em partes HTTP, HTTP/2 e WebSockets.
- Escalonamento automático ou manual: por padrão, o Cloud Run escalona automaticamente seu serviço com base na demanda, até zero. Assim, você paga apenas pelo que usa, o que é ideal para cargas de trabalho de IA imprevisíveis. Você também pode definir o escalonamento manual do serviço com base nas necessidades de tráfego e uso da CPU.
Suporte a GPU: acelere seus modelos de IA configurando recursos do Cloud Run com GPUs. Os serviços do Cloud Run com GPUs ativadas podem reduzir escala vertical a zero para economia de custos quando não estiverem em uso.
Ecossistema integrado: conecte-se a outros serviços do Google Cloud , como Vertex AI, BigQuery, Cloud SQL, Memorystore, Pub/Sub, AlloyDB for PostgreSQL, Cloud CDN, Secret Manager e domínios personalizados para criar pipelines de IA abrangentes de ponta a ponta. O Google Cloud Observability também oferece ferramentas integradas de monitoramento e geração de registros para entender o desempenho do aplicativo e solucionar problemas de maneira eficaz.
- Pronto para empresas: o Cloud Run oferece conectividade direta com a VPC, segurança granular e controles de rede.
Principais casos de uso da IA
Confira algumas maneiras de usar o Cloud Run para potencializar seus aplicativos de IA:
Hospede agentes e bots de IA
O Cloud Run é uma plataforma ideal para hospedar a lógica de back-end de agentes de IA, chatbots e assistentes virtuais. Esses agentes podem orquestrar chamadas para modelos de IA como o Gemini na Vertex AI, gerenciar estados e se integrar a várias ferramentas e APIs.
- Microsserviços para agentes: implante recursos individuais de agentes como serviços separados do Cloud Run. Consulte Hospedar agentes de IA para saber mais.
- Comunicação Agent2Agent (A2A): crie sistemas de agentes colaborativos usando o protocolo A2A. Consulte Agentes A2A de host para saber mais.
- Servidores do Protocolo de Contexto de Modelo (MCP): implemente servidores MCP para fornecer contexto padronizado aos LLMs das suas ferramentas e fontes de dados. Consulte Servidores MCP de host para saber mais.
Disponibilizar modelos de IA/ML para inferência
Implante seus modelos treinados de machine learning como endpoints HTTP escalonáveis.
- Inferência em tempo real: disponibilize previsões de modelos criados com frameworks como TensorFlow, PyTorch, scikit-learn ou usando modelos abertos como o Gemma. Confira um exemplo em Executar o Gemma 3 no Cloud Run.
- Aceleração de GPU: use GPUs NVIDIA para acelerar a inferência de modelos mais exigentes. Consulte Configurar GPU para serviços para saber mais.
- Integração com a Vertex AI: disponibilize modelos treinados ou implantados na Vertex AI usando o Cloud Run como um frontend escalonável.
- Desvincule arquivos de modelos grandes do contêiner: o adaptador do Cloud Storage FUSE permite montar um bucket do Cloud Storage e o torna acessível como um diretório local dentro do contêiner do Cloud Run.
Criar sistemas de geração aumentada por recuperação (RAG)
Crie aplicativos de RAG conectando serviços do Cloud Run às suas fontes de dados.
- Bancos de dados vetoriais: conecte-se a bancos de dados vetoriais hospedados no Cloud SQL (com
pgvector), AlloyDB para PostgreSQL, Memorystore para Redis ou outras lojas vetoriais especializadas para recuperar o contexto relevante para seus LLMs. Confira um exemplo de infraestrutura de como usar o Cloud Run para hospedar um aplicativo de IA generativa com capacidade de RAG e processamento de dados usando a Vertex AI e a Pesquisa de vetor. - Acesso a dados: extraia dados do Cloud Storage, BigQuery, Firestore ou outras APIs para enriquecer os comandos.
Hospedar APIs e back-ends com tecnologia de IA
Crie APIs e microsserviços que incorporam recursos de IA.
- APIs inteligentes: desenvolva APIs que usam LLMs para compreensão de linguagem natural, análise de sentimento, tradução, resumo e assim por diante.
- Fluxos de trabalho automatizados: crie serviços que acionam ações baseadas em IA com base em eventos ou solicitações.
Prototipar e testar ideias
Itere rapidamente ideias de IA.
- Implantação rápida: mova rapidamente protótipos de ambientes como Vertex AI Studio, Google AI Studio ou notebooks Jupyter para implantações escalonáveis no Cloud Run com configuração mínima.
- Divisão de tráfego: use o recurso de divisão de tráfego do Cloud Run para fazer testes A/B com diferentes modelos, comandos ou configurações, e a Observabilidade do Google Cloud para monitorar métricas (latência, taxa de erros, custo) e medir o sucesso dos testes A/B.
A seguir
Dependendo da sua familiaridade com os conceitos de IA e do seu caso de uso de IA, confira os recursos de IA do Cloud Run.