Este guia oferece uma visão geral do uso do Cloud Run para hospedar apps, executar inferências e criar fluxos de trabalho de IA.
Cloud Run para hospedagem de aplicativos de IA, agentes e endpoints de API escalonáveis
O Cloud Run oferece uma plataforma totalmente gerenciada que escalona seus apps e cargas de trabalho de IA.
Ao hospedar apps de IA no Cloud Run, você geralmente tem os seguintes componentes de arquitetura:
- Serviço e orquestração: implante o código do aplicativo ou o contêiner no Cloud Run.
- Modelos de IA: você usa modelos de IA do Google, de código aberto ou personalizados com seu app.
- Integrações: você pode se conectar a serviços do Google Cloud ou de terceiros para memória, bancos de dados, armazenamento, segurança e muito mais.
- Ferramentas: você pode se conectar a ferramentas para outras tarefas e operações.
O diagrama a seguir mostra uma visão geral de alto nível do uso do Cloud Run como uma plataforma de hospedagem para apps de IA:
Conforme mostrado no diagrama:
Na camada de serviço e orquestração, um serviço do Cloud Run atua como um endpoint de API escalonável para a lógica principal do aplicativo. Ele gerencia com eficiência vários usuários simultâneos com escalonamento automático, sob demanda e rápido de instâncias.
Você traz seu contêiner para implantar no Cloud Run. Você pode empacotar o aplicativo e a dependência em um contêiner ou fornecer o código-fonte e deixar que o Cloud Run crie automaticamente o código em um contêiner para implantação. Para implantações de código-fonte, você pode usar qualquer linguagem, frameworks abertos ou SDKs para criar apps de IA.
O app de IA atua como um endpoint de API escalonável que processa solicitações recebidas e envia dados para um modelo de IA pré-treinado para processamento e retorna os resultados.
O Cloud Run é integrado aos modelos do Google, como o Gemini e a Vertex AI, e pode ser integrado a modelos de código aberto, como o Llama e o Gemma. Se você tiver um modelo personalizado que treinou, também poderá usá-lo com seu recurso do Cloud Run.
Google Cloud oferece uma ampla variedade de soluções para apoiar a infraestrutura do seu aplicativo de IA. Algumas Google Cloud integrações que funcionam bem com seu app de IA incluem:
- Memória e bancos de dados
- Curto prazo
- O Memorystore é um serviço de gerenciamento de dados temporários, de alta velocidade e de armazenamento em cache que oferece um cache rápido e externo para armazenamento de dados de curto prazo.
- Longo prazo
- O AlloyDB para PostgreSQL
é um banco de dados compatível com PostgreSQL projetado para cargas de trabalho
analíticas e transacionais exigentes. Ele oferece geração de embedding de vetor integrada e um índice de vetor de alta velocidade, o que torna a pesquisa semântica mais rápida em comparação com a implementação padrão do
pgvector. - O Cloud SQL é um serviço de banco de dados relacional para MySQL, PostgreSQL e SQL Server que também pode funcionar como um repositório de vetores com a extensão
pgvectorpara PostgreSQL. - O Firestore é um serviço de banco de dados de documentos NoSQL escalonável que inclui recursos integrados de pesquisa vetorial.
- O AlloyDB para PostgreSQL
é um banco de dados compatível com PostgreSQL projetado para cargas de trabalho
analíticas e transacionais exigentes. Ele oferece geração de embedding de vetor integrada e um índice de vetor de alta velocidade, o que torna a pesquisa semântica mais rápida em comparação com a implementação padrão do
- Curto prazo
- Armazenamento
- O Cloud Storage é uma solução de armazenamento de objetos para armazenar grandes conjuntos de dados para treinamento de modelo, arquivos de entrada/saída para seu aplicativo ou artefatos de modelo.
- Segurança
- O Secret Manager é um serviço de gerenciamento de segredos e credenciais que oferece uma maneira segura e centralizada de armazenar dados sensíveis, como chaves de API, senhas e credenciais, que geralmente são necessários para que os aplicativos de IA interajam com serviços externos.
Para saber mais, consulte Conectar-se aos serviços do Google Cloud .
- Memória e bancos de dados
Com as ferramentas, seus apps e modelos de IA interagem com serviços, APIs ou sites que são executados externamente ou no Cloud Run.
Por exemplo, se o app de IA for um agente de IA, ele poderá enviar uma solicitação a um servidor MCP para executar uma ferramenta externa ou usar ferramentas em execução no contêiner, como execução de código, uso do computador, recuperação de informações etc.
Hospedar modelos no Cloud Run para inferência de IA
Além de criar aplicativos e agentes que usam um modelo de linguagem grande (LLM), também é possível ativar GPUs com o Cloud Run para executar modelos pré-treinados ou personalizados autodeployados para inferência de IA.
As GPUs do Cloud Run permitem lidar com o grande número de operações necessárias para executar tarefas computacionalmente exigentes para cargas de trabalho de inferência de IA. Implante modelos de IA como imagens de contêiner ou do código-fonte e use vários métodos para implantar seus recursos do Cloud Run.