Este guia oferece uma vista geral da utilização do Cloud Run para alojar apps, executar inferências e criar fluxos de trabalho de IA.
Cloud Run para alojar aplicações de IA, agentes e pontos finais da API escaláveis
O Cloud Run oferece uma plataforma totalmente gerida que dimensiona as suas apps e cargas de trabalho de IA.
Quando aloja apps de IA no Cloud Run, normalmente tem os seguintes componentes de arquitetura:
- Publicação e orquestração: implementa o código da aplicação ou o contentor no Cloud Run.
- Modelos de IA: usa modelos de IA da Google, modelos de código aberto ou modelos personalizados com a sua app.
- Integrações: pode estabelecer ligação a Google Cloud serviços ou serviços de terceiros para memória, bases de dados, armazenamento, segurança e muito mais.
- Ferramentas: pode ligar-se a ferramentas para outras tarefas e operações.
O diagrama seguinte mostra uma vista geral de nível elevado da utilização do Cloud Run como uma plataforma de alojamento para apps de IA:
Conforme mostrado no diagrama:
Na camada de publicação e orquestração, um serviço do Cloud Run atua como um ponto final da API escalável para a lógica essencial da sua aplicação. Gere de forma eficiente vários utilizadores simultâneos através do dimensionamento automático, a pedido e rápido de instâncias.
Traz o seu contentor para implementar no Cloud Run. Pode criar um pacote da sua aplicação e respetivas dependências num contentor ou fornecer o código-fonte e permitir que o Cloud Run compile automaticamente o código num contentor para implementação. Para implementações de código fonte, pode usar qualquer linguagem, frameworks abertos ou SDKs para criar as suas apps de IA.
A sua app de IA funciona como um ponto final da API escalável que processa pedidos recebidos e envia dados para um modelo de IA pré-preparado para processamento e, em seguida, devolve os resultados.
O Cloud Run está integrado com os modelos da Google, como os modelos Gemini e Vertex AI, e pode integrar-se com modelos de código aberto, como o Llama e o Gemma. Se tiver um modelo personalizado que preparou, também pode usá-lo com o seu recurso do Cloud Run.
Google Cloud oferece uma grande variedade de soluções para suportar a infraestrutura da sua aplicação de IA. Algumas Google Cloud integrações que funcionam bem com a sua app de IA incluem:
- Memória e bases de dados
- Curto prazo
- O Memorystore é um serviço de gestão de dados de acesso elevado, temporário e de colocação em cache que oferece uma cache rápida e externa para o armazenamento de dados a curto prazo.
- Longo prazo
- O AlloyDB para PostgreSQL é uma base de dados compatível com o PostgreSQL concebida para cargas de trabalho transacionais e analíticas exigentes. Oferece geração de incorporações vetoriais integrada e um índice vetorial de alta velocidade, o que torna a pesquisa semântica rápida em comparação com a implementação
pgvectorpadrão. - O Cloud SQL é um serviço de base de dados
relacional para MySQL, PostgreSQL e SQL Server que também pode
funcionar como um armazenamento de vetores com a extensão
pgvectorpara PostgreSQL. - O Firestore é um serviço de base de dados de documentos NoSQL escalável que inclui capacidades de pesquisa vetorial incorporadas.
- O AlloyDB para PostgreSQL é uma base de dados compatível com o PostgreSQL concebida para cargas de trabalho transacionais e analíticas exigentes. Oferece geração de incorporações vetoriais integrada e um índice vetorial de alta velocidade, o que torna a pesquisa semântica rápida em comparação com a implementação
- Curto prazo
- Armazenamento
- O Cloud Storage é uma solução de armazenamento de objetos para guardar grandes conjuntos de dados para preparação de modelos, ficheiros de entrada/saída para a sua aplicação ou artefactos de modelos.
- Segurança
- O Secret Manager é um serviço de gestão de segredos e credenciais que oferece uma forma segura e centralizada de armazenar dados confidenciais, como chaves de API, palavras-passe e credenciais, que são frequentemente necessários para as aplicações de IA interagirem com serviços externos.
Para saber mais, consulte o artigo Estabeleça ligação a Google Cloud serviços.
- Memória e bases de dados
As ferramentas permitem que as suas apps e modelos de IA interajam com serviços, APIs ou Websites que são executados externamente ou no Cloud Run.
Por exemplo, se a sua app de IA for um agente de IA, o agente pode enviar um pedido a um servidor MCP para executar uma ferramenta externa ou usar ferramentas executadas no seu contentor, como execução de código, utilização do computador, obtenção de informações, entre outros.
Alojamento de modelos no Cloud Run para inferência de IA
Além de criar aplicações e agentes que usam um modelo de linguagem (conteúdo extenso) (MDI/CE), também pode ativar GPUs com o Cloud Run para executar modelos de inferência de IA pré-preparados ou personalizados implementados autonomamente.
As GPUs do Cloud Run permitem processar o grande número de operações necessárias para executar tarefas exigentes do ponto de vista computacional para cargas de trabalho de inferência de IA. Implemente modelos de IA como imagens de contentores ou a partir do código fonte e use vários métodos para implementar os seus recursos do Cloud Run.