Exemplos de utilização da IA no Cloud Run

Quer esteja a criar agentes, a executar modelos de inferência ou a integrar-se com vários serviços de IA, o Cloud Run oferece a escalabilidade, a flexibilidade e a facilidade de utilização necessárias para dar vida às suas inovações de IA.

Esta página realça alguns exemplos de utilização de nível superior para alojar, criar e implementar cargas de trabalho de IA no Cloud Run.

Por que motivo deve usar o Cloud Run para cargas de trabalho de IA?

O Cloud Run oferece várias vantagens para garantir que as suas aplicações de IA são escaláveis, flexíveis e geríveis. Alguns destaques incluem:

  • Suporte de contentores flexível: crie pacotes da sua app e respetivas dependências num contentor ou use qualquer idioma, biblioteca ou framework suportado. Saiba mais acerca do contrato de tempo de execução de contentores do Cloud Run.
  • Ponto final HTTP: após implementar um serviço do Cloud Run, recebe um ponto final do URL do Cloud Run seguro e pronto a usar. O Cloud Run oferece streaming através do suporte da codificação de transferência fragmentada HTTP, HTTP/2 e WebSockets.
  • Escala automática ou manual: por predefinição, o Cloud Run dimensiona automaticamente o seu serviço com base na procura, mesmo até zero. Isto garante que paga apenas o que usa, o que o torna ideal para cargas de trabalho de IA imprevisíveis. Também pode definir o seu serviço para o escalamento manual com base nas suas necessidades de tráfego e utilização da CPU.
  • Suporte de GPU: acelere os seus modelos de IA configurando recursos do Cloud Run com GPUs. Os serviços do Cloud Run com GPUs ativadas podem ser reduzidos a zero para poupar custos quando não estão a ser usados.

  • Ecossistema integrado: ligue-se facilmente a outros Google Cloud serviços, como o Vertex AI, o BigQuery, o Cloud SQL, o Memorystore, o Pub/Sub, o AlloyDB para PostgreSQL, o Cloud CDN, o Secret Manager e os domínios personalizados para criar pipelines de IA abrangentes completos. O Google Cloud Observability também oferece ferramentas de monitorização e registo integradas para compreender o desempenho das aplicações e resolver problemas de forma eficaz.

Principais exemplos de utilização da IA

Seguem-se algumas formas de usar o Cloud Run para potenciar as suas aplicações de IA:

Alojamento de bots e agentes de IA

O Cloud Run é uma plataforma ideal para alojar a lógica de back-end para agentes de IA, chatbots e assistentes virtuais. Estes agentes podem orquestrar chamadas para modelos de IA, como o Gemini na Vertex AI, gerir o estado e integrar-se com várias ferramentas e APIs.

  • Microsserviços para agentes: implemente capacidades de agentes individuais como serviços do Cloud Run separados. Consulte o artigo Alojamento de agentes de IA para saber mais.
  • Comunicação entre agentes (A2A): crie sistemas de agentes colaborativos através do protocolo A2A. Consulte o artigo Alojamento de agentes A2A para saber mais.
  • Servidores do protocolo Model Context Protocol (MCP): implemente servidores MCP para fornecer contexto padronizado aos MDIs das suas ferramentas e origens de dados. Consulte o artigo Alojamento de servidores MCP para saber mais.

Apresente modelos de IA/ML para inferência

Implemente os seus modelos de aprendizagem automática preparados como pontos finais HTTP escaláveis.

  • Inferência em tempo real: disponibilize previsões a partir de modelos criados com frameworks como o TensorFlow, o PyTorch, o scikit-learn ou usando modelos abertos como o Gemma. Consulte o artigo Executar o Gemma 3 no Cloud Run para ver um exemplo.
  • Aceleração da GPU: use GPUs NVIDIA para acelerar a inferência de modelos mais exigentes. Consulte o artigo Configure a GPU para serviços para saber mais.
  • Integre com o Vertex AI: apresente modelos preparados ou implementados no Vertex AI, usando o Cloud Run como um front-end escalável.
  • Desassocie ficheiros de modelos grandes do seu contentor: o adaptador FUSE do Cloud Storage permite-lhe montar um contentor do Cloud Storage e torná-lo acessível como um diretório local no seu contentor do Cloud Run.

Crie sistemas de geração aumentada de recuperação (RAG)

Crie aplicações RAG associando serviços do Cloud Run às suas origens de dados.

  • Bases de dados vetoriais: ligue-se a bases de dados vetoriais alojadas no Cloud SQL (com pgvector), no AlloyDB para PostgreSQL, no Memorystore para Redis ou noutras lojas de vetores especializadas para obter contexto relevante para os seus MDIs. Veja um exemplo de infraestrutura de utilização do Cloud Run para alojar uma aplicação de IA generativa com capacidade de RAG e tratamento de dados através da Vertex AI e da pesquisa vetorial.
  • Acesso aos dados: obtenha dados do Cloud Storage, do BigQuery, do Firestore ou de outras APIs para enriquecer os comandos.

Alojamento de APIs e backends com tecnologia de IA

Crie APIs e microsserviços que incorporam capacidades de IA.

  • APIs inteligentes: desenvolva APIs que usam MDIs para compreensão de linguagem natural, análise de sentimentos, tradução, resumo, entre outros.
  • Fluxos de trabalho automatizados: crie serviços que acionam ações baseadas na IA com base em eventos ou pedidos.

Crie protótipos e experimente ideias

Iterar rapidamente ideias de IA.

  • Implementação rápida: mova rapidamente protótipos de ambientes como o Vertex AI Studio, Google AI Studio> ou blocos de notas Jupyter para implementações escaláveis no Cloud Run com configuração mínima.
  • Divisão do tráfego: use a funcionalidade de divisão do tráfego do Cloud Run para fazer testes A/B de diferentes modelos, comandos ou configurações, e a Google Cloud Observability para monitorizar as métricas (latência, taxa de erro, custo) e medir o sucesso dos testes A/B.

O que se segue?

Consoante a sua familiaridade com os conceitos de IA e o seu exemplo de utilização de IA, explore os recursos de IA do Cloud Run.