RAG de IA generativa com o Cloud SQL

Crie um aplicativo de chat de IA generativa que usa a geração aumentada por recuperação (RAG) para fornecer respostas fundamentadas e precisas com base nos dados da sua organização. Este guia descreve o modelo de aplicativo RAG de IA generativa com o Cloud SQL, que pode ser personalizado para atender às suas necessidades exclusivas e implantado como um aplicativo.

Por exemplo, você pode implementar esse modelo para atender às seguintes necessidades comerciais:

Exemplo Necessidade comercial Implementação
Chatbot de suporte ao cliente As empresas precisam oferecer suporte ao cliente instantâneo. Hospede a interface de chat no Cloud Run. A Vertex AI processa embeddings e gera respostas com base na documentação técnica armazenada como vetores no Cloud SQL.
Assistente de RH interno Os funcionários precisam encontrar informações sobre benefícios, políticas da empresa e procedimentos internos. Hospede o assistente de RH no Cloud Run. Quando os funcionários consultam a ferramenta, a Vertex AI recupera informações relevantes sobre políticas do Cloud SQL para gerar respostas precisas e baseadas em fontes.
Pesquisador de documentos jurídicos As equipes jurídicas precisam encontrar rapidamente jurisprudências ou cláusulas contratuais relevantes em grandes repositórios de documentos. Hospede o portal de pesquisa no Cloud Run. A Vertex AI resume precedentes relevantes e identifica linguagem específica em contratos usando documentos jurídicos armazenados como vetores no Cloud SQL.
Pesquisa semântica de produtos As empresas de e-commerce querem facilitar as pesquisas de produtos usando descrições em linguagem natural em vez de palavras-chave exatas. Hospede a interface de pesquisa no Cloud Run. A Vertex AI processa as descrições dos usuários para retornar os produtos mais relevantes semanticamente dos catálogos armazenados como vetores no Cloud SQL.

Arquitetura

A imagem a seguir mostra os componentes e as conexões no aplicativo:

Um aplicativo de RAG de IA generativa na tela de design. O aplicativo inclui componentes de front-end, recuperação, IA, gerenciamento de secrets e banco de dados.

Confira a seguir o fluxo de processamento de solicitações do aplicativo:

  1. Carregue dados em um banco de dados PostgreSQL no Cloud SQL.
  2. A Vertex AI cria embeddings de campos de texto e os armazena como vetores no banco de dados.
  3. Um front-end do Cloud Load Balancing recebe solicitações externas e distribui o tráfego para o back-end do Cloud Load Balancing.
  4. O back-end do Cloud Load Balancing distribui o tráfego para o serviço de front-end do Cloud Run.
  5. O serviço de front-end se comunica com um serviço de recuperação para uma chamada de IA generativa.
  6. O serviço de recuperação usa o Secret Manager para acessar com segurança chaves de API e credenciais necessárias para acessar a Vertex AI e o Cloud SQL.
  7. O serviço de recuperação converte a solicitação em um embedding e pesquisa vetores semelhantes no banco de dados do Cloud SQL.
  8. O serviço de recuperação envia os resultados da pesquisa e o comando original à Vertex AI para criar uma resposta.

A seguir