IA generativa RAG com o Cloud SQL

Este guia ajuda a compreender o modelo IA generativa RAG com o Cloud SQL, que é um modelo fornecido pela Google para uma app de chat. Este modelo demonstra como pode criar uma aplicação de chat que usa a geração aumentada de recuperação (RAG). Quando os utilizadores fazem perguntas na app, esta fornece respostas com base nas informações armazenadas como vetores numa base de dados.

Produtos usados

A aplicação contém os seguintes Google Cloud produtos:

  • Cloud Load Balancing (opcional): um serviço que oferece balanceamento de carga escalável e de alto desempenho no Google Cloud.
  • Vertex AI: uma plataforma de aprendizagem automática (ML) que lhe permite preparar e implementar modelos de ML e aplicações de IA, bem como personalizar MDGs para utilização em aplicações.
  • Cloud SQL: um serviço baseado na nuvem para bases de dados MySQL, PostgreSQL e SQL Server totalmente gerido na infraestrutura doGoogle Cloud .
  • Cloud Run: um serviço totalmente gerido que lhe permite criar e implementar apps contentorizadas sem servidor. OGoogle Cloud processa o dimensionamento e outras tarefas de infraestrutura.
  • Secret Manager: sistema de armazenamento seguro e conveniente para chaves de API, palavras-passe, certificados e outros dados confidenciais.

Arquitetura

A imagem seguinte mostra os componentes e as ligações na aplicação:

Uma aplicação RAG de IA generativa na tela de design. A aplicação inclui componentes de front-end, obtenção, IA, gestão de segredos e base de dados.

Segue-se o fluxo de processamento de pedidos da aplicação:

  1. Carrega dados para uma base de dados PostgreSQL no Cloud SQL.
  2. O Vertex AI cria incorporações de campos de texto e armazena-as como vetores.
  3. Uma interface do Cloud Load Balancing recebe pedidos externos e distribui o tráfego para o back-end do Cloud Load Balancing.
  4. O back-end do Cloud Load Balancing distribui o tráfego para o serviço de front-end do Cloud Run.
  5. O serviço de front-end comunica com o serviço de obtenção para uma chamada de IA generativa.
  6. O serviço de back-end converte o pedido numa incorporação e pesquisa incorporações existentes.
  7. O serviço de obtenção envia resultados de linguagem natural da pesquisa de incorporações, juntamente com o comando original, para o Vertex AI para criar uma resposta.

O que se segue?