RAG di IA generativa con Cloud SQL

Crea un'applicazione di chat di AI generativa che utilizza la Retrieval Augmented Generation (RAG) per fornire risposte fondate e accurate in base ai dati della tua organizzazione. Questa guida descrive il modello di applicazione RAG di AI generativa con Cloud SQL, che puoi personalizzare in base alle tue esigenze specifiche ed eseguire il deployment come applicazione.

Ad esempio, potresti implementare questo modello per soddisfare le seguenti esigenze aziendali:

Esempio Esigenza aziendale Implementazione
Chatbot di assistenza clienti Le aziende devono fornire assistenza clienti immediata. Ospita l'interfaccia di chat su Cloud Run. Vertex AI elabora gli incorporamenti e genera risposte basate sulla documentazione tecnica archiviata come vettori in Cloud SQL.
Assistente HR interno I dipendenti devono trovare informazioni su benefit, policy aziendali e procedure interne. Ospita l'assistente RU su Cloud Run. Quando i dipendenti interrogano lo strumento, Vertex AI recupera le informazioni sulle norme pertinenti da Cloud SQL per generare risposte accurate e basate su fonti.
Ricercatore di documenti legali I team legali devono trovare rapidamente giurisprudenza o clausole contrattuali pertinenti in grandi repository di documenti. Ospita il portale di ricerca su Cloud Run. Vertex AI riepiloga i precedenti pertinenti e identifica un linguaggio specifico nei contratti utilizzando i documenti legali archiviati come vettori in Cloud SQL.
Ricerca semantica dei prodotti Le aziende di e-commerce vogliono facilitare le ricerche di prodotti utilizzando descrizioni in linguaggio naturale anziché parole chiave esatte. Ospita l'interfaccia di ricerca su Cloud Run. Vertex AI elabora le descrizioni degli utenti per restituire i prodotti semanticamente più pertinenti dai cataloghi di prodotti archiviati come vettori in Cloud SQL.

Architettura

La seguente immagine mostra i componenti e le connessioni nell'applicazione:

Un'applicazione RAG di AI generativa nel canvas di progettazione. L'applicazione include componenti di frontend, recupero, AI, gestione dei secret e database.

Di seguito è riportato il flusso di elaborazione delle richieste dell'applicazione:

  1. Carica i dati in un database PostgreSQL in Cloud SQL.
  2. Vertex AI crea incorporamenti dei campi di testo e li archivia come vettori nel database.
  3. Un frontend Cloud Load Balancing riceve le richieste esterne e distribuisce il traffico al backend Cloud Load Balancing.
  4. Il backend di Cloud Load Balancing distribuisce il traffico al servizio di frontend Cloud Run.
  5. Il servizio di frontend comunica con un servizio di recupero per una chiamata di AI generativa.
  6. Il servizio di recupero utilizza Secret Manager per accedere in modo sicuro a chiavi API e credenziali necessarie per accedere a Vertex AI e Cloud SQL.
  7. Il servizio di recupero converte la richiesta in un embedding e cerca vettori simili nel database Cloud SQL.
  8. Il servizio di recupero invia i risultati della ricerca, insieme al prompt originale, a Vertex AI per creare una risposta.

Passaggi successivi