API Vertex AI per la creazione di esperienze di ricerca e RAG

Vertex AI offre una suite di API per aiutarti a creare applicazioni di Retrieval-Augmented Generation (RAG) o un motore di ricerca. Questa pagina presenta queste API.

Recupero e generazione

RAG è una metodologia che consente ai modelli linguistici di grandi dimensioni (LLM) di generare risposte basate sull'origine dati di tua scelta. Sono previste due fasi in RAG:

  1. Recupero: recuperare rapidamente le informazioni più pertinenti può essere un comune problema di ricerca. Con RAG, puoi recuperare rapidamente le informazioni importanti per generare una risposta.
  2. Generazione: le informazioni recuperate vengono utilizzate dal modello LLM per generare una risposta basata su grounding.

Vertex AI offre opzioni per entrambe le fasi per soddisfare le diverse esigenze degli sviluppatori.

Recupero

Scegli il metodo di recupero più adatto alle tue esigenze:

  • Agent Search: Agent Search è un motore di recupero di informazioni di qualità pari alla Ricerca Google che può essere un componente di qualsiasi applicazione di AI generativa che utilizza i dati aziendali. Agent Search funziona come un motore di ricerca semantica e per parole chiave predefinito per RAG con la capacità di elaborare una varietà di tipi di documenti e con connettori a una varietà di sistemi di origine, tra cui BigQuery e molti sistemi di terze parti.

    Per ulteriori informazioni, vedi Agent Search.

  • Crea il tuo recupero: se vuoi creare la tua ricerca semantica, puoi fare affidamento sulle API di Vertex AI per i componenti del tuo sistema RAG personalizzato. Questa suite di API fornisce implementazioni di alta qualità per l'analisi dei documenti, la generazione di embedding, la ricerca vettoriale e il ranking semantico. L'utilizzo di queste API di livello inferiore ti offre la massima flessibilità nella progettazione del recuperatore, offrendo al contempo un time-to-market accelerato e un'alta qualità grazie all'utilizzo delle API di Vertex AI di livello inferiore.

    Per ulteriori informazioni, vedi Crea la tua Retrieval-Augmented Generation.

  • Utilizza un recupero esistente: puoi utilizzare la ricerca esistente come recuperatore per la generazione basata su grounding. Puoi anche basare le risposte utilizzando RAG per eseguire l'upgrade della ricerca esistente a una qualità superiore. Per ulteriori informazioni, vedi Panoramica del grounding.

  • Vertex AI RAG Engine: Vertex AI RAG Engine fornisce un runtime completamente gestito per l'orchestrazione RAG, che consente agli sviluppatori di creare RAG per l'utilizzo in contesti di produzione e aziendali.

    Per ulteriori informazioni, vedi Panoramica di Vertex AI RAG Engine nella documentazione sull'AI generativa su Vertex AI.

  • Ricerca Google: quando utilizzi il grounding con Ricerca Google per il tuo modello Gemini, Gemini utilizza la Ricerca Google e genera output basati sui risultati di ricerca pertinenti. Questo metodo di recupero non richiede la gestione e ti consente di accedere alle conoscenze mondiali disponibili per Gemini.

    Per ulteriori informazioni, vedi Grounding con la Ricerca Google nella documentazione sull'AI generativa su Vertex AI.

Generazione

Scegli il metodo di generazione più adatto alle tue esigenze:

  • Grounding con i tuoi dati: genera risposte basate su grounding alla query di un utente. L'API di generazione basata su grounding utilizza modelli Gemini specializzati e ottimizzati ed è un modo efficace per ridurre le allucinazioni e fornire risposte basate sulle tue origini o su origini di terze parti, inclusi i riferimenti ai contenuti di supporto per il grounding.

    Per ulteriori informazioni, vedi Generare risposte basate su grounding con RAG.

    Puoi anche basare le risposte sui dati di Agent Search utilizzando l'AI generativa su Vertex AI. Per ulteriori informazioni, vedi Grounding con i tuoi dati.

  • Grounding con la Ricerca Google: Gemini è il modello più potente di Google e offre il grounding predefinito con la Ricerca Google. Puoi utilizzarlo per creare la tua soluzione di generazione basata su grounding completamente personalizzata.

    Per ulteriori informazioni, vedi Grounding con la Ricerca Google in nella documentazione sull'AI generativa su Vertex AI.

  • Model Garden: se vuoi avere il controllo completo e il modello di tua scelta, puoi utilizzare uno qualsiasi dei modelli in Vertex AI Model Garden per la generazione.

Crea la tua Retrieval-Augmented Generation

Lo sviluppo di un sistema RAG personalizzato per il grounding offre flessibilità e controllo in ogni fase del processo. Vertex AI offre una suite di API per aiutarti a creare le tue soluzioni di ricerca. L'utilizzo di queste API ti offre la massima flessibilità nella progettazione dell'applicazione RAG, offrendo al contempo un time-to-market accelerato e un'alta qualità grazie all'utilizzo di queste API di Vertex AI di livello inferiore.

  • Il parser del layout di Document AI. Il parser del layout di Document AI trasforma i documenti in vari formati in rappresentazioni strutturate, rendendo accessibili contenuti come paragrafi, tabelle, elenchi ed elementi strutturali come intestazioni, intestazioni di pagina e piè di pagina e creando blocchi sensibili al contesto che facilitano il recupero di informazioni in una serie di app di AI generativa e di rilevamento.

    Per ulteriori informazioni, vedi Parser del layout di Document AI nella documentazione di Document AI.

  • API Embeddings: le API di embedding di Vertex AI consentono di creare embedding per input di testo o multimodali. Gli embedding sono vettori di numeri con rappresentazione in virgola mobile progettati per acquisire il significato dell'input. Puoi utilizzare gli embedding per potenziare la ricerca semantica utilizzando la ricerca vettoriale.

    Per ulteriori informazioni, vedi Text embedding e Multimodal embedding nella documentazione sull'AI generativa su Vertex AI.

  • Ricerca vettoriale. Il motore di recupero è una parte fondamentale dell'applicazione RAG o di ricerca. Vertex AI Vector Search è un motore di recupero in grado di cercare tra miliardi di elementi semanticamente simili o semanticamente correlati su larga scala, con un elevato numero di query al secondo (QPS), un richiamo elevato, una bassa latenza e un'efficienza in termini di costi. Può eseguire ricerche su embedding densi e supporta la ricerca per parole chiave di embedding sparse e la ricerca ibrida in anteprima pubblica.

    Per ulteriori informazioni, vedi: Panoramica di Vertex AI Vector Search nella documentazione di Vertex AI.

  • L'API di ranking. L'API di ranking accetta un elenco di documenti e li riordina in base alla loro pertinenza per una determinata query. Rispetto agli embedding che esaminano esclusivamente la somiglianza semantica di un documento e di una query, l'API di ranking può fornire un punteggio più preciso per la qualità della risposta di un documento a una determinata query.

    Per ulteriori informazioni, vedi Migliorare la qualità della ricerca e di RAG con l'API di ranking.

  • L'API di generazione basata su grounding. Utilizza l'API di generazione basata su grounding per generare risposte basate su grounding al prompt di un utente. Le origini di grounding possono essere i datastore di Agent Search, i dati personalizzati che fornisci o la Ricerca Google.

    Per ulteriori informazioni, vedi Generare risposte basate su grounding.

  • L'API di generazione di contenuti. Utilizza l'API di generazione di contenuti per generare risposte basate su grounding al prompt di un utente. Le origini di grounding possono essere i datastore di Agent Search o la Ricerca Google.

    Per ulteriori informazioni, vedi Grounding con la Ricerca Google o Grounding con i tuoi dati.

  • L'API di controllo del grounding. L'API di controllo del grounding determina il livello di grounding di un determinato testo in un determinato insieme di testi di riferimento. L'API può generare citazioni di supporto dal testo di riferimento per indicare dove il testo specificato è supportato dai testi di riferimento. Tra le altre cose, l'API può essere utilizzata per valutare il livello di grounding delle risposte di un sistema RAG. Inoltre, come funzionalità sperimentale, l'API genera anche citazioni contraddittorie che mostrano dove il testo specificato e i testi di riferimento non sono d'accordo.

    Per ulteriori informazioni, vedi Controllare il grounding.

Flusso di lavoro: generare risposte basate su grounding da dati non strutturati

Di seguito è riportato un flusso di lavoro che descrive come integrare le API RAG di Vertex AI per generare risposte basate su grounding da dati non strutturati.

  1. Importa i documenti non strutturati, ad esempio file PDF, file HTML o immagini con testo, in una posizione di Cloud Storage.
  2. Elabora i documenti importati utilizzando il parser del layout. Il parser del layout suddivide i documenti non strutturati in blocchi e trasforma i contenuti non strutturati nella loro rappresentazione strutturata. Il parser del layout estrae anche le annotazioni dai blocchi.
  3. Crea text embedding per i blocchi utilizzando l'API Vertex AI Text Embedding.
  4. Indicizza e recupera gli embedding dei blocchi utilizzando la ricerca vettoriale.
  5. Classifica i blocchi utilizzando l'API di ranking e determina i blocchi con il ranking più alto.
  6. Genera risposte basate su grounding in base ai blocchi con il ranking più alto utilizzando l'API di generazione basata su grounding o utilizzando l'API di generazione di contenuti.

Se hai generato le risposte utilizzando un modello di generazione di risposte diverso dai modelli Google, puoi controllare il grounding di queste risposte utilizzando il metodo di controllo del grounding.