API Vertex AI pour créer des expériences de recherche et de RAG

Vertex AI propose une suite d'API pour vous aider à créer des applications de génération augmentée par récupération (RAG) ou un moteur de recherche. Cette page présente ces API.

Récupération et génération

Le RAG est une méthodologie qui permet aux grands modèles de langage (LLM) de générer des réponses basées sur la source de données de votre choix. Le RAG comporte deux étapes :

  1. Récupération : obtenir rapidement les faits les plus pertinents peut être un problème de recherche courant. Avec le RAG, vous pouvez récupérer rapidement les faits importants pour générer une réponse.
  2. Génération : les faits récupérés sont utilisés par le LLM pour générer une réponse ancrée.

Vertex AI propose des options pour les deux étapes afin de répondre aux besoins des développeurs.

Récupération

Choisissez la méthode de récupération la mieux adaptée à vos besoins :

  • Agent Search : Agent Search est un moteur de récupération d'informations de qualité Google Search qui peut être un composant de toute application d'IA générative utilisant vos données d'entreprise. Agent Search fonctionne comme un moteur de recherche sémantique et par mots clés prêt à l'emploi pour le RAG. Il est capable de traiter différents types de documents et de se connecter à différents systèmes sources, y compris BigQuery et de nombreux systèmes tiers.

    Pour en savoir plus, consultez Agent Search.

  • Créer votre propre récupération : si vous souhaitez créer votre recherche sémantique, vous pouvez vous appuyer sur les API Vertex AI pour les composants de votre système RAG personnalisé. Cette suite d'API fournit des implémentations de haute qualité pour l'analyse de documents, la génération d'embeddings, la recherche vectorielle et le classement sémantique. L'utilisation de ces API de niveau inférieur vous offre une flexibilité totale dans la conception de votre récupérateur, tout en accélérant le délai de mise sur le marché et en garantissant une qualité élevée grâce aux API Vertex AI de niveau inférieur.

    Pour en savoir plus, consultez Créer votre propre génération augmentée par récupération.

  • Apporter une récupération existante : vous pouvez utiliser votre recherche existante comme récupérateur pour la génération ancrée. Vous pouvez également ancrer les réponses à l'aide du RAG pour améliorer la qualité de votre recherche existante. Pour en savoir plus, consultez la page Présentation de l'ancrage.

  • Moteur RAG Vertex AI : le moteur RAG Vertex AI fournit un environnement d'exécution entièrement géré pour l'orchestration du RAG, ce qui permet aux développeurs de créer un RAG à utiliser dans des contextes de production et d'entreprise.

    Pour en savoir plus, consultez la présentation du moteur RAG Vertex AI dans la documentation sur l'IA générative sur Vertex AI.

  • Recherche Google : lorsque vous utilisez l'ancrage avec la recherche Google pour votre modèle Gemini, Gemini utilise la recherche Google et génère une sortie basée sur les résultats de recherche pertinents. Cette méthode de récupération ne nécessite aucune gestion et vous permet d'accéder aux connaissances du monde entier disponibles pour Gemini.

    Pour en savoir plus, consultez la section Ancrage avec la recherche Google dans la documentation sur l'IA générative sur Vertex AI.

Génération

Choisissez la méthode de génération la mieux adaptée à vos besoins :

  • Ancrer avec vos données: générez des réponses bien ancrées à la requête d'un utilisateur. L'API de génération ancrée utilise des modèles Gemini spécialisés et affinés. Elle permet de réduire efficacement les hallucinations et de fournir des réponses basées sur vos sources ou des sources tierces, y compris des références au contenu d'aide à l'ancrage.

    Pour en savoir plus, consultez Générer des réponses ancrées avec le RAG.

    Vous pouvez également ancrer les réponses à vos données Agent Search à l'aide de l'IA générative sur Vertex AI. Pour en savoir plus, consultez Ancrer avec vos données.

  • Ancrer avec la recherche Google : Gemini est le modèle le plus performant de Google et offre un ancrage prêt à l'emploi avec la recherche Google. Vous pouvez l'utiliser pour créer votre solution de génération ancrée entièrement personnalisée.

    Pour en savoir plus, consultez la section Ancrage avec la recherche Google dans la documentation sur l'IA générative sur Vertex AI.

  • Model Garden : si vous souhaitez un contrôle total et le modèle de votre choix, vous pouvez utiliser n'importe quel modèle de Vertex AI Model Garden pour la génération.

Créer votre propre génération augmentée par récupération

Le développement d'un système RAG personnalisé pour l'ancrage offre flexibilité et contrôle à chaque étape du processus. Vertex AI propose une suite d'API pour vous aider à créer vos propres solutions de recherche. L'utilisation de ces API vous offre une flexibilité totale dans la conception de votre application RAG, tout en accélérant le délai de mise sur le marché et en garantissant une qualité élevée grâce à ces API Vertex AI de niveau inférieur.

  • L'analyseur de mise en page Document AI L'analyseur de mise en page Document AI transforme les documents de différents formats en représentations structurées, ce qui rend le contenu tel que les paragraphes, les tableaux, les listes et les éléments structurels tels que les titres, les en-têtes et les pieds de page accessibles. Il crée également des segments contextuels qui facilitent la récupération d'informations dans diverses applications d'IA générative et de découverte.

    Pour en savoir plus, consultez Analyseur de mise en page Document AI dans la documentation Document AI.

  • API Embeddings : les API d'embeddings Vertex AI vous permettent de créer des embeddings pour des entrées textuelles ou multimodales. Les embeddings sont des vecteurs de nombres à virgule flottante conçus pour capturer la signification de leur entrée. Vous pouvez utiliser les embeddings pour optimiser la recherche sémantique à l'aide de la recherche vectorielle.

    Pour en savoir plus, consultez Embeddings textuels et Embeddings multimodaux dans la documentation sur l'IA générative sur Vertex AI.

  • Recherche vectorielle Le moteur de récupération est un élément clé de votre application RAG ou de recherche. Vertex AI Vector Search est un moteur de récupération capable de rechercher parmi des milliards d'éléments sémantiquement similaires ou associés à grande échelle, avec un nombre élevé de requêtes par seconde (RPS), un taux de rappel élevé, une faible latence et une meilleure rentabilité. Il peut effectuer des recherches sur des embeddings denses et est compatible avec la recherche par mot clé d'embeddings clairsemés et la recherche hybride en Preview publique.

    Pour en savoir plus, consultez Présentation de Vertex AI Vector Search dans la documentation sur Vertex AI.

  • L'API de classement L'API de classement prend une liste de documents et les classe à nouveau en fonction de leur pertinence par rapport à une requête donnée. Par rapport aux embeddings qui examinent uniquement la similarité sémantique d'un document et d'une requête, l'API de classement peut vous donner un score plus précis sur la qualité de la réponse d'un document à une requête donnée.

    Pour en savoir plus, consultez Améliorer la qualité de la recherche et du RAG avec l'API de classement.

  • L'API de génération ancrée Utilisez l'API de génération ancrée pour générer des réponses bien ancrées au prompt d'un utilisateur. Les sources d'ancrage peuvent être vos datastores Agent Search, des données personnalisées que vous fournissez ou la recherche Google.

    Pour en savoir plus, consultez Générer des réponses ancrées.

  • L'API de génération de contenu Utilisez l'API de génération de contenu pour générer des réponses bien ancrées au prompt d'un utilisateur. Les sources d'ancrage peuvent être vos datastores Agent Search ou la recherche Google.

    Pour en savoir plus, consultez Ancrer avec la recherche Google ou Ancrer avec vos données.

  • L'API de vérification de l'ancrage L'API de vérification de l'ancrage détermine le niveau d'ancrage d'un texte donné dans un ensemble de textes de référence donné. L'API peut générer des citations d'assistance à partir du texte de référence pour indiquer où le texte donné est pris en charge par les textes de référence. Entre autres, l'API peut être utilisée pour évaluer le niveau d'ancrage des réponses d'un système RAG. De plus, en tant que fonctionnalité expérimentale, l'API génère également des citations contradictoires qui montrent où le texte donné et les textes de référence ne sont pas d'accord.

    Pour en savoir plus, consultez Vérifier l'ancrage.

Workflow : générer des réponses ancrées à partir de données non structurées

Voici un workflow qui explique comment intégrer les API RAG Vertex AI pour générer des réponses ancrées à partir de données non structurées.

  1. Importez vos documents non structurés, tels que des fichiers PDF, des fichiers HTML ou des images contenant du texte, dans un emplacement Cloud Storage.
  2. Traitez les documents importés à l'aide de l'analyseur de mise en page. L'analyseur de mise en page divise les documents non structurés en segments et transforme le contenu non structuré en sa représentation structurée. L'analyseur de mise en page extrait également les annotations des segments.
  3. Créez des embeddings textuels pour les segments à l'aide de l'API d'embeddings textuels Vertex AI.
  4. Indexez et récupérez les embeddings de segments à l'aide de Vector Search.
  5. Classez les segments à l'aide de l'API de classement et déterminez les segments les mieux classés.
  6. Générez des réponses ancrées en fonction des segments les mieux classés à l’aide de l’API de génération ancrée ou à l’aide de l’API de génération de contenu.

Si vous avez généré les réponses à l'aide d'un modèle de génération de réponses autre que les modèles Google, vous pouvez vérifier l'ancrage de ces réponses à l'aide de la méthode de vérification de l'ancrage.