Choisir des modèles et une infrastructure pour votre application d'IA générative

Découvrez les produits, frameworks et outils qui correspondent le mieux à la création de votre application d'IA générative. L'image suivante illustre les composants courants d'une application d'IA générative hébergée dans le cloud.
Diagramme de Venn illustrant les composants d'un système d'IA générative Diagramme de Venn illustrant les composants d'un système d'IA générative
  1. Hébergement d'application : calculez pour héberger votre application. Votre application peut utiliser les bibliothèques clientes et SDK de Google Cloud pour communiquer avec différents produits Cloud.

  2. Hébergement de modèles : hébergement évolutif et sécurisé pour un modèle génératif.

  3. Modèle : modèle génératif pour le texte, le chat, les images, le code, les représentations vectorielles continues et le multimodal.

  4. Solution d'ancrage : ancrez la sortie du modèle sur des sources d'informations vérifiables et mises à jour.

  5. Base de données: stockez les données de votre application. Vous pouvez réutiliser votre base de données existante comme solution d'ancrage, en augmentant les requêtes via une requête SQL et/ou en stockant vos données sous forme d'embeddings à l'aide d'une extension telle que pgvector.

  6. Stockage: stockez des fichiers, tels que des images, des vidéos ou des interfaces Web statiques. Vous pouvez également utiliser le stockage pour les données brutes d'ancrage (par exemple, PDF) que vous convertissez ensuite en embeddings et stockez dans une base de données vectorielle.

Les sections ci-dessous présentent chacun de ces composants et vous aident à choisir les produits Google Cloud à essayer.

Infrastructure d'hébergement d'applications

Choisissez un produit pour héberger et diffuser votre charge de travail d'application, qui appelle le modèle génératif.

Vous souhaitez utiliser une infrastructure sans serveur gérée ?

fermer
check
Cloud Run
fermer

Votre application peut-elle être conteneurisée ?

fermer
check
Kubernetes Engine
fermer

Infrastructure d'hébergement de modèles

Google Cloud propose plusieurs solutions pour héberger un modèle génératif, de la plate-forme Vertex AI phare à l'hébergement portable et personnalisable sur Google Kubernetes Engine.

Vous utilisez Gemini et avez besoin de fonctionnalités d'entreprise telles que la mise à l'échelle, la sécurité, la confidentialité des données et l'observabilité.

check
fermer
API Gemini pour les développeurs
check

Vous souhaitez bénéficier d'une infrastructure entièrement gérée, avec des API et des outils d'IA générative de premier ordre ?

fermer
check
Vertex AI
fermer

Votre modèle nécessite-t-il un noyau spécialisé, un ancien système d'exploitation ou des conditions de licence spéciales ?

fermer
check
Compute Engine
fermer

Modèle

Google Cloud fournit un ensemble de modèles de fondation de pointe via Vertex AI, y compris Gemini. Vous pouvez également déployer un modèle tiers vers Vertex AI Model Garden ou l'auto-hébergement sur GKE, Cloud Run ou Compute Engine.

Création du code ?

fermer
check
Codey (Vertex AI)
fermer

Génération d'images ?

fermer
check
Imagen (Vertex AI)
fermer

Génération d'embeddings pour la recherche, la classification ou le clustering ?

fermer
check
text-embedding (Vertex AI)
fermer

Vous souhaitez générer du texte. Souhaitez-vous inclure des images ou des vidéos dans vos invites de texte ? (Multimode)

fermer
check
Gemini (Vertex AI)
fermer

D'accord, uniquement des invites textuelles. Vous souhaitez exploiter le modèle phare le plus performant de Google ?

fermer
check
Gemini (Vertex AI)
fermer

Ancrage et RAG

Pour garantir des réponses de modèle précises et éclairées, ancrez votre application d'IA générative sur des données en temps réel. C'est ce que l'on appelle la génération augmentée par récupération (RAG).

Si vous souhaitez générer du contenu basé sur des informations à jour provenant d'Internet, les modèles Gemini peuvent évaluer si les connaissances du modèle sont suffisantes ou si un ancrage avec la recherche Google est nécessaire.

Vous pouvez implémenter une mise à la terre à l'aide d'un indice de vos données avec un moteur de recherche. De nombreux moteurs de recherche stockent désormais des représentations vectorielles continues dans une base de données vectorielle, qui est un format optimal pour les opérations telles que la recherche de similarité. Google Cloud propose plusieurs solutions de base de données vectorielle pour différents cas d'utilisation.

Remarque: Vous pouvez baser vos données sur des bases de données non vectorielles en interrogeant une base de données existante telle que Cloud SQL ou Firestore, puis en utilisant le résultat de la requête dans la requête de votre modèle.

Souhaitez-vous une solution optimisée entièrement gérée qui prend en charge la plupart des sources de données et empêche l'accès direct aux représentations vectorielles continues sous-jacentes ?

fermer
check
Vertex AI Search
fermer
Vous créez un moteur de recherche pour la génération augmentée de récupération (RAG).

Voulez-vous créer un moteur de recherche pour le RAG à l'aide d'un orchestrateur géré avec une interface semblable à celle de LlamaIndex ?

fermer
check
Moteur Vertex AI RAG
fermer
Vous pouvez utiliser une architecture de référence pour créer un moteur de recherche sur mesure et une base de données vectorielle pour les cas d'utilisation de l'approche RAG.
fermer

Avez-vous besoin d'une recherche vectorielle à faible latence, d'une diffusion à grande échelle ou d'une base de données vectorielle spécialisée et optimisée ?

fermer
check
Vertex AI Vector Search
fermer

Vos données sont-elles accessibles de manière automatisée (OLTP) ? Utilisez-vous déjà une base de données SQL ?

fermer
check

Vous souhaitez utiliser les modèles d'IA de Google directement à partir de votre base de données ? Nécessitent-ils une faible latence ?

check
fermer
fermer

Vous disposez d'un grand ensemble de données analytiques (OLAP) ? Avez-vous besoin d'un traitement par lot et d'un accès fréquent aux tables SQL par des humains ou des scripts (data science) ?

check
BigQuery

Ancrage avec les API

Au lieu d'utiliser vos propres données pour l'ancrage (ou en plus), de nombreux services en ligne proposent des API que vous pouvez utiliser pour récupérer des données d'ancrage afin d'enrichir votre requête de modèle.
Créez, déployez et gérez des extensions qui connectent de grands modèles de langage aux API de systèmes externes.
Découvrez différents chargeurs de documents et intégrations d'API pour vos applications d'IA générative, de YouTube à Google Scholar.
Si vous utilisez des modèles hébergés dans Vertex AI, vous pouvez ancrer des réponses de modèle à l'aide de Vertex AI Search, de la recherche Google ou de texte intégré/infile.

Démarrer la création

LangChain est un framework Open Source pour les applications d'IA générative qui vous permet d'intégrer du contexte dans vos requêtes et d'agir en fonction de la réponse du modèle.

Affichez des exemples de code sélectionnés pour des cas d'utilisation courants et déployez des exemples d'applications d'IA générative sécurisées, efficaces, résilientes, performantes et économiques.