Concevoir des requêtes multimodales

L'API Gemini dans Vertex AI vous permet d'inclure des entrées multimodales telles que du texte, des images et des vidéos dans votre requête aux modèles Gemini. Cette page présente les bonnes pratiques pour concevoir des requêtes multimodales et explique comment résoudre les problèmes si vos requêtes ne fonctionnent pas comme prévu. Pour obtenir des conseils généraux sur la conception des requêtes, consultez nos stratégies de conception des requêtes recommandées ou la liste suivante des bonnes pratiques spécifiques au multimodal.

Principes de base de la conception d'invites

Utiliser des instructions spécifiques

Les requêtes claires et détaillées donnent les meilleurs résultats. Si vous avez une sortie spécifique en tête, incluez cette exigence dans la requête pour augmenter la probabilité d'obtenir la sortie correcte.

Même lorsqu'une requête semble claire pour celui qui l'a écrite, elle peut manquer d'informations. Pour personnaliser le comportement du modèle, réfléchissez à la façon dont votre requête peut être interprétée et assurez-vous que les instructions que vous fournissez sont spécifiques et claires.

Si vous avez inclus l'image d'un tableau d'aéroport ci-dessous dans votre requête, demander au modèle de "décrire cette image" peut générer une description générale. Si vous avez besoin du modèle pour analyser une heure et une ville à partir de l'image, incluez cette requête directement dans votre requête.

Requête Réponse de modèle
Tableau des horaires d'un aéroport avec des heures et des villes.

Décris cette image.

L'image montre un tableau des arrivées et des départs d'aéroport.

Requête mise à jour Réponse améliorée
Tableau des horaires d'un aéroport avec des heures et des villes.

Analysez les heures et les villes du tableau d'aéroport présent l'image ci-dessous et affichez-les sous forme de liste.

  • 10:50 Moscou
  • 11:05 Édimbourg
  • 11:05 Londres
  • 11:10 Bucarest
  • 11:30 Kiev
  • 11:35 Dublin
  • 11:45 Midlands de l'Est
  • 12:15 Sofia
  • 12:30 Londres
  • 12:30 Newcastle
  • 12:40 Saint-Pétersbourg
  • 12:40 Londres
  • 12:45 Manchester

Ajouter des exemples

Le modèle peut accepter plusieurs entrées à utiliser comme exemples pour comprendre la sortie que vous souhaitez. L'ajout de ces exemples peut aider le modèle à identifier les schémas et à appliquer la relation entre les images et les réponses fournies au nouvel exemple. C'est ce qu'on appelle l'apprentissage few-shot.

Dans l'exemple suivant, la sortie initiale est une phrase complète qui contient également le pays (Brésil). Si la sortie préférée n'est que la ville, et non le pays, l'ajout d'exemples few-shot à votre requête peut aider le modèle à répondre dans ce format.

Requête Réponse de modèle
La statue du Christ Rédempteur à Rio de Janeiro, au Brésil.

Déterminez la ville et le repère.

Le repère est la statue du Christ Rédempteur à Rio de Janeiro, au Brésil.

Requête mise à jour Réponse améliorée

Déterminez la ville et le repère.

Le Colisée à Rome, en Italie.

ville : Rome ; repère : le Colisée.

La Cité interdite à Pékin, en Chine.

ville : Pékin ; repère : la Cité interdite

La statue du Christ Rédempteur à Rio de Janeiro, au Brésil.

Ville : Rio de Janeiro ; repère : statue du Christ Rédempteur

Diviser les tâches complexes en tâches plus petites

Pour les tâches complexes telles que celles nécessitant une compréhension visuelle et un raisonnement, divisez la tâche en étapes plus petites et plus simples, ou demandez directement au modèle de réfléchir étape par étape dans la requête.

Requête Réponse de modèle
Image de trois rouleaux de papier toilette.

Quand vais-je manquer de papier toilette ?

Bientôt, car il ne vous reste que trois rouleaux.

Requête mise à jour Réponse améliorée
Image de trois rouleaux de papier toilette.
  1. Commencez par compter le nombre de rouleaux de papier toilette apparaissant sur cette photo.
  2. Déterminez ensuite la quantité de papier toilette qu'une personne type utilise par jour.
  3. Calculez la durée de vie de ces rouleaux de papier toilette.
  1. Sur cette photo, on voit trois rouleaux de papier toilette.
  2. Une personne type utilise environ 20 feuilles de papier toilette par jour.
  3. Si un rouleau contient 200 feuilles, chaque rouleau dure environ 10 jours. Par conséquent, les trois rouleaux dureront environ un mois.

Les problèmes mathématiques ou les problèmes basés sur les mots peuvent également être décomposés en tâches plus petites.

Requête Réponse
Image de la séquence mathématique b. b(1) = 15 et b(n) = b(n-1) * (-3).

Quel est le quatrième terme de la séquence ?

-135

La réponse du modèle est incorrecte. Essayez de demander au modèle d'analyser le problème avant de répondre à la requête.

Requête Réponse
Image de la séquence mathématique b. b(1) = 15 et b(n) = b(n-1) * (-3).

Analysez d'abord la formule dans l'image.

Ensuite, en fonction de la formule, répondez à la question "Quel est le quatrième terme de la séquence ?".

Cliquez pour développer le résultat $$b(n) = b(n-1) * (-3)$$ $$b(1) = 15$$
  1. Remplacez "n = 4" dans la formule :

    $$b(4) = b(4-1) * (-3)$$

    $$b(4) = b(3) * (-3)$$

  2. Nous ne connaissons pas la valeur de b(3). Remplacez donc n = 3 dans la formule :

    $$b(3) = b(3-1) * (-3)$$

    $$b(3) = b(2) * (-3)$$

  3. Nous ne connaissons pas la valeur de b(2). Remplacez donc n = 2 dans la formule :

    $$b(2) = b(2-1) * (-3)$$

    $$b(2) = b(1) * (-3)$$

  4. Nous savons que la valeur de b(1) est 15. Remplacez-la par la formule :

    $$b(2) = 15 * (-3)$$

    $$b(2) = -45$$

  5. Maintenant que nous connaissons la valeur de b(2), remplacez-la dans la formule de b(3) :

    $$b(3) = b(2) * (-3)$$

    $$b(3) = -45 * (-3)$$

    $$b(3) = 135$$

  6. Maintenant que nous connaissons la valeur de b(3), remplacez-la dans la formule de b(4) :

    $$b(4) = b(3) * (-3)$$

    $$b(4) = 135 * (-3)$$

    $$b(4) = -405$$

Par conséquent, le quatrième terme de la séquence est -405.

Pour rendre la réponse encore plus simple, vous pouvez demander au modèle de réfléchir à la requête étape par étape.

Requête mise à jour Réponse améliorée
Image de la séquence mathématique b. b(1) = 15 et b(n) = b(n-1) * (-3).

Quel est le quatrième terme de la séquence ? Réfléchir étape par étape

Le premier terme est 15.

Le deuxième terme est b(1) * (-3) = 15 * (-3) = -45.

Le troisième terme est b(2) * (-3) = -45 * (-3) = 135.

Le quatrième terme est b(3) * (-3) = 135 * (-3) = -405.

Spécifier le format de sortie

Lorsqu'un format spécifique est requis, vous pouvez demander au modèle de l'utiliser pour son résultat.

Requête Réponse de modèle
Image d'une feuille de calcul dans Excel.

Analysez le tableau de cette image au format Markdown

| Subject   | Status      | Time    | Start date | Due on     |
|-----------|-------------|---------|------------|------------|
| Math      | Done        | 1.5 hrs | 11/29/2023 | 12/1/2023  |
| Geography | Done        | 30 min  | 12/2/2023  | 12/4/2023  |
| Physics   | In progress | 2 hrs   | 12/3/2023  | 12/5/2023  |
| Biology   | Not started | 6 hrs   | 11/2/2016  | 12/6/2023  |
        
Requête Réponse de modèle
Photo d'un plat avec des crevettes, des palourdes et d'autres ingrédients.

Fournissez la liste de tous les attributs suivants :

ingrédients, type de cuisine, végétarien ou non, au format JSON


        {
          "ingredients": [
            "rice",
            "shrimp",
            "clams",
            "mussels",
            "peas",
            "tomatoes",
            "onions",
            "garlic",
            "olive oil",
            "paprika",
            "salt",
            "pepper"
          ],
          "type of cuisine": "Spanish",
          "vegetarian": false
        }
        

Résoudre les problèmes liés à une requête multimodale

Pour résoudre les problèmes liés à une requête, vous pouvez améliorer le langage de votre requête, orienter son contenu ou ajuster les paramètres. Ces différentes approches peuvent améliorer les résultats, en particulier après avoir déterminé la cause première du problème.

Se concentrer sur la partie pertinente d'une image

Pour améliorer la réponse, indiquez les parties de l'image les plus pertinentes pour la requête.

Requête Réponse de modèle
Photo du côté d'un paquet de couches ; le nombre 198 est écrit sur le paquet.

Combien de jours ces couches vont-elles durer avec un bébé ?

Les couches vont durer 198 jours avant d'être épuisées.

Requête mise à jour Réponse améliorée
Photo du côté d'un paquet de couches ; le nombre 198 est écrit sur le paquet.

Combien de temps vont durer ces couches avant d'être épuisées ?

Utilisez le poids indiqué sur la boîte pour déterminer l'âge de l'enfant et le nombre total de couches dans la boîte.

Divisez le nombre total par le nombre de couches utilisées par l'enfant chaque jour.

La boîte contient 198 couches. La boîte indique que les couches sont destinées à un enfant pesant entre 22 et 37 livres.

L'enfant correspondant à cette plage de poids a probablement 1 à 2 ans.

Un enfant de deux ans utilise généralement six couches par jour. Par conséquent, les couches vont durer environ 33 jours (198/6).

Adapter la réponse du modèle à la saisie

Demandez au modèle de décrire les images avant d'effectuer la tâche dans la requête.

Requête Réponse de modèle
Image d'une personne préparant une valise. Photo d'un couloir vide dans un centre commercial. Image de trois rouleaux de papier toilette. Image de nuages sombres se dissipant au-dessus de la mer.

Quel est le point commun entre ces images ?

Les quatre images sont des exemples de photographie de paysage.

Requête mise à jour Réponse améliorée
Image d'une personne préparant une valise. Photo d'un couloir vide dans un centre commercial. Image de trois rouleaux de papier toilette. Image de nuages sombres se dissipant au-dessus de la mer.

Commencez par décrire en détail le contenu de chaque image. Quel est le point commun entre ces images ?

La première image montre une personne préparant une valise. La deuxième image montre un couloir vide dans un centre commercial. La troisième image montre un rouleau de papier toilette. La quatrième image montre une mer sombre et orageuse.

Le point commun de ces images est qu'elles sont toutes des exemples d'espaces liminaux. Les espaces liminaux sont des lieux ou des situations situés entre deux autres lieux ou situations. Elles sont souvent caractérisées par un sentiment d'incertitude ou d'ambiguïté.

La première image montre la personne entre chez elle et en voyage. La deuxième image montre le couloir entre deux magasins. La troisième image montre du papier toilette, ce qui peut représenter une salle de bain. Une salle de bain est un espace de transition entre les domaines privé et public. C'est un endroit où nous nous préparons à pénétrer ou à quitter le monde extérieur.

La quatrième image montre une mer calme et orageuse.

Les espaces liminaux peuvent être à la fois intéressants et étranges. Ils peuvent constituer un début ou une fin. Ils peuvent représenter un lieu de réflexion ou d'action.

Vous pouvez demander explicitement au modèle de faire référence au contenu de l'image.

Requête mise à jour Réponse améliorée
Image d'une personne préparant une valise. Photo d'un couloir vide dans un centre commercial. Image de trois rouleaux de papier toilette. Image de nuages sombres se dissipant au-dessus de la mer.

Quel est le point commun entre ces images ? Reportez-vous au contenu des images dans votre réponse.

Toutes les images sont liées au voyage. La première image montre une personne préparant une valise, la deuxième montre un couloir vide dans un centre commercial, la troisième une pile de rouleaux de papier toilette, et la quatrième image montre une mer sombre et orageuse.

Ces images sont toutes liées au voyage, car elles correspondent à tout ce dont les gens ont besoin ou utilisent lorsqu'ils voyagent. La première image montre une personne préparant une valise. C'est une chose que font les personnes qui partent en voyage. La deuxième image montre un couloir vide dans un centre commercial. C'est un lieu où les gens se rendent pour acheter les articles dont ils ont besoin pour leur voyage. La troisième image montre une pile de rouleaux de papier toilette. C'est quelque chose que les gens utilisent lorsqu'ils voyagent. La quatrième image montre une mer sombre et orageuse. C'est ce que les gens rencontrent souvent lorsqu'ils voyagent.

Il en va de même pour les sorties créatives. Demandez explicitement au modèle d'inclure certains aspects de l'image, ce qui peut améliorer le résultat.

Requête Réponse de modèle
Image d'un lapin brun.

Peux-tu m'écrire un poème sur cette image ?

Little bunny, so soft and brown,
        Hopping through the field, up and down.
        Your ears so long, your tail so small,
        You're the cutest creature of them all.
You nibble on the grass, so green and sweet,
        And hop away when you see me.
        But I'll always be your friend,
        Little bunny, until the very end.
Requête mise à jour Réponse améliorée
Image d'un lapin brun.

Peux-tu m'écrire un poème descriptif et théâtral sur cette image et y inclure le lieu ?

Little bunny on the green,
        Ears so long, so keen.
        What do you see out there,
        In the distance, where you stare?
Is it the ocean blue,
        Sparkling in the sun's hue?
        Or the waves that crash and roar,
        A rhythm that you adore?
Little bunny, tell me true,
        What captures your attention so?
        Is it the salty breeze,
        Or the seagulls' cries that please?
Perhaps it's the vastness of it all,
        A world so big and small.
        A place where dreams can roam,
        And adventures can be sown.
Little bunny, I wonder what you dream,
        As you sit on the grass, so serene.
        Do you yearn to explore the deep,
        Or stay on land, where you can leap?
Whatever it may be, little bunny,
        Keep that spark of wonder burning brightly.
        For in your dreams and aspirations,
        Lies a world waiting for your creation.

Déterminer la raison de l'échec de la requête

Une requête peut échouer parce que le modèle n'a pas du tout compris l'image ou parce qu'il n'a pas effectué les bonnes étapes de raisonnement par la suite. Pour faire la distinction entre les deux, demandez au modèle de décrire le contenu de l'image.

Dans cet exemple, si le modèle répond avec un aliment qui ne semble pas correspondre au thé (par exemple, du pop-corn), déterminez d'abord si le modèle a reconnu que l'image contient du thé.

Requête Requête pour le dépannage
Image d'un service à thé.

Quel aliment puis-je préparer en une minute qui pourrait être associé à cela ?

Image d'un service à thé.

Décris ce que représente cette image.

Demander au modèle d'expliquer son raisonnement peut vous aider à déterminer la partie du raisonnement qui a échoué, le cas échéant.

Requête Requête pour le dépannage
Image d'un service à thé.

Quel aliment puis-je préparer en une minute qui pourrait être associé à cela ?

Image d'un service à thé.

Quel aliment puis-je préparer en une minute qui pourrait être associé à cela ? Merci d'indiquer pour quelle raison.

Ajuster les paramètres d'échantillonnage

Dans chaque requête, vous envoyez non seulement la requête multimodale, mais aussi un ensemble de paramètres d'échantillonnage au modèle. Le modèle peut générer différents résultats pour différentes valeurs de paramètre. Testez différents paramètres pour obtenir les meilleures valeurs pour la tâche. Les paramètres les plus couramment ajustés sont les suivants :

Température

La température est utilisée pour l'échantillonnage lors de la génération de la réponse, ce qui se produit lorsque les paramètres top-p et top-k sont appliqués. La température permet de contrôler le degré de hasard dans la sélection des jetons. Les températures basses sont idéales pour les requêtes qui nécessitent une réponse plus déterministe et moins ouverte ou créative, tandis que des températures plus élevées peuvent entraîner des résultats plus diversifiés ou créatifs. Une température de 0 est déterministe, ce qui signifie que la réponse dont la probabilité est la plus élevée est la plus susceptible d'être sélectionnée.

Dans la plupart des cas, commencez par une température de 0,4. Si vous avez besoin de résultats plus créatifs, augmentez la température. Si vous observez des incohérences évidentes, réduisez la température.

Top-P

Top-P modifie la façon dont le modèle sélectionne les jetons pour la sortie. Les jetons sont sélectionnés de la probabilité la plus élevée à la plus faible jusqu'à ce que la somme de leurs probabilités soit égale à la valeur top-P. Par exemple, si les jetons A, B et C ont une probabilité de 0,6, 0,3 et 0,1 et que la valeur de top-P est 0,9, le modèle sélectionne A ou B comme jeton suivant à l'aide de la température et exclut le jeton C comme candidat.

Spécifiez une valeur inférieure pour les réponses moins aléatoires et une valeur plus élevée pour les réponses plus aléatoires. La valeur par défaut de "top-P" est de 1,0.

Étape suivante