Cette page a été traduite par l'API Cloud Translation.

Compréhension des images

Vous pouvez ajouter des images aux requêtes Gemini pour effectuer des tâches qui impliquent de comprendre le contenu des images incluses. Cette page vous explique comment ajouter des images à vos requêtes Gemini dans Vertex AI à l'aide de la consoleGoogle Cloud et de l'API Vertex AI.

Modèles compatibles

Le tableau suivant liste les modèles compatibles avec la compréhension d'images :

Modèle	Informations sur les contenus multimédias	Types MIME
Gemini 3 Pro Modèle en preview	Nombre maximal d'images par requête : 900 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo Jetons de résolution par défaut : 1120	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Image Gemini 3 Pro Modèle Preview	Nombre maximal d'images par requête : 14 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo Nombre maximal d'images générées par requête : limité à 32 768 jetons de sortie Formats acceptés : 1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9 et 21:9	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Pro	Nombre maximal d'images par requête : 3 000 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Flash Modèle en preview	Nombre maximal d'images par requête : 3 000 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Flash-Lite Modèle en prévisualisation	Nombre maximal d'images par requête : 3 000 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo Nombre maximal d'images générées par requête : 10	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Flash Image	Nombre maximal d'images par requête : 3 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo Nombre maximal d'images générées par requête : 10 Formats acceptés : 1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9 et 21:9	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Flash	Nombre maximal d'images par requête : 3 000 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Flash-Lite	Nombre maximal d'images par requête : 3 000 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo Nombre maximal d'images générées par requête : 10	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.5 Flash avec l'audio natif de l'API Live Modèle en preview	Nombre maximal d'images par requête : 3 000 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.0 Flash avec génération d'images Modèle en aperçu	Nombre maximal d'images par requête : 3 000 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo Nombre maximal d'images générées par requête : 10 Nombre maximal de jetons par minute et par projet : Résolution des contenus multimédias élevée/moyenne/par défaut : États-Unis/Asie : 40 M UE : 10 M Basse résolution des contenus multimédias : États-Unis/Asie : 10 M UE : 3 M	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.0 Flash	Nombre maximal d'images par requête : 3 000 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo Nombre maximal de jetons par minute et par projet : Résolution des contenus multimédias élevée/moyenne/par défaut : États-Unis/Asie : 40 M UE : 10 M Basse résolution des contenus multimédias : États-Unis/Asie : 10 M UE : 2,6 M	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`
Gemini 2.0 Flash-Lite	Nombre maximal d'images par requête : 3 000 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo Nombre maximal de jetons par minute (TPM) : Résolution des contenus multimédias élevée/moyenne/par défaut : États-Unis/Asie : 6,7 M UE : 2,6 M Basse résolution des contenus multimédias : États-Unis/Asie : 2,6 M UE : 2,6 M	`image/png` `image/jpeg` `image/webp` `image/heic` `image/heif`

Pour obtenir la liste des langues compatibles avec les modèles Gemini, consultez les informations sur les modèles en accédant à Modèles Google. Pour en savoir plus sur la conception de requêtes multimodales, consultez Concevoir des requêtes multimodales. Si vous souhaitez utiliser Gemini directement à partir de vos applications mobiles et Web, consultez les SDK client Firebase AI Logic pour les applications Swift, Android, Web, Flutter et Unity.

Ajouter des images à une requête

Vous pouvez ajouter une ou plusieurs images à votre requête Gemini.

Image unique

Chacun des exemples de code sur les onglets suivants présente une manière spécifique permettant d'identifier le contenu d'une image. Cet exemple fonctionne avec tous les modèles multimodaux Gemini.

Console

Pour envoyer un prompt multimodal à l'aide de la console Google Cloud , procédez comme suit :

Dans la section "Vertex AI" de la console Google Cloud , accédez à la page Vertex AI Studio.

Accéder à Vertex AI Studio
Cliquez sur Ouvrir le mode forme libre.
(Facultatif) Configurez le modèle et les paramètres :
- Modèle : sélectionnez un modèle.
- Région : sélectionnez la région que vous souhaitez utiliser.
- Température : utilisez le curseur ou la zone de texte pour saisir une valeur de température.
  
  La température est utilisée pour l'échantillonnage pendant la génération des réponses, qui se produit lorsque topP et topK sont appliqués. La température permet de contrôler le degré de hasard dans la sélection des jetons. Les températures inférieures sont idéales pour les requêtes qui nécessitent une réponse moins ouverte ou créative, tandis que des températures plus élevées peuvent conduire à des résultats plus diversifiés ou créatifs. Une température de 0 signifie que les jetons de probabilité les plus élevés sont toujours sélectionnés. Dans ce cas, les réponses pour une requête donnée sont principalement déterministes, mais une petite quantité de variation est toujours possible.
  Si le modèle renvoie une réponse trop générique ou trop courte, ou s'il renvoie une réponse de remplacement, essayez d'augmenter la température. Si le modèle entre dans une boucle de génération infinie, augmenter la température à au moins 0.1 peut améliorer les résultats.
  1.0 est la valeur de départ recommandée pour la température.
- Limite de jetons de sortie : utilisez le curseur ou la zone de texte pour saisir une valeur correspondant à la limite maximale de sortie.
  
  Nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à quatre caractères. 100 jetons correspondent à environ 60-80 mots.
  Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.
- Ajouter une séquence d'arrêt : facultatif. Saisissez une séquence d'arrêt, qui est une série de caractères incluant des espaces. Si le modèle rencontre une séquence d'arrêt, la génération de réponse s'arrête. La séquence d'arrêt n'est pas incluse dans la réponse, et vous pouvez en ajouter jusqu'à cinq.
(Facultatif) Pour configurer des paramètres avancés, cliquez sur Avancé, puis configurez les paramètres comme suit :
Cliquez pour développer les configurations avancées.
- Top-K : utilisez le curseur ou la zone de texte pour saisir une valeur (non disponible pour Gemini 1.5).
  Le top-K modifie la façon dont le modèle sélectionne les jetons pour la sortie. Une valeur top-K de 1 signifie que le prochain jeton sélectionné est le plus probable parmi tous les jetons du vocabulaire du modèle (également appelé décodage glouton), tandis qu'une valeur top-K de 3 signifie que le jeton suivant est sélectionné parmi les trois jetons les plus probables en utilisant la température.
  Pour chaque étape de sélection du jeton, les jetons top-K avec les probabilités les plus élevées sont échantillonnés. Les jetons sont ensuite filtrés en fonction du top-P avec le jeton final sélectionné à l'aide de l'échantillonnage de température.
  
  Spécifiez une valeur inférieure pour obtenir des réponses moins aléatoires et une valeur supérieure pour des réponses plus aléatoires.
- Top-P : utilisez le curseur ou la zone de texte pour saisir une valeur. Les jetons sont sélectionnés du plus probable au moins probable, jusqu'à ce que la somme de leurs probabilités soit égale à la valeur du top-P. Pour obtenir les résultats les moins variables, définissez "Top-P" sur 0.
- Nombre maximal de réponses : utilisez le curseur ou la zone de texte pour saisir le nombre de réponses à générer.
- Réponses en streaming : permet d'imprimer les réponses au fur et à mesure de leur génération.
- Seuil de filtre de sécurité : sélectionnez le seuil de la probabilité que des réponses potentiellement nuisibles s'affichent.
- Activer l'ancrage : l'ancrage n'est pas compatible avec les requêtes multimodales.
Cliquez sur Insérer un média, puis sélectionnez une source pour votre fichier.
Importer
Sélectionnez le fichier que vous souhaitez importer, puis cliquez sur Ouvrir.

À partir d'une URL
Saisissez l'URL du fichier que vous souhaitez utiliser, puis cliquez sur Insérer.

Cloud Storage
Sélectionnez le bucket, puis le fichier que vous souhaitez importer, et cliquez sur Sélectionner.
Google Drive
1. Choisissez un compte et autorisez Vertex AI Studio à y accéder la première fois que vous sélectionnez cette option. Vous pouvez importer plusieurs fichiers, à condition de ne pas dépasser une taille totale de 10 Mo. La taille d'un seul fichier ne peut pas dépasser 7 Mo.
2. Cliquez sur le fichier que vous souhaitez ajouter.
3. Cliquez sur Sélectionner.
  
  La vignette du fichier s'affiche dans le volet Prompt. Le nombre total de jetons est également indiqué. Si les données de votre prompt dépassent la limite de jetons, les jetons sont tronqués et ne sont pas inclus dans le traitement de vos données.
Saisissez votre prompt textuelle dans le volet Prompt.
(Facultatif) Pour afficher les ID de jeton Texte et les ID de jeton, cliquez sur le nombre de jetons dans le volet Prompt.

Remarque : Les jetons multimédias ne sont pas acceptés.
Cliquez sur Envoyer.
(Facultatif) Pour enregistrer votre prompt dans Mes prompts, cliquez sur Enregistrer.
(Facultatif) Pour obtenir le code Python ou la commande curl de votre prompt, cliquez sur Obtenir le code.

Python

Installation

pip install --upgrade google-genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        "What is shown in this image?",
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/image/scones.jpg",
            mime_type="image/jpeg",
        ),
    ],
)
print(response.text)
# Example response:
# The image shows a flat lay of blueberry scones arranged on parchment paper. There are ...

Go

Découvrez comment installer ou mettre à jour le Go.

Pour en savoir plus, lisez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"

	genai "google.golang.org/genai"
)

// generateWithTextImage shows how to generate text using both text and image input
func generateWithTextImage(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := []*genai.Content{
		{Parts: []*genai.Part{
			{Text: "What is shown in this image?"},
			{FileData: &genai.FileData{
				// Image source: https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg
				FileURI:  "gs://cloud-samples-data/generative-ai/image/scones.jpg",
				MIMEType: "image/jpeg",
			}},
		},
			Role: "user"},
	}

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// The image shows an overhead shot of a rustic, artistic arrangement on a surface that ...

	return nil
}

Node.js

Installer

npm install @google/genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateContent(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
  });

  const image = {
    fileData: {
      fileUri: 'gs://cloud-samples-data/generative-ai/image/scones.jpg',
      mimeType: 'image/jpeg',
    },
  };

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: [image, 'What is shown in this image?'],
  });

  console.log(response.text);

  return response.text;
}

Java

Découvrez comment installer ou mettre à jour le Java.

Pour en savoir plus, lisez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.Content;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import com.google.genai.types.Part;

public class TextGenerationWithTextAndImage {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    generateContent(modelId);
  }

  // Generates text with text and image input
  public static String generateContent(String modelId) {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("global")
            .vertexAI(true)
            .httpOptions(HttpOptions.builder().apiVersion("v1").build())
            .build()) {

      GenerateContentResponse response =
          client.models.generateContent(
              modelId,
              Content.fromParts(
                  Part.fromText("What is shown in this image?"),
                  Part.fromUri(
                      "gs://cloud-samples-data/generative-ai/image/scones.jpg", "image/jpeg")),
              null);

      System.out.print(response.text());
      // Example response:
      // The image shows a flat lay of blueberry scones arranged on parchment paper. There are ...
      return response.text();
    }
  }
}

REST

Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.

Vous pouvez inclure des images stockées dans Cloud Storage ou utiliser des données d'image encodées en base64.

Image dans Cloud Storage

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

PROJECT_ID : ID de votre projet.
FILE_URI : URI ou URL du fichier à inclure dans le prompt. Les valeurs acceptées incluent les suivantes :
- URI du bucket Cloud Storage : l'objet doit être lisible publiquement ou se trouver dans le même projet Google Cloud que celui qui envoie la requête. La taille limite pour gemini-2.0-flash et gemini-2.0-flash-lite est de 2 Go.
- URL HTTP : l'URL du fichier doit être lisible publiquement. Vous pouvez spécifier un fichier vidéo, un fichier audio et jusqu'à 10 fichiers image par requête. Les fichiers audio, les fichiers vidéo et les documents ne doivent pas dépasser 15 Mo.
- URL de la vidéo YouTube : la vidéo YouTube doit appartenir au compte que vous avez utilisé pour vous connecter à la console Google Cloud ou être publique. Une seule URL de vidéo YouTube est acceptée par requête.
Lorsque vous spécifiez un fileURI, vous devez également indiquer le type de contenu multimédia (mimeType) du fichier. Si VPC Service Controls est activé, la spécification d'une URL de fichier multimédia pour fileURI n'est pas acceptée.

Si vous ne disposez pas de fichier image dans Cloud Storage, vous pouvez utiliser le fichier suivant, disponible publiquement : gs://cloud-samples-data/generative-ai/image/scones.jpg (type MIME : image/jpeg). Pour afficher cette image, ouvrez l'exemple de fichier image.
MIME_TYPE : type de contenu du fichier spécifié dans les champs data ou fileUri. Les valeurs acceptées incluent les suivantes :
Cliquez pour développer les types MIME.
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
TEXT : instructions textuelles à inclure dans le prompt. Exemple : What is shown in this image?

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Remarque : Pour la commande suivante, nous partons du principe que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login, ou en utilisant Cloud Shell, qui vous connecte automatiquement à la CLI gcloud. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel :

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent"

PowerShell

Remarque : Pour la commande suivante, nous partons du principe que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel :

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Réponse

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": " The image shows a table with a cup of coffee, a bowl of blueberries, and a plate of scones with blueberries on it. There are also pink flowers on the table."
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.027742893,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07276838
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.026155617,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07172113
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.04304285,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.037608635
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.08803312,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09203286
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 265,
    "candidatesTokenCount": 35,
    "totalTokenCount": 300
  }
}

Données d'image Base64

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

LOCATION : région dans laquelle traiter la requête. Saisissez une région compatible. Pour obtenir la liste complète des régions compatibles, consultez Emplacements disponibles.
Cliquer pour développer une liste partielle des régions disponibles.
- us-central1
- us-west4
- northamerica-northeast1
- us-east4
- us-west1
- asia-northeast3
- asia-southeast1
- asia-northeast1
PROJECT_ID : ID de votre projet.
```
B64_BASE_IMAGE
```
Encodage base64 de l'image, du fichier PDF ou de la vidéo à intégrer au prompt. Lorsque vous intégrez du contenu multimédia, vous devez également spécifier le type de contenu (mimeType) des données.
MIME_TYPE : type de contenu du fichier spécifié dans les champs data ou fileUri. Les valeurs acceptées incluent les suivantes :
Cliquez pour développer les types MIME.
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
TEXT : instructions textuelles à inclure dans le prompt. Exemple : What is shown in this image?.

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel :

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "inlineData": {
          "data": "B64_BASE_IMAGE",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent"

PowerShell

Remarque : Pour la commande suivante, nous partons du principe que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel :

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "inlineData": {
          "data": "B64_BASE_IMAGE",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Réponse

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": " The image shows a table with a cup of coffee, a bowl of blueberries, and a plate of scones with blueberries on it. There are also pink flowers on the table."
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.027742893,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07276838
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.026155617,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07172113
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.04304285,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.037608635
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.08803312,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09203286
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 265,
    "candidatesTokenCount": 35,
    "totalTokenCount": 300
  }
}

Notez les points suivants dans l'URL de cet exemple

Utilisez la méthode generateContent pour demander que la réponse soit renvoyée une fois qu'elle a été entièrement générée. Pour réduire la perception de la latence auprès d'un public humain, affichez la réponse progressivement à mesure qu'elle est générée à l'aide de la méthode streamGenerateContent.
L'ID du modèle multimodal se trouve à la fin de l'URL avant la méthode (par exemple, gemini-2.0-flash). Cet exemple peut également s'appliquer à d'autres modèles.

Images multiples

Chacun des onglets suivants présente une manière différente d'inclure plusieurs images dans un prompt. Chaque exemple utilise deux ensembles parmi les entrées suivantes :

Image d'un monument célèbre
Type de contenu de l'image
Texte indiquant la ville et le monument sur l'image

L'exemple utilise également une troisième image et un type de contenu, mais pas de texte. L'exemple renvoie une réponse textuelle indiquant la ville et le monument sur la troisième image.

Ces exemples d'images fonctionnent avec tous les modèles multimodaux Gemini.

Console

Pour envoyer un prompt multimodal à l'aide de la console Google Cloud , procédez comme suit :

Dans la section "Vertex AI" de la console Google Cloud , accédez à la page Vertex AI Studio.

Accéder à Vertex AI Studio
Cliquez sur Ouvrir le mode forme libre.
(Facultatif) Configurez le modèle et les paramètres :
- Modèle : sélectionnez un modèle.
- Région : sélectionnez la région que vous souhaitez utiliser.
- Température : utilisez le curseur ou la zone de texte pour saisir une valeur de température.
  
  La température est utilisée pour l'échantillonnage pendant la génération des réponses, qui se produit lorsque topP et topK sont appliqués. La température permet de contrôler le degré de hasard dans la sélection des jetons. Les températures inférieures sont idéales pour les requêtes qui nécessitent une réponse moins ouverte ou créative, tandis que des températures plus élevées peuvent conduire à des résultats plus diversifiés ou créatifs. Une température de 0 signifie que les jetons de probabilité les plus élevés sont toujours sélectionnés. Dans ce cas, les réponses pour une requête donnée sont principalement déterministes, mais une petite quantité de variation est toujours possible.
  Si le modèle renvoie une réponse trop générique ou trop courte, ou s'il renvoie une réponse de remplacement, essayez d'augmenter la température. Si le modèle entre dans une boucle de génération infinie, augmenter la température à au moins 0.1 peut améliorer les résultats.
  1.0 est la valeur de départ recommandée pour la température.
- Limite de jetons de sortie : utilisez le curseur ou la zone de texte pour saisir une valeur correspondant à la limite maximale de sortie.
  
  Nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à quatre caractères. 100 jetons correspondent à environ 60-80 mots.
  Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.
- Ajouter une séquence d'arrêt : facultatif. Saisissez une séquence d'arrêt, qui est une série de caractères incluant des espaces. Si le modèle rencontre une séquence d'arrêt, la génération de réponse s'arrête. La séquence d'arrêt n'est pas incluse dans la réponse, et vous pouvez en ajouter jusqu'à cinq.
(Facultatif) Pour configurer des paramètres avancés, cliquez sur Avancé, puis configurez les paramètres comme suit :
Cliquez pour développer les configurations avancées.
- Top-K : utilisez le curseur ou la zone de texte pour saisir une valeur (non disponible pour Gemini 1.5).
  Le top-K modifie la façon dont le modèle sélectionne les jetons pour la sortie. Une valeur top-K de 1 signifie que le prochain jeton sélectionné est le plus probable parmi tous les jetons du vocabulaire du modèle (également appelé décodage glouton), tandis qu'une valeur top-K de 3 signifie que le jeton suivant est sélectionné parmi les trois jetons les plus probables en utilisant la température.
  Pour chaque étape de sélection du jeton, les jetons top-K avec les probabilités les plus élevées sont échantillonnés. Les jetons sont ensuite filtrés en fonction du top-P avec le jeton final sélectionné à l'aide de l'échantillonnage de température.
  
  Spécifiez une valeur inférieure pour obtenir des réponses moins aléatoires et une valeur supérieure pour des réponses plus aléatoires.
- Top-P : utilisez le curseur ou la zone de texte pour saisir une valeur. Les jetons sont sélectionnés du plus probable au moins probable, jusqu'à ce que la somme de leurs probabilités soit égale à la valeur du top-P. Pour obtenir les résultats les moins variables, définissez "Top-P" sur 0.
- Nombre maximal de réponses : utilisez le curseur ou la zone de texte pour saisir le nombre de réponses à générer.
- Réponses en streaming : permet d'imprimer les réponses au fur et à mesure de leur génération.
- Seuil de filtre de sécurité : sélectionnez le seuil de la probabilité que des réponses potentiellement nuisibles s'affichent.
- Activer l'ancrage : l'ancrage n'est pas compatible avec les requêtes multimodales.
Cliquez sur Insérer un média, puis sélectionnez une source pour votre fichier.
Importer
Sélectionnez le fichier que vous souhaitez importer, puis cliquez sur Ouvrir.

À partir d'une URL
Saisissez l'URL du fichier que vous souhaitez utiliser, puis cliquez sur Insérer.

Cloud Storage
Sélectionnez le bucket, puis le fichier que vous souhaitez importer, et cliquez sur Sélectionner.
Google Drive
1. Choisissez un compte et autorisez Vertex AI Studio à y accéder la première fois que vous sélectionnez cette option. Vous pouvez importer plusieurs fichiers, à condition de ne pas dépasser une taille totale de 10 Mo. La taille d'un seul fichier ne peut pas dépasser 7 Mo.
2. Cliquez sur le fichier que vous souhaitez ajouter.
3. Cliquez sur Sélectionner.
  
  La vignette du fichier s'affiche dans le volet Prompt. Le nombre total de jetons est également indiqué. Si les données de votre prompt dépassent la limite de jetons, les jetons sont tronqués et ne sont pas inclus dans le traitement de vos données.
Saisissez votre prompt textuelle dans le volet Prompt.
(Facultatif) Pour afficher les ID de jeton Texte et les ID de jeton, cliquez sur le nombre de jetons dans le volet Prompt.

Remarque : Les jetons multimédias ne sont pas acceptés.
Cliquez sur Envoyer.
(Facultatif) Pour enregistrer votre prompt dans Mes prompts, cliquez sur Enregistrer.
(Facultatif) Pour obtenir le code Python ou la commande curl de votre prompt, cliquez sur Obtenir le code.

Python

Installation

pip install --upgrade google-genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))

# Read content from GCS
gcs_file_img_path = "gs://cloud-samples-data/generative-ai/image/scones.jpg"

# Read content from a local file
with open("test_data/latte.jpg", "rb") as f:
    local_file_img_bytes = f.read()

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        "Generate a list of all the objects contained in both images.",
        Part.from_uri(file_uri=gcs_file_img_path, mime_type="image/jpeg"),
        Part.from_bytes(data=local_file_img_bytes, mime_type="image/jpeg"),
    ],
)
print(response.text)
# Example response:
# Okay, here's the list of objects present in both images:
# ...

Go

Découvrez comment installer ou mettre à jour le Go.

Pour en savoir plus, lisez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"
	"os"

	genai "google.golang.org/genai"
)

// generateWithMultiImg shows how to generate text using multiple image inputs.
func generateWithMultiImg(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	// TODO(Developer): Update the path to file (image source:
	//   https://storage.googleapis.com/cloud-samples-data/generative-ai/image/latte.jpg )
	imageBytes, err := os.ReadFile("./latte.jpg")
	if err != nil {
		return fmt.Errorf("failed to read image: %w", err)
	}

	contents := []*genai.Content{
		{Parts: []*genai.Part{
			{Text: "Write an advertising jingle based on the items in both images."},
			{FileData: &genai.FileData{
				// Image source: https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg
				FileURI:  "gs://cloud-samples-data/generative-ai/image/scones.jpg",
				MIMEType: "image/jpeg",
			}},
			{InlineData: &genai.Blob{
				Data:     imageBytes,
				MIMEType: "image/jpeg",
			}},
		}},
	}
	modelName := "gemini-2.5-flash"

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// Okay, here's an advertising jingle inspired by the blueberry scones, coffee, flowers, chocolate cake, and latte:
	//
	// (Upbeat, jazzy music)
	// ...

	return nil
}

Node.js

Installer

npm install @google/genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateContent(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
  });

  const image1 = {
    fileData: {
      fileUri: 'gs://cloud-samples-data/generative-ai/image/scones.jpg',
      mimeType: 'image/jpeg',
    },
  };

  const image2 = {
    fileData: {
      fileUri: 'gs://cloud-samples-data/generative-ai/image/fruit.png',
      mimeType: 'image/png',
    },
  };

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: [
      image1,
      image2,
      'Generate a list of all the objects contained in both images.',
    ],
  });

  console.log(response.text);

  return response.text;
}

Java

Découvrez comment installer ou mettre à jour le Java.

Pour en savoir plus, lisez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.Content;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import com.google.genai.types.Part;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;

public class TextGenerationWithMultiImage {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    // Content from Google Cloud Storage
    String gcsFileImagePath = "gs://cloud-samples-data/generative-ai/image/scones.jpg";
    String localImageFilePath = "resources/latte.jpg";
    generateContent(modelId, gcsFileImagePath, localImageFilePath);
  }

  // Generates text with multiple images
  public static String generateContent(
      String modelId, String gcsFileImagePath, String localImageFilePath) throws IOException {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("global")
            .vertexAI(true)
            .httpOptions(HttpOptions.builder().apiVersion("v1").build())
            .build()) {

      // Read content from a local file.
      byte[] localFileImgBytes = Files.readAllBytes(Paths.get(localImageFilePath));

      GenerateContentResponse response =
          client.models.generateContent(
              modelId,
              Content.fromParts(
                  Part.fromText("Generate a list of all the objects contained in both images"),
                  Part.fromBytes(localFileImgBytes, "image/jpeg"),
                  Part.fromUri(gcsFileImagePath, "image/jpeg")),
              null);

      System.out.print(response.text());
      // Example response:
      // Okay, here's the list of objects present in both images:
      //
      // **Image 1 (Scones):**
      //
      // *   Scones
      // *   Plate
      // *   Jam/Preserve
      // *   Cream/Butter
      // *   Table/Surface
      // *   Napkin/Cloth (possibly)
      //
      // **Image 2 (Latte):**
      //
      // *   Latte/Coffee cup
      // *   Saucer
      // *   Spoon
      // *   Table/Surface
      // *   Foam/Latte art
      //
      // **Objects potentially in both (depending on interpretation and specific items):**
      //
      // *   Plate/Saucer (both are serving dishes)
      // *   Table/Surface
      return response.text();
    }
  }
}

REST

Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

PROJECT_ID : .
FILE_URI1 : URI ou URL du fichier à inclure dans le prompt. Les valeurs acceptées incluent les suivantes :
- URI du bucket Cloud Storage : l'objet doit être lisible publiquement ou se trouver dans le même projet Google Cloud que celui qui envoie la requête. La taille limite pour gemini-2.0-flash et gemini-2.0-flash-lite est de 2 Go.
- URL HTTP : l'URL du fichier doit être lisible publiquement. Vous pouvez spécifier un fichier vidéo, un fichier audio et jusqu'à 10 fichiers image par requête. Les fichiers audio, les fichiers vidéo et les documents ne doivent pas dépasser 15 Mo.
- URL de la vidéo YouTube : la vidéo YouTube doit appartenir au compte que vous avez utilisé pour vous connecter à la console Google Cloud ou être publique. Une seule URL de vidéo YouTube est acceptée par requête.
Lorsque vous spécifiez un fileURI, vous devez également indiquer le type de contenu multimédia (mimeType) du fichier. Si VPC Service Controls est activé, la spécification d'une URL de fichier multimédia pour fileURI n'est pas acceptée.

Si vous ne disposez pas de fichier image dans Cloud Storage, vous pouvez utiliser le fichier suivant, disponible publiquement : gs://cloud-samples-data/vertex-ai/llm/prompts/landmark1.png (type MIME : image/png). Pour afficher cette image, ouvrez l'exemple de fichier image.
MIME_TYPE : type de contenu du fichier spécifié dans les champs data ou fileUri. Les valeurs acceptées incluent les suivantes :
Cliquez pour développer les types MIME.
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
Pour plus de simplicité, cet exemple utilise le même type de contenu pour les trois images d'entrée.
TEXT1 : instructions textuelles à inclure dans le prompt. Exemple : city: Rome, Landmark: the Colosseum
FILE_URI2 : URI ou URL du fichier à inclure dans le prompt. Les valeurs acceptées incluent les suivantes :
- URI du bucket Cloud Storage : l'objet doit être lisible publiquement ou se trouver dans le même projet Google Cloud que celui qui envoie la requête. La taille limite pour gemini-2.0-flash et gemini-2.0-flash-lite est de 2 Go.
- URL HTTP : l'URL du fichier doit être lisible publiquement. Vous pouvez spécifier un fichier vidéo, un fichier audio et jusqu'à 10 fichiers image par requête. Les fichiers audio, les fichiers vidéo et les documents ne doivent pas dépasser 15 Mo.
- URL de la vidéo YouTube : la vidéo YouTube doit appartenir au compte que vous avez utilisé pour vous connecter à la console Google Cloud ou être publique. Une seule URL de vidéo YouTube est acceptée par requête.
Lorsque vous spécifiez un fileURI, vous devez également indiquer le type de contenu multimédia (mimeType) du fichier. Si VPC Service Controls est activé, la spécification d'une URL de fichier multimédia pour fileURI n'est pas acceptée.

Si vous ne disposez pas de fichier image dans Cloud Storage, vous pouvez utiliser le fichier suivant, disponible publiquement : gs://cloud-samples-data/vertex-ai/llm/prompts/landmark2.png (type MIME : image/png). Pour afficher cette image, ouvrez l'exemple de fichier image.
TEXT2 : instructions textuelles à inclure dans le prompt. Exemple : city: Beijing, Landmark: Forbidden City
FILE_URI3 : URI ou URL du fichier à inclure dans le prompt. Les valeurs acceptées incluent les suivantes :
- URI du bucket Cloud Storage : l'objet doit être lisible publiquement ou se trouver dans le même projet Google Cloud que celui qui envoie la requête. La taille limite pour gemini-2.0-flash et gemini-2.0-flash-lite est de 2 Go.
- URL HTTP : l'URL du fichier doit être lisible publiquement. Vous pouvez spécifier un fichier vidéo, un fichier audio et jusqu'à 10 fichiers image par requête. Les fichiers audio, les fichiers vidéo et les documents ne doivent pas dépasser 15 Mo.
- URL de la vidéo YouTube : la vidéo YouTube doit appartenir au compte que vous avez utilisé pour vous connecter à la console Google Cloud ou être publique. Une seule URL de vidéo YouTube est acceptée par requête.
Lorsque vous spécifiez un fileURI, vous devez également indiquer le type de contenu multimédia (mimeType) du fichier. Si VPC Service Controls est activé, la spécification d'une URL de fichier multimédia pour fileURI n'est pas acceptée.

Si vous ne disposez pas de fichier image dans Cloud Storage, vous pouvez utiliser le fichier suivant, disponible publiquement : gs://cloud-samples-data/vertex-ai/llm/prompts/landmark3.png (type MIME : image/png). Pour afficher cette image, ouvrez l'exemple de fichier image.

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel :

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI1",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT1"
      },
      {
        "fileData": {
          "fileUri": "FILE_URI2",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT2"
      },
      {
        "fileData": {
          "fileUri": "FILE_URI3",
          "mimeType": "MIME_TYPE"
        }
      }
    ]
  }
}
EOF

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

Remarque : Pour la commande suivante, nous partons du principe que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel :

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI1",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT1"
      },
      {
        "fileData": {
          "fileUri": "FILE_URI2",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT2"
      },
      {
        "fileData": {
          "fileUri": "FILE_URI3",
          "mimeType": "MIME_TYPE"
        }
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Réponse

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "city: Rio de Janeiro, Landmark: Christ the Redeemer statue \n"
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.05340333,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.08740791
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.13050689,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.10338596
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.05399884,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09947021
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.10576342,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.066934206
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 791,
    "candidatesTokenCount": 14,
    "totalTokenCount": 805
  }
}

Notez les points suivants dans l'URL de cet exemple :

Utilisez la méthode generateContent pour demander que la réponse soit renvoyée une fois qu'elle a été entièrement générée. Pour réduire la perception de la latence auprès d'un public humain, affichez la réponse progressivement à mesure qu'elle est générée à l'aide de la méthode streamGenerateContent.
L'ID du modèle multimodal se trouve à la fin de l'URL avant la méthode (par exemple, gemini-2.0-flash). Cet exemple peut également s'appliquer à d'autres modèles.

Définir des paramètres de modèle facultatifs

Chaque modèle est associé à un ensemble de paramètres facultatifs que vous pouvez définir. Pour en savoir plus, consultez Paramètres de génération de contenu.

Tokenisation d'images

Preview

Ce produit ou cette fonctionnalité sont soumis aux "Conditions des offres de pré-DG" de la section "Conditions générales du service" des Conditions spécifiques du serviceet aux Conditions supplémentaires pour les produits d'IA générative en version preview. Vous pouvez traiter des données à caractère personnel pour ce produit ou cette fonctionnalité comme indiqué dans l'Avenant relatif au traitement des données dans le cloud, sous réserve de respecter les obligations et restrictions décrites dans le contrat en vertu duquel vous accédez à Google Cloud. Les produits et fonctionnalités de pré-DG sont proposés "en l'état" et peuvent avoir une compatibilité limitée. Pour en savoir plus, consultez les descriptions des étapes de lancement.

Avec Gemini 3 Pro et Gemini 3 Pro Image, la tokenisation des images utilise une longueur de séquence variable, qui remplace la méthode Pan and Scan utilisée dans les modèles précédents pour améliorer la qualité et la latence.

Vous pouvez spécifier une résolution média pour les entrées d'images et de PDF. Cela affecte la façon dont les images sont tokenisées et le nombre de jetons utilisés pour chaque image. Vous pouvez définir media_resolution dans generationConfig pour l'appliquer à tous les médias de la demande, ou le définir pour des parties média individuelles, ce qui remplacera le paramètre de niveau supérieur.

Les résolutions suivantes sont disponibles pour Gemini 3 Pro :

MEDIA_RESOLUTION_HIGH : 1 120 jetons pour les images et les PDF
MEDIA_RESOLUTION_MEDIUM : 560 jetons pour les images et les PDF
MEDIA_RESOLUTION_LOW : 280 jetons pour les images et les PDF
MEDIA_RESOLUTION_UNSPECIFIED : 1 120 jetons pour les images et 560 pour les PDF (par défaut)

Les nombres de jetons suivants s'appliquent à Gemini 3 Pro Image :

Images d'entrée : 560 jetons par image
Images de sortie :
- Résolution 1K : 1 120 jetons par image (par défaut)
- Résolution 2K : 1 120 jetons par image
- Résolution 4K : 2 000 jetons par image

Pour les modèles antérieurs à Gemini 3 Pro, chaque image est traitée à l'aide de Pan and Scan et coûte 258 jetons.

Cet exemple de code montre comment ajuster media_resolution :

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
  model="gemini-3-pro-preview",
  contents=[
      types.Part(
          file_data=types.FileData(
              file_uri="gs://cloud-samples-data/generative-ai/image/a-man-and-a-dog.png",
              mime_type="image/jpeg",
          ),
          media_resolution=types.PartMediaResolution(
              level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_HIGH
          ),
      ),
      Part(
          file_data=types.FileData(
              file_uri="gs://cloud-samples-data/generative-ai/video/behind_the_scenes_pixel.mp4",
              mime_type="video/mp4",
          ),
          media_resolution=types.PartMediaResolution(
              level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_LOW
          ),
      ),
      "When does the image appear in the video? What is the context?",
  ],
)
print(response.text)

Bonnes pratiques

Lorsque vous utilisez des images, suivez les bonnes pratiques et informations suivantes pour obtenir des résultats optimaux :

Si vous souhaitez détecter du texte dans une image, utilisez des requêtes avec une seule image pour obtenir de meilleurs résultats qu'avec des requêtes comportant plusieurs images.
Si votre prompt contient une seule image, placez cette image avant le prompt textuel.
Si votre prompt contient plusieurs images, et que vous souhaitez les référencer ultérieurement dans votre prompt ou demander au modèle de les référencer dans la réponse du modèle, il peut être utile d'ajouter un index avant chaque image. Utilisez a b c ou image 1 image 2 image 3 pour votre index. Voici un exemple d'utilisation d'images indexées dans un prompt :
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Utilisez des images d'une résolution plus élevée pour obtenir de meilleurs résultats.
Incluez quelques exemples dans le prompt.
Faites pivoter les images dans l'orientation appropriée avant de les ajouter au prompt.
Évitez les images floues.

Limites

Bien que les modèles multimodaux Gemini soient performants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre leurs limites :

Modération de contenus : les modèles refusent de fournir des réponses sur des images qui ne respectent pas nos règles de sécurité.
Raisonnement spatial : les modèles ne parviennent pas à localiser précisément du texte ou des objets dans des images. Ils peuvent ne renvoyer que des décomptes approximatifs d'objets.
Utilisations médicales : les modèles ne conviennent pas à l'interprétation d'images médicales (par exemple, les radiographies et les scanners), ni à la fourniture de conseils médicaux.
Reconnaissance de personnes : les modèles ne sont pas conçus pour identifier des personnes qui ne sont pas des célébrités sur des images.
Justesse : les modèles peuvent halluciner ou faire des erreurs lors de l'interprétation d'images de mauvaise qualité, pivotées ou dont la résolution est extrêmement basse. Les modèles peuvent également halluciner lors de l'interprétation de texte manuscrit dans des images.

Étapes suivantes

Commencez à créer des modèles multimodaux Gemini. Les nouveaux clients bénéficient de 300 $ de crédits Google Cloud gratuits pour découvrir ce qu'ils peuvent faire avec Gemini.
Découvrez comment envoyer des requêtes de chat.
Découvrez les bonnes pratiques d'IA responsable et les filtres de sécurité de Vertex AI.

Compréhension des images Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Modèles compatibles

Ajouter des images à une requête

Image unique

Console

Cliquez pour développer les configurations avancées.

Importer

À partir d'une URL

Cloud Storage

Google Drive

Python

Installation

Go

Node.js

Installer

Java

REST

Image dans Cloud Storage

curl

PowerShell

Réponse

Données d'image Base64

curl

PowerShell

Réponse

Images multiples

Console

Cliquez pour développer les configurations avancées.

Importer

À partir d'une URL

Cloud Storage

Google Drive

Python

Installation

Go

Node.js

Installer

Java

REST

curl

PowerShell

Réponse

Définir des paramètres de modèle facultatifs

Tokenisation d'images

Bonnes pratiques

Limites

Étapes suivantes

Compréhension des images