Compréhension des documents

Vous pouvez ajouter des documents (fichiers PDF et TXT) aux requêtes Gemini pour effectuer des tâches qui impliquent de comprendre le contenu des documents inclus. Cette page vous explique comment ajouter des PDF à vos requêtes Gemini dans Vertex AI à l'aide de la console Google Cloud et de l'API Vertex AI.

Modèles compatibles

Le tableau suivant liste les modèles compatibles avec la compréhension des documents :

Modèle Informations sur les contenus multimédias Types MIME
Gemini 3 Pro Modèle en preview
  • Nombre maximal de fichiers par requête : 900
  • Nombre maximal de pages par fichier : 900
  • Taille maximale par fichier pour les importations avec l'API ou Cloud Storage : 50 Mo
  • Taille maximale par fichier pour les importations directes à l'aide de la console : 7 Mo
  • Jetons de résolution par défaut : 560
  • OCR pour les PDF scannés : non utilisé par défaut
  • application/pdf
  • text/plain
Image Gemini 3 Pro Modèle Preview
  • Nombre maximal de fichiers par requête : tel que pris en charge par la fenêtre de contexte de 65 536 jetons
  • Nombre maximal de pages par fichier : tel que pris en charge par la fenêtre de contexte de 65 536 jetons
  • Taille maximale par fichier : 50 Mo (importations avec l'API et Cloud Storage) ou 7 Mo (importation directe à l'aide de la console Google Cloud )
  • application/pdf
  • text/plain
Gemini 2.5 Pro
  • Nombre maximal de fichiers par requête : 3 000
  • Nombre maximal de pages par fichier : 1 000
  • Taille maximale par fichier pour les importations avec l'API ou Cloud Storage : 50 Mo
  • Taille maximale par fichier pour les importations directes à l'aide de la console : 7 Mo
  • application/pdf
  • text/plain
Gemini 2.5 Flash Modèle en preview
  • Nombre maximal de fichiers par requête : 3 000
  • Nombre maximal de pages par fichier : 1 000
  • Taille maximale par fichier pour les importations avec l'API ou Cloud Storage : 50 Mo
  • Taille maximale par fichier pour les importations directes à l'aide de la console : 7 Mo
  • application/pdf
  • text/plain
Gemini 2.5 Flash-Lite Modèle en prévisualisation
  • Nombre maximal de fichiers par requête : 3 000
  • Nombre maximal de pages par fichier : 1 000
  • Taille maximale par fichier : 50 Mo
  • application/pdf
  • text/plain
Gemini 2.5 Flash Image
  • Nombre maximal de fichiers par requête : 3
  • Nombre maximal de pages par fichier : 3
  • Taille maximale par fichier : 50 Mo (importations avec l'API et Cloud Storage) ou 7 Mo (importation directe à l'aide de la console Google Cloud )
  • application/pdf
  • text/plain
Gemini 2.5 Flash
  • Nombre maximal de fichiers par requête : 3 000
  • Nombre maximal de pages par fichier : 1 000
  • Taille maximale par fichier pour les importations avec l'API ou Cloud Storage : 50 Mo
  • Taille maximale par fichier pour les importations directes à l'aide de la console : 7 Mo
  • application/pdf
  • text/plain
Gemini 2.5 Flash-Lite
  • Nombre maximal de fichiers par requête : 3 000
  • Nombre maximal de pages par fichier : 1 000
  • Taille maximale par fichier : 50 Mo
  • application/pdf
  • text/plain
Gemini 2.0 Flash avec génération d'images Modèle en aperçu
  • Nombre maximal de fichiers par requête : 3 000
  • Nombre maximal de pages par fichier : 1 000
  • Taille maximale par fichier : 50 Mo
  • application/pdf
  • text/plain
Gemini 2.0 Flash
  • Nombre maximal de fichiers par requête : 3 000
  • Nombre maximal de pages par fichier : 1 000
  • Taille maximale par fichier pour les importations avec l'API ou Cloud Storage : 50 Mo
  • Taille maximale par fichier pour les importations directes à l'aide de la console : 7 Mo
  • Nombre maximal de jetons par minute et par projet1 :
    • États-Unis/Asie : 3,4 M
    • UE : 3,4 M
  • application/pdf
  • text/plain
Gemini 2.0 Flash-Lite
  • Nombre maximal de fichiers par requête : 3 000
  • Nombre maximal de pages par fichier : 1 000
  • Taille maximale par fichier pour les importations avec l'API ou Cloud Storage : 50 Mo
  • Taille maximale par fichier pour les importations directes à l'aide de la console : 7 Mo
  • Nombre maximal de jetons par minute et par projet1 :
    • États-Unis/Asie : 3,4 M
    • UE : 3,4 M

1 Il s'agit du nombre maximal de jetons par minute dans les entrées de document pour toutes les requêtes d'un projet. Utilisez également le nombre maximal de jetons par minute pour les autres modalités.

La métrique de quota est generate_content_document_input_per_base_model_id_and_resolution.

Pour obtenir la liste des langues compatibles avec les modèles Gemini, consultez les informations sur les modèles en accédant à Modèles Google. Pour en savoir plus sur la conception de requêtes multimodales, consultez Concevoir des requêtes multimodales. Si vous souhaitez utiliser Gemini directement à partir de vos applications mobiles et Web, consultez les SDK client Firebase AI Logic pour les applications Swift, Android, Web, Flutter et Unity.

Ajouter des documents à une requête

L'exemple de code suivant montre comment inclure un fichier PDF dans un prompt. Cet exemple de fichier PDF fonctionne avec tous les modèles multimodaux Gemini.

Python

Installation

pip install --upgrade google-genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
model_id = "gemini-2.5-flash"

prompt = """
You are a highly skilled document summarization specialist.
Your task is to provide a concise executive summary of no more than 300 words.
Please summarize the given document for a general audience.
"""

pdf_file = Part.from_uri(
    file_uri="gs://cloud-samples-data/generative-ai/pdf/1706.03762v7.pdf",
    mime_type="application/pdf",
)

response = client.models.generate_content(
    model=model_id,
    contents=[pdf_file, prompt],
)

print(response.text)
# Example response:
# Here is a summary of the document in 300 words.
#
# The paper introduces the Transformer, a novel neural network architecture for
# sequence transduction tasks like machine translation. Unlike existing models that rely on recurrent or
# convolutional layers, the Transformer is based entirely on attention mechanisms.
# ...

Go

Découvrez comment installer ou mettre à jour le Go.

Pour en savoir plus, lisez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"

	"google.golang.org/genai"
)

// generateTextWithPDF shows how to generate text using a PDF file input.
func generateTextWithPDF(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := []*genai.Content{
		{Parts: []*genai.Part{
			{Text: `You are a highly skilled document summarization specialist.
	Your task is to provide a concise executive summary of no more than 300 words.
	Please summarize the given document for a general audience.`},
			{FileData: &genai.FileData{
				FileURI:  "gs://cloud-samples-data/generative-ai/pdf/1706.03762v7.pdf",
				MIMEType: "application/pdf",
			}},
		},
			Role: "user"},
	}

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// "Attention Is All You Need" introduces the Transformer,
	// a groundbreaking neural network architecture designed for...
	// ...

	return nil
}

Java

Découvrez comment installer ou mettre à jour le Java.

Pour en savoir plus, lisez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.Content;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import com.google.genai.types.Part;

public class TextGenerationWithPdf {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    generateContent(modelId);
  }

  // Generates text with PDF file input
  public static String generateContent(String modelId) {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("global")
            .vertexAI(true)
            .httpOptions(HttpOptions.builder().apiVersion("v1").build())
            .build()) {

      String prompt =
          "You are a highly skilled document summarization specialist.\n"
              + " Your task is to provide a concise executive summary of no more than 300 words.\n"
              + " Please summarize the given document for a general audience";

      GenerateContentResponse response =
          client.models.generateContent(
              modelId,
              Content.fromParts(
                  Part.fromUri(
                      "gs://cloud-samples-data/generative-ai/pdf/1706.03762v7.pdf",
                      "application/pdf"),
                  Part.fromText(prompt)),
              null);

      System.out.print(response.text());
      // Example response:
      // The document introduces the Transformer, a novel neural network architecture designed for
      // sequence transduction tasks, such as machine translation. Unlike previous dominant models
      // that rely on complex recurrent or convolutional neural networks, the Transformer proposes a
      // simpler, more parallelizable design based *solely* on attention mechanisms, entirely
      // dispensing with recurrence and convolutions...

      return response.text();
    }
  }
}

Node.js

Installer

npm install @google/genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateText(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
  });

  const prompt = `You are a highly skilled document summarization specialist.
    Your task is to provide a concise executive summary of no more than 300 words.
    Please summarize the given document for a general audience.`;

  const pdfFile = {
    fileData: {
      fileUri: 'gs://cloud-samples-data/generative-ai/pdf/1706.03762v7.pdf',
      mimeType: 'application/pdf',
    },
  };

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: [pdfFile, prompt],
  });

  console.log(response.text);

  // Example response:
  //  Here is a summary of the document in 300 words.
  //  The paper introduces the Transformer, a novel neural network architecture for
  //  sequence transduction tasks like machine translation. Unlike existing models that rely on recurrent or
  //  convolutional layers, the Transformer is based entirely on attention mechanisms.
  //  ...

  return response.text;
}

REST

Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

  • PROJECT_ID : ID de votre projet.
  • FILE_URI : URI ou URL du fichier à inclure dans le prompt. Les valeurs acceptées incluent les suivantes :
    • URI du bucket Cloud Storage : l'objet doit être lisible publiquement ou se trouver dans le même projet Google Cloud que celui qui envoie la requête. La taille limite pour gemini-2.0-flash et gemini-2.0-flash-lite est de 2 Go.
    • URL HTTP : l'URL du fichier doit être lisible publiquement. Vous pouvez spécifier un fichier vidéo, un fichier audio et jusqu'à 10 fichiers image par requête. Les fichiers audio, les fichiers vidéo et les documents ne doivent pas dépasser 15 Mo.
    • URL de la vidéo YouTube : la vidéo YouTube doit appartenir au compte que vous avez utilisé pour vous connecter à la console Google Cloud ou être publique. Une seule URL de vidéo YouTube est acceptée par requête.

    Lorsque vous spécifiez un fileURI, vous devez également indiquer le type de contenu multimédia (mimeType) du fichier. Si VPC Service Controls est activé, la spécification d'une URL de fichier multimédia pour fileURI n'est pas acceptée.

    Si vous ne disposez pas de fichier PDF dans Cloud Storage, vous pouvez utiliser le fichier suivant, accessible publiquement : gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf (type MIME : application/pdf). Pour visualiser ce fichier PDF, ouvrez l'exemple de fichier PDF.

  • MIME_TYPE : type de contenu du fichier spécifié dans les champs data ou fileUri. Les valeurs acceptées incluent les suivantes :

    Cliquez pour développer les types MIME.

    • application/pdf
    • audio/mpeg
    • audio/mp3
    • audio/wav
    • image/png
    • image/jpeg
    • image/webp
    • text/plain
    • video/mov
    • video/mpeg
    • video/mp4
    • video/mpg
    • video/avi
    • video/wmv
    • video/mpegps
    • video/flv
  • TEXT : instructions textuelles à inclure dans le prompt. Exemple : You are a very professional document summarization specialist. Please summarize the given document.

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel :

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.0-flash:generateContent"

PowerShell

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel :

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.0-flash:generateContent" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Notez les points suivants dans l'URL de cet exemple :
  • Utilisez la méthode generateContent pour demander que la réponse soit renvoyée une fois qu'elle a été entièrement générée. Pour réduire la perception de la latence auprès d'un public humain, affichez la réponse progressivement à mesure qu'elle est générée à l'aide de la méthode streamGenerateContent.
  • L'ID du modèle multimodal se trouve à la fin de l'URL avant la méthode (par exemple, gemini-2.0-flash). Cet exemple peut également s'appliquer à d'autres modèles.

Console

Pour envoyer un prompt multimodal à l'aide de la console Google Cloud , procédez comme suit :

  1. Dans la section "Vertex AI" de la console Google Cloud , accédez à la page Vertex AI Studio.

    Accéder à Vertex AI Studio

  2. Cliquez sur Créer un prompt.

  3. (Facultatif) Configurez le modèle et les paramètres :

    • Modèle : sélectionnez un modèle.
  4. (Facultatif) Pour configurer des paramètres avancés, cliquez sur Avancé, puis configurez les paramètres comme suit :

    Cliquez pour développer les configurations avancées.

    • Top-K : utilisez le curseur ou la zone de texte pour saisir une valeur.

      Le top-K modifie la façon dont le modèle sélectionne les jetons pour la sortie. Une valeur top-K de 1 signifie que le prochain jeton sélectionné est le plus probable parmi tous les jetons du vocabulaire du modèle (également appelé décodage glouton), tandis qu'une valeur top-K de 3 signifie que le jeton suivant est sélectionné parmi les trois jetons les plus probables en utilisant la température.

      Pour chaque étape de sélection du jeton, les jetons top-K avec les probabilités les plus élevées sont échantillonnés. Les jetons sont ensuite filtrés en fonction du top-P avec le jeton final sélectionné à l'aide de l'échantillonnage de température.

      Spécifiez une valeur inférieure pour obtenir des réponses moins aléatoires et une valeur supérieure pour des réponses plus aléatoires.

    • Top-P : utilisez le curseur ou la zone de texte pour saisir une valeur. Les jetons sont sélectionnés du plus probable au moins probable, jusqu'à ce que la somme de leurs probabilités soit égale à la valeur du top-P. Pour obtenir les résultats les moins variables, définissez "Top-P" sur 0.
    • Nombre maximal de réponses : utilisez le curseur ou la zone de texte pour saisir le nombre de réponses à générer.
    • Réponses en streaming : permet d'imprimer les réponses au fur et à mesure de leur génération.
    • Seuil de filtre de sécurité : sélectionnez le seuil de la probabilité que des réponses potentiellement nuisibles s'affichent.
    • Activer l'ancrage : l'ancrage n'est pas compatible avec les requêtes multimodales.
    • Région : sélectionnez la région que vous souhaitez utiliser.
    • Température : utilisez le curseur ou la zone de texte pour saisir une valeur de température.

          
      The temperature is used for sampling during response generation, which occurs when topP
      and topK are applied. Temperature controls the degree of randomness in token selection.
      Lower temperatures are good for prompts that require a less open-ended or creative response, while
      higher temperatures can lead to more diverse or creative results. A temperature of 0
      means that the highest probability tokens are always selected. In this case, responses for a given
      prompt are mostly deterministic, but a small amount of variation is still possible.
      
      

      If the model returns a response that's too generic, too short, or the model gives a fallback response, try increasing the temperature. If the model enters infinite generation, increasing the temperature to at least 0.1 may lead to improved results.

      1.0 is the recommended starting value for temperature. </li> <li>**Output token limit**: Use the slider or textbox to enter a value for the max output limit. Maximum number of tokens that can be generated in the response. A token is approximately four characters. 100 tokens correspond to roughly 60-80 words.

      Specify a lower value for shorter responses and a higher value for potentially longer responses.

      </li> <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a series of characters that includes spaces. If the model encounters a stop sequence, the response generation stops. The stop sequence isn't included in the response, and you can add up to five stop sequences.</li> </ul>

  5. Cliquez sur Insérer un média, puis sélectionnez une source pour votre fichier.

    Importer

    Sélectionnez le fichier que vous souhaitez importer, puis cliquez sur Ouvrir.

    À partir d'une URL

    Saisissez l'URL du fichier que vous souhaitez utiliser, puis cliquez sur Insérer.

    Cloud Storage

    Sélectionnez le bucket, puis le fichier que vous souhaitez importer, et cliquez sur Sélectionner.

    Google Drive

    1. Choisissez un compte et autorisez Vertex AI Studio à y accéder la première fois que vous sélectionnez cette option. Vous pouvez importer plusieurs fichiers, à condition de ne pas dépasser une taille totale de 10 Mo. La taille d'un seul fichier ne peut pas dépasser 7 Mo.
    2. Cliquez sur le fichier que vous souhaitez ajouter.
    3. Cliquez sur Sélectionner.

      La vignette du fichier s'affiche dans le volet Prompt. Le nombre total de jetons est également indiqué. Si les données de votre prompt dépassent la limite de jetons, les jetons sont tronqués et ne sont pas inclus dans le traitement de vos données.

  6. Saisissez votre prompt textuelle dans le volet Prompt.

  7. (Facultatif) Pour afficher les ID de jeton Texte et les ID de jeton, cliquez sur le nombre de jetons dans le volet Prompt.

  8. Cliquez sur Envoyer.

  9. (Facultatif) Pour enregistrer votre prompt dans Mes prompts, cliquez sur  Enregistrer.

  10. (Facultatif) pour obtenir le code Python ou la commande curl de votre prompt, cliquez sur  Compiler avec du code > Obtenir le code.

Définir des paramètres de modèle facultatifs

Chaque modèle est associé à un ensemble de paramètres facultatifs que vous pouvez définir. Pour en savoir plus, consultez Paramètres de génération de contenu.

Tokenisation des documents

Avec Gemini 3 Pro, la tokenisation des documents utilise une longueur de séquence variable, qui remplace la méthode Pan and Scan utilisée dans les modèles précédents pour améliorer la qualité et la latence.

Vous pouvez spécifier une résolution média pour les entrées PDF, ce qui affecte la façon dont les documents sont tokenisés et le nombre de jetons utilisés pour chaque document. Vous pouvez définir media_resolution dans generationConfig pour l'appliquer à tous les médias de la demande, ou le définir pour des parties média individuelles, ce qui remplacera le paramètre de niveau supérieur.

Les résolutions suivantes sont disponibles pour Gemini 3 Pro :

  • MEDIA_RESOLUTION_HIGH : 1 120 jetons pour les PDF
  • MEDIA_RESOLUTION_MEDIUM : 560 jetons pour les PDF
  • MEDIA_RESOLUTION_LOW : 280 jetons pour les PDF
  • MEDIA_RESOLUTION_UNSPECIFIED : 560 pour les PDF (par défaut)

Cet exemple de code montre comment ajuster media_resolution :

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
  model="gemini-3-pro-preview",
  contents=[
      types.Part(
          file_data=types.FileData(
              file_uri="gs://cloud-samples-data/generative-ai/image/a-man-and-a-dog.png",
              mime_type="image/jpeg",
          ),
          media_resolution=types.PartMediaResolution(
              level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_HIGH
          ),
      ),
      Part(
          file_data=types.FileData(
              file_uri="gs://cloud-samples-data/generative-ai/video/behind_the_scenes_pixel.mp4",
              mime_type="video/mp4",
          ),
          media_resolution=types.PartMediaResolution(
              level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_LOW
          ),
      ),
      "When does the image appear in the video? What is the context?",
  ],
)
print(response.text)

Bonnes pratiques pour les PDF

Lorsque vous utilisez des fichiers PDF, suivez les bonnes pratiques et informations suivantes pour obtenir des résultats optimaux :

  • Si votre prompt contient un seul fichier PDF, placez-le avant le prompt textuel.
  • Si votre document est long, envisagez de le diviser en plusieurs fichiers PDF pour faciliter son traitement.
  • Utilisez des PDF créés avec du texte affiché au format texte plutôt que du texte d'images numérisées. Ce format permet de s'assurer que le texte est lisible par un ordinateur. Le modèle peut ainsi le modifier, y effectuer des recherches et le manipuler plus facilement qu'avec des fichiers PDF constitués d'images numérisées. Cette bonne pratique fournit des résultats optimaux si les documents contiennent beaucoup de texte (par exemple, des contrats).

Limites

Bien que les modèles multimodaux Gemini soient performants dans de nombreux cas d'utilisation multimodaux, il est important de comprendre leurs limites :

  • Raisonnement spatial : les modèles ne parviennent pas à localiser précisément du texte ou des objets dans des fichiers PDF. Ils peuvent ne renvoyer que des décomptes approximatifs d'objets.
  • Justesse : les modèles peuvent produire des hallucinations lors de l'interprétation de texte manuscrit dans des documents PDF.

Étapes suivantes