Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ensembles de données multimodaux

Les ensembles de données multimodaux sur Agent Platform vous permettent de créer, de gérer, de partager et d'utiliser des ensembles de données multimodaux pour l'IA générative. Les ensembles de données multimodaux offrent les fonctionnalités clés suivantes :

Vous pouvez charger des ensembles de données à partir de BigQuery, de DataFrames ou de fichiers JSONL dans Cloud Storage.
Créez votre ensemble de données une seule fois et utilisez-le pour différents types de tâches, tels que le réglage supervisé et la prédiction par lot, ce qui évite la duplication des données et les problèmes de formatage.
Conservez tous vos ensembles de données d'IA générative dans un emplacement unique et géré.
Validez votre schéma et votre structure, et quantifiez les ressources nécessaires pour les tâches en aval. Cela vous permet de détecter les erreurs et d'estimer le coût avant de commencer une tâche.

Vous pouvez utiliser des ensembles de données multimodaux via le SDK Agent Platform ou l'API REST.

Les ensembles de données multimodaux sont un type d'ensembles de données gérés sur Agent Platform. Ils diffèrent des autres types d'ensembles de données gérés de la manière suivante :

Les ensembles de données multimodaux peuvent inclure des données de n'importe quelle modalité (texte, image, audio, vidéo). Les autres types d'ensembles de données gérés ne concernent qu'une seule modalité.
Les ensembles de données multimodaux ne peuvent être utilisés que pour les services d'IA générative sur Agent Platform, tels que le réglage et la prédiction par lot avec des modèles génératifs. Les autres types d'ensembles de données gérés ne peuvent être utilisés que pour les modèles prédictifs Agent Platform.
Les ensembles de données multimodaux sont compatibles avec des méthodes supplémentaires, telles que assemble et assess, qui permettent de prévisualiser les données, de valider les requêtes et d'estimer les coûts.
Les ensembles de données multimodaux sont stockés dans BigQuery, qui est optimisé pour les grands ensembles de données.

Avant de commencer

Connectez-vous à votre Google Cloud compte. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits sans frais pour exécuter, tester et déployer des charges de travail.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Agent Platform, BigQuery, and Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the serviceusage.services.enable permission. If you created the project, then you likely already have this permission through the Owner role (roles/owner). Otherwise, you can get this permission through the Service Usage Admin role (roles/serviceusage.serviceUsageAdmin). Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Agent Platform, BigQuery, and Cloud Storage APIs.

Roles required to enable APIs

Enable the APIs

Installer et initialiser le SDK Agent Platform pour Python

Importez les bibliothèques suivantes et créez un client :

import agentplatform
from agentplatform.types import (
    GeminiExample,
    GeminiRequestReadConfig,
    GeminiTemplateConfig,
)

# To use related features, such as tuning and batch prediction, you may also
# need to import the Google Gen AI SDK:
from google import genai
from google.genai.types import Content, Part

# Create a client for multimodal dataset operations.
client = agentplatform.Client(project="PROJECT_ID", location="LOCATION")

Créer un ensemble de données

Vous pouvez créer un multimodal dataset à partir de différentes sources :

à partir d'un DataFrame pandas

my_dataset = client.datasets.create_from_pandas(
    dataframe=my_dataframe,
    target_table_id=table_id    # optional
)

à partir d'un DataFrame BigQuery :

my_dataset = client.datasets.create_from_bigframes(
    dataframe=my_dataframe,
    target_table_id=table_id    # optional
)

à partir d'une table BigQuery

my_dataset_from_bigquery = client.datasets.create_from_bigquery(
    bigquery_uri="bq://projectId.datasetId.tableId"
)

à partir d'une table BigQuery, à l'aide de l'API REST

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT/locations/LOCATION/datasets" \
-d '{
  "display_name": "TestDataset",
  "metadataSchemaUri": "gs://google-cloud-aiplatform/schema/dataset/metadata/multimodal_1.0.0.yaml",
  "metadata": {
    "inputConfig": {
      "bigquery_source": {
        "uri": "bq://projectId.datasetId.tableId"
      }
    }
  }
}'

à partir d'un fichier JSONL dans Cloud Storage. Dans l'exemple suivant, le fichier JSONL contient des requêtes déjà formatées pour Gemini. Aucune assemblée n'est donc requise.
```
my_dataset = client.datasets.create_from_gemini_request_jsonl(
  gcs_uri = gcs_uri_of_jsonl_file,
)
```

à partir d'un ensemble de données multimodal existant

# Load dataset based on its name. This accepts a full resource name or a
# dataset ID.
same_dataset = client.datasets.get_multimodal_dataset(name=dataset_name)

Construire et associer une configuration de lecture

Une configuration de lecture (GeminiRequestReadConfig) définit comment transformer l'ensemble de données multimodal en un format pouvant être transmis au modèle. Il contient un modèle avec des espaces réservés qui sont remplacés par les valeurs des colonnes d'ensemble de données correspondantes lors de l'assemblage. Cette opération est requise pour exécuter une tâche de réglage ou de prédiction par lot.

SDK Agent Platform

Construisez une configuration de lecture. Vous pouvez la construire de deux manières :

Utilisez la méthode d'assistance GeminiRequestReadConfig.single_turn_template :

read_config = GeminiRequestReadConfig.single_turn_template(
        prompt="This is the image: {image_uris}",
        response="{labels}",
        system_instruction='You are a botanical image classifier. Analyze the provided image '
                'and determine the most accurate classification of the flower.'
                'These are the only flower categories: [\'daisy\', \'dandelion\', \'roses\', \'sunflowers\', \'tulips\'].'
                'Return only one category per image.'
)

Construisez manuellement une configuration de lecture à partir d'un GeminiExample, ce qui permet une granularité plus fine, par exemple pour les conversations à plusieurs tours. L'exemple de code suivant inclut également du code commenté facultatif pour spécifier un field_mapping, qui vous permet d'utiliser un nom d'espace réservé différent du nom de colonne de l'ensemble de données. Exemple :

# Define a GeminiExample
gemini_example = GeminiExample(
  contents=[
      Content(role="user", parts=[Part.from_text(text="This is the image: {image_uris}")]),
      Content(role="model", parts=[Part.from_text(text="This is the flower class: {label}.")]),
      Content(role="user", parts=[Part.from_text(text="Your response should only contain the class label.")]),
      Content(role="model", parts=[Part.from_text(text="{label}")]),

      # Optional: If you specify a field_mapping, you can use different placeholder values. For example:
      # Content(role="user", parts=[Part.from_text(text="This is the image: {uri_placeholder}")]),
      # Content(role="model", parts=[Part.from_text(text="This is the flower class: {flower_placeholder}.")]),
      # Content(role="user", parts=[Part.from_text(text="Your response should only contain the class label.")]),
      # Content(role="model", parts=[Part.from_text(text="{flower_placeholder}")]),
  ],
  system_instruction=Content(
      parts=[
          Part.from_text(
              text='You are a botanical image classifier. Analyze the provided image '
              'and determine the most accurate classification of the flower.'
              'These are the only flower categories: [\'daisy\', \'dandelion\', \'roses\', \'sunflowers\', \'tulips\'].'
              'Return only one category per image.'
          )
      ]
  ),
)

# Construct the read config, specifying a map for the placeholders.
read_config = GeminiRequestReadConfig(
    template_config=GeminiTemplateConfig(
        gemini_example=gemini_example,

        # Optional: Map the template placeholders to the column names of your dataset.
        # Not required if the template placeholders are column names of the dataset.
        # field_mapping={"uri_placeholder": "image_uris", "flower_placeholder": "labels"},
    ),
)

Associez-le à l'ensemble de données et conservez la modification :

my_dataset.set_read_config(read_config=read_config)
my_dataset = client.datasets.update_multimodal_dataset(multimodal_dataset=my_dataset)

REST

Appelez la méthode patch et mettez à jour le champ metadata avec les éléments suivants :

L'URI de la table BigQuery. Pour les ensembles de données créés à partir d'une table BigQuery, il s'agit de votre bigquery_uri source. Pour les ensembles de données créés à partir d'autres sources, telles que JSONL ou DataFrame, il s'agit de la table BigQuery dans laquelle vos données ont été copiées.
Un gemini_template_config.

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d $'{
  "metadata": {
    "input_config": {
      "bigquery_source": {
        "uri": "bq://projectId.datasetId.tableId"
      }
    },
    "gemini_template_config_source": {
      "gemini_template_config": {
        "gemini_example": {
          "contents": [
            {
              "role": "user",
              "parts": [
                {
                  "text": "This is the image: {image_uris}"

                }
              ]
            },
            {
              "role": "model",
              "parts": [
                {
                  "text": "response"
                }
              ]
            }
          ]
        "systemInstruction": {
            "parts": [
                {
                    "text": "You are a botanical image classifier."
                }
            ]
          }
        }
      }
    }
  }
}' \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID?updateMask=metadata"

(Facultatif) Assembler l'ensemble de données

La méthode assemble applique la configuration de lecture pour transformer votre ensemble de données et stocke la sortie dans une nouvelle table BigQuery. Cela vous permet de prévisualiser les données avant qu'elles ne soient transmises au modèle.

Par défaut, la configuration de lecture associée à l'ensemble de données est utilisée, mais vous pouvez transmettre un gemini_request_read_config pour remplacer le comportement par défaut.

SDK Agent Platform

La méthode assemble renvoie un tuple (table_id, dataframe). Transmettez load_dataframe=True pour charger également la table assemblée en tant que DataFrame à des fins d'inspection.

table_id, assembly = client.datasets.assemble(
    name=my_dataset.name,
    gemini_request_read_config=read_config,    # optional if attached to the dataset
    load_dataframe=True,
)

# Inspect the results
assembly.head()

REST

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:assemble" \
-d '{}'

Par exemple, supposons que votre ensemble de données multimodal contienne les données suivantes :

Ligne	image_uris	labels
1	gs://cloud-samples-data/ai-platform/flowers/daisy/1396526833_fb867165be_n.jpg	Marguerites

Ensuite, la méthode assemble crée une table BigQuery nommée table_id, où chaque ligne contient le corps de la requête. Exemple :

{
  "contents": [
    {
      "parts": [
        {
          "text": "This is the image: "
        },
        {
          "fileData": {
            "fileUri": "gs://cloud-samples-data/ai-platform/flowers/daisy/1396526833_fb867165be_n.jpg",
            "mimeType": "image/jpeg"
          }
        }
      ],
      "role": "user"
    },
    {
      "parts": [
        {
          "text": "daisy"
        }
      ],
      "role": "model"
    }
  ],
  "systemInstruction": {
    "parts": [
      {
        "text": "You are a botanical image classifier. Analyze the provided image and determine the most accurate classification of the flower.These are the only flower categories: ['daisy', 'dandelion', 'roses', 'sunflowers', 'tulips'].Return only one category per image."
      }
    ]
  }
}

Régler votre modèle

Vous pouvez régler les modèles Gemini à l'aide d'un ensemble de données multimodal.

(Facultatif) Valider l'ensemble de données

Évaluez l'ensemble de données pour vérifier s'il contient des erreurs, telles que des erreurs de formatage ou de modèle.

SDK Agent Platform

Appelez assess_tuning_validity(). Par défaut, la configuration de lecture associée à l'ensemble de données est utilisée, mais vous pouvez transmettre un gemini_request_read_config pour remplacer le comportement par défaut.

# Attach the read configuration to the dataset.
my_dataset.set_read_config(read_config=read_config)
my_dataset = client.datasets.update_multimodal_dataset(multimodal_dataset=my_dataset)

# Validation for tuning
validation = client.datasets.assess_tuning_validity(
    dataset_name=my_dataset.name,
    model_name="gemini-2.5-flash",
    dataset_usage="SFT_TRAINING"
)

# Inspect validation result
validation.errors

REST

Appelez la méthode assess et fournissez un TuningValidationAssessmentConfig.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:assess" \
-d '{
  "tuningValidationAssessmentConfig": {
    "modelName": "projects/PROJECT_ID/locations/LOCATION/models/gemini-2.5-flash",
    "datasetUsage": "SFT_TRAINING"
  }
}'

(Facultatif) Estimer l'utilisation des ressources

Évaluez l'ensemble de données pour obtenir le nombre de jetons et de caractères facturables pour votre tâche de réglage.

SDK Agent Platform

Appelez assess_tuning_resources().

# Resource estimation for tuning.
tuning_resources = client.datasets.assess_tuning_resources(
    dataset_name=my_dataset.name,
    model_name="gemini-2.5-flash"
)

print(tuning_resources)
# For example, TuningResourceUsageAssessmentResult(token_count=362688, billable_character_count=122000)

REST

Appelez la méthode assess et fournissez un TuningResourceUsageAssessmentConfig.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:assess" \
-d '{
  "tuningResourceUsageAssessmentConfig": {
    "modelName": "projects/PROJECT_ID/locations/LOCATION/models/gemini-2.5-flash"
  }
}'

Exécuter la tâche de réglage

Utilisez le SDK Google Gen AI pour démarrer une tâche de réglage, en transmettant le nom de ressource de l'ensemble de données multimodal. Une configuration de lecture doit être associée à l'ensemble de données.

SDK Google Gen AI

from google import genai
from google.genai.types import HttpOptions, CreateTuningJobConfig

genai_client = genai.Client(http_options=HttpOptions(api_version="v1"))

tuning_job = genai_client.tunings.tune(
  base_model="gemini-2.5-flash",
  # Pass the resource name of the Multimodal Dataset, not the dataset object
  training_dataset={
      "vertex_dataset_resource": my_multimodal_dataset.name
  },
  # Optional
  config=CreateTuningJobConfig(
      validation_dataset={
          "vertex_dataset_resource": my_multimodal_validation_dataset.name
      },
      tuned_model_display_name="Example tuning job"),
)

Pour plus d'informations, consultez la page Créer une tâche de réglage.

Prédiction par lot

Vous pouvez obtenir des prédictions par lot à l'aide d'un ensemble de données multimodal.

(Facultatif) Valider l'ensemble de données

Évaluez l'ensemble de données pour vérifier s'il contient des erreurs, telles que des erreurs de formatage ou de modèle.

SDK Agent Platform

Appelez assess_batch_prediction_validity(). Par défaut, la configuration de lecture associée à l'ensemble de données est utilisée, mais vous pouvez transmettre un gemini_request_read_config pour remplacer le comportement par défaut.

# Attach the read configuration to the dataset.
my_dataset.set_read_config(read_config=read_config)
my_dataset = client.datasets.update_multimodal_dataset(multimodal_dataset=my_dataset)

# Validation for batch prediction
validation = client.datasets.assess_batch_prediction_validity(
    dataset_name=my_dataset.name,
    model_name="gemini-2.5-flash"
)

# Inspect validation result
validation.errors

REST

Appelez la méthode assess et fournissez un batchPredictionValidationAssessmentConfig.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:assess" \
-d '{
  "batchPredictionValidationAssessmentConfig": {
    "modelName": "projects/PROJECT_ID/locations/LOCATION/models/gemini-2.5-flash",
  }
}'

(Facultatif) Estimer l'utilisation des ressources

Évaluez l'ensemble de données pour obtenir le nombre de jetons pour votre tâche.

SDK Agent Platform

Appelez assess_batch_prediction_resources().

batch_prediction_resources = client.datasets.assess_batch_prediction_resources(
    dataset_name=my_dataset.name,
    model_name="gemini-2.5-flash"
)

print(batch_prediction_resources)
# For example, BatchPredictionResourceUsageAssessmentResult(token_count=362688, audio_token_count=122000)

REST

Appelez la assess méthode et fournissez un batchPredictionResourceUsageAssessmentConfig.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:assess" \
-d '{
  "batchPredictionResourceUsageAssessmentConfig": {
    "modelName": "projects/PROJECT_ID/locations/LOCATION/models/gemini-2.5-flash"
  }
}'

Exécuter la tâche de prédiction par lot

Vous pouvez utiliser votre ensemble de données multimodal pour effectuer des prédictions par lot en transmettant le table_id BigQuery de la sortie assemblée :

SDK Google Gen AI

from google import genai
from google.genai.types import HttpOptions

# Attach the read configuration to the dataset.
my_dataset.set_read_config(read_config=read_config)
my_dataset = client.datasets.update_multimodal_dataset(multimodal_dataset=my_dataset)

# Assemble the dataset to get the assembled BigQuery table.
table_id, _ = client.datasets.assemble(name=my_dataset.name)

genai_client = genai.Client(http_options=HttpOptions(api_version="v1"))

job = genai_client.batches.create(
    model="gemini-2.5-flash",
    src=f"bq://{table_id}",
)

Pour plus d'informations, consultez la page Demander une tâche de prédiction par lot.

Limites

Les ensembles de données multimodaux ne peuvent être utilisés qu'avec des fonctionnalités d'IA générative. Ils ne peuvent pas être utilisés avec des fonctionnalités d'IA non générative telles que l'entraînement AutoML et l'entraînement personnalisé.
Les ensembles de données multimodaux ne peuvent être utilisés qu'avec des modèles Google tels que Gemini. Ils ne peuvent pas être utilisés avec des modèles tiers.

Tarifs

Lorsque vous réglez un modèle ou exécutez une tâche de prédiction par lot, vous êtes facturé pour l'utilisation de l'IA générative et l'interrogation de l'ensemble de données dans BigQuery.

Lorsque vous créez, assemblez ou évaluez votre ensemble de données multimodal, vous êtes facturé pour le stockage et l'interrogation d'ensembles de données multimodaux dans BigQuery. Plus précisément, les opérations suivantes utilisent ces services sous-jacents :

Ensemble de données Create
- Les ensembles de données créés à partir d'une table BigQuery ou d'un DataFrame existants n'entraînent aucun coût de stockage supplémentaire. En effet, nous utilisons une vue logique au lieu de stocker une autre copie des données.
- Les ensembles de données créés à partir d'autres sources copient les données dans une nouvelle table BigQuery, ce qui entraîne des coûts de stockage dans BigQuery. Par exemple, le stockage logique actif coûte 0,02 $ par Gio et par mois.
Ensemble de données Assemble
- Cette méthode crée une table BigQuery contenant l'ensemble de données complet au format de requête de modèle, ce qui entraîne des coûts de stockage dans BigQuery. Par exemple, le stockage logique actif coûte 0,02 $ par Gio et par mois.
- Cette méthode lit également l'ensemble de données une fois, ce qui entraîne des coûts de requête dans BigQuery. Par exemple, le calcul à la demande coûte 6, 25 $ par Tio.
Assess lit l'ensemble de données une fois, ce qui entraîne des coûts de requête dans BigQuery. Par exemple, le calcul à la demande coûte 6, 25 $ par Tio.

Utilisez le simulateur de coût pour générer une estimation des coûts en fonction de votre utilisation prévue.

Ensembles de données multimodaux Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Avant de commencer

Créer un ensemble de données

Construire et associer une configuration de lecture

SDK Agent Platform

REST

(Facultatif) Assembler l'ensemble de données

SDK Agent Platform

REST

Régler votre modèle

(Facultatif) Valider l'ensemble de données

SDK Agent Platform

REST

(Facultatif) Estimer l'utilisation des ressources

SDK Agent Platform

REST

Exécuter la tâche de réglage

SDK Google Gen AI

Prédiction par lot

(Facultatif) Valider l'ensemble de données

SDK Agent Platform

REST

(Facultatif) Estimer l'utilisation des ressources

SDK Agent Platform

REST

Exécuter la tâche de prédiction par lot

SDK Google Gen AI

Limites

Tarifs

Ensembles de données multimodaux