Réglage des images

Cette page fournit les conditions préalables et des instructions détaillées pour affiner les modèles Gemini sur des données d'images, à l'aide de l'apprentissage supervisé.

Cas d'utilisation

Le réglage fin vous permet d'adapter les modèles Gemini de base à des tâches spécialisées. Voici quelques exemples d'utilisation des images :

  • Amélioration du catalogue de produits : extrayez des attributs clés à partir d'images (par exemple, la marque, la couleur et la taille) pour créer et enrichir automatiquement votre catalogue de produits.
  • Modération des images : ajustez un modèle pour détecter et signaler les contenus inappropriés ou nuisibles dans les images, afin de garantir une expérience en ligne plus sûre.
  • Inspection visuelle : entraînez un modèle pour identifier des objets ou des défauts spécifiques dans des images, en automatisant les processus de contrôle qualité ou d'inspection.
  • Classification d'images : améliorez la précision de la classification d'images pour des domaines spécifiques, tels que l'imagerie médicale ou l'analyse d'images satellites.
  • Recommandations basées sur les images : analysez les images pour fournir des recommandations personnalisées, telles que des produits similaires ou des articles complémentaires.
  • Extraction du contenu des tableaux : extrayez les données des tableaux dans les images et convertissez-les en formats structurés tels que des feuilles de calcul ou des bases de données.

Limites

  • Nombre maximal d'images par exemple : 30
  • Taille maximale des fichiers image : 20 Mo

Pour en savoir plus sur les exigences concernant les échantillons d'images, consultez la page Compréhension des images.

Format de l'ensemble de données

Le fileUri de votre ensemble de données peut être l'URI d'un fichier dans un bucket Cloud Storage, ou une URL HTTP ou HTTPS accessible au public.

Le champ mediaResolution de l'objet GenerationConfig permet de contrôler le compromis entre la qualité du fichier multimédia envoyé pour l'ajustement et le nombre de jetons utilisés pour représenter le contenu multimédia. Une résolution plus élevée permet au modèle de percevoir plus de détails, ce qui peut entraîner un comportement plus nuancé du modèle ajusté, mais cela utilisera également plus de jetons. Cela n'affecte pas les dimensions de l'image envoyée au modèle. Si aucune résolution n'est spécifiée, la résolution par défaut est MEDIA_RESOLUTION_HIGH.

Voici les valeurs mediaResolution acceptées pour l'affinage des données d'image :

  • MEDIA_RESOLUTION_LOW : 64 jetons
  • MEDIA_RESOLUTION_MEDIUM : 256 jetons
  • MEDIA_RESOLUTION_HIGH : 256 jetons + (256 jetons * nombre d'images Pan and Scan)

Pour voir l'exemple de format générique, consultez Exemple d'ensemble de données pour Gemini.

Voici un exemple d'ensemble de données d'images.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/longcap100/100.jpeg"
            }
        },
        {
          "text": "Describe this image in detail that captures the essence of it."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

Exemples d'ensembles de données

Vous pouvez utiliser les exemples d'ensembles de données suivants pour apprendre à régler un modèle Gemini. Pour utiliser ces ensembles de données, spécifiez les URI dans les paramètres applicables lors de la création d'un job de réglage supervisé d'un modèle de texte.

Pour utiliser l'exemple d'ensemble de données de réglage, spécifiez son emplacement comme suit :

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_train_data.jsonl",

Pour utiliser l'exemple d'ensemble de données de validation, spécifiez son emplacement comme suit :

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_validation_data.jsonl",

Étapes suivantes