À propos du réglage supervisé pour les modèles Gemini

L'affinage supervisé est une bonne option lorsque vous avez une tâche bien définie avec des données étiquetées disponibles. Cette approche est particulièrement efficace pour les applications spécifiques à un domaine, où le langage ou le contenu diffèrent considérablement des données sur lesquelles le modèle volumineux a été initialement entraîné. Vous pouvez régler les types de données texte, image, audio, vidéo et document. Vous pouvez également créer des applications et des agents basés sur Gemini qui peuvent interagir avec des informations et des services en temps réel, tels que des bases de données, des systèmes de gestion de la relation client et des dépôts de documents.

L'affinage supervisé adapte le comportement du modèle à un ensemble de données étiquetées. Ce processus ajuste les pondérations du modèle afin de minimiser la différence entre ses prédictions et les étiquettes réelles. Par exemple, cela peut améliorer les performances du modèle pour les types de tâches suivants :

  • Classification
  • Synthèse
  • Systèmes de questions-réponses extractifs
  • Chat

Pour en savoir plus sur les principaux cas d'utilisation du réglage, consultez l'article de blog Des centaines d'organisations affinent les modèles Gemini. Voici leurs cas d'utilisation préférés use cases.

Pour en savoir plus, consultez Quand utiliser l'affinage supervisé pour Gemini.

Modèles compatibles

Les modèles Gemini suivants sont compatibles avec l'affinage supervisé :

Cliquer pour développer les modèles compatibles

Pour les modèles compatibles avec le raisonnement, définissez le budget de raisonnement (pour les modèles Gemini 2.5 et versions antérieures) ou le niveau de raisonnement (pour Gemini 3 et versions ultérieures) sur la valeur minimale autorisée pour le paramètre. Cela peut améliorer les performances et réduire les coûts pour les tâches réglées. Lors du réglage supervisé, le modèle apprend à partir des données d'entraînement et omet le processus de raisonnement. Par conséquent, le modèle réglé obtenu peut effectuer efficacement les tâches réglées sans budget de raisonnement.

Limites

L'affinage supervisé n'est pas un service couvert et est exclu du SLO de tout contrat de niveau de service.

Le tableau suivant présente les limites concernant les ensembles de données d'affinage supervisé :

Gemini 3.1 Flash-Lite

Spécification Valeur
Nombre maximal de jetons d'entrée et de sortie par exemple d'entraînement 131 072
Nombre maximal de jetons d'entrée et de sortie pour le déploiement Identique au modèle Gemini de base
Nombre maximal d'exemples dans un ensemble de données de validation 5 000 exemples ou 30% du nombre d'exemples d'entraînement s'il y a plus de 1 000 exemples de validation
Taille maximale du fichier d'ensemble de données d'entraînement 1 Go pour JSONL
Taille maximale de l'ensemble de données d'entraînement 10 millions d'exemples en texte seul ou 300 000 exemples multimodaux
Taille de l'adaptateur Valeurs acceptées : 1, 2, 4, 8 et 16
Points de terminaison compatibles pour le réglage du modèle us-central1 et europe-west4
Point de terminaison compatible pour la mise en service du modèle réglé Points de terminaison multirégionaux us et eu uniquement
Compatibilité CMEK Non compatible

Gemini 2.5 Flash
Gemini 2.5 Flash-Lite

Spécification Valeur
Nombre maximal de jetons d'entrée et de sortie par exemple d'entraînement 131 072
Nombre maximal de jetons d'entrée et de sortie pour le déploiement Identique au modèle Gemini de base
Nombre maximal d'exemples dans un ensemble de données de validation 5 000 exemples ou 30% du nombre d'exemples d'entraînement s'il y a plus de 1 000 exemples de validation
Taille maximale du fichier d'ensemble de données d'entraînement 1 Go pour JSONL
Taille maximale de l'ensemble de données d'entraînement 10 millions d'exemples en texte seul ou 300 000 exemples multimodaux
Taille de l'adaptateur Valeurs acceptées : 1, 2, 4, 8 et 16

Gemini 2.5 Pro

Spécification Valeur
Nombre maximal de jetons d'entrée et de sortie pour l'entraînement 131 072
Nombre maximal de jetons d'entrée et de sortie pour le déploiement Identique au modèle Gemini de base
Taille maximale de l'ensemble de données de validation 5 000 exemples ou 30% du nombre d'exemples d'entraînement s'il y a plus de 1 000 exemples de validation
Taille maximale du fichier d'ensemble de données d'entraînement 1 Go pour JSONL
Taille maximale de l'ensemble de données d'entraînement 10 millions d'exemples en texte seul ou 300 000 exemples multimodaux
Taille de l'adaptateur Valeurs acceptées : 1, 2, 4 et 8

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Spécification Valeur
Nombre maximal de jetons d'entrée et de sortie pour l'entraînement 131 072
Nombre maximal de jetons d'entrée et de sortie pour le déploiement Identique au modèle Gemini de base
Taille maximale de l'ensemble de données de validation 5 000 exemples ou 30% du nombre d'exemples d'entraînement s'il y a plus de 1 000 exemples de validation
Taille maximale du fichier d'ensemble de données d'entraînement 1 Go pour JSONL
Taille maximale de l'ensemble de données d'entraînement 10 millions d'exemples en texte seul ou 300 000 exemples multimodaux
Taille de l'adaptateur Valeurs acceptées : 1, 2, 4 et 8

Problèmes connus

  • L'application de la génération contrôlée lors de l'envoi de requêtes d'inférence à des modèles Gemini réglés peut entraîner une diminution de la qualité du modèle en raison d'un désalignement des données pendant le réglage et l'inférence. Lors du réglage, la génération contrôlée n'est pas appliquée. Par conséquent, le modèle réglé n'est pas en mesure de gérer correctement la génération contrôlée au moment de l'inférence. Le réglage supervisé personnalise efficacement le modèle pour générer une sortie structurée. Vous n'avez donc pas besoin d'appliquer la génération contrôlée lorsque vous effectuez des requêtes d'inférence sur des modèles réglés.

Cas d'utilisation de l'affinage supervisé

Les modèles de fondation fonctionnent bien lorsque la sortie ou la tâche attendue peut être définie de manière claire et concise dans un prompt et que celui-ci génère systématiquement le résultat attendu. Si vous souhaitez qu'un modèle apprenne quelque chose de spécifique ou de différent des modèles généraux, vous pouvez envisager de régler ce modèle. Vous pouvez par exemple utiliser les réglages de modèles pour apprendre au modèle ce qui suit :

  • Structures ou formats spécifiques pour générer la sortie.
  • Comportements spécifiques, par exemple lorsqu'il s'agit de fournir une sortie sobre ou détaillée.
  • Sorties personnalisées spécifiques pour des types d'entrées spécifiques.

Les exemples suivants sont des cas d'utilisation difficiles à capturer seulement avec des instructions de requête :

  • Classification : la réponse attendue est un mot ou une expression spécifique.

     :

    Le réglage du modèle peut empêcher le modèle de générer des réponses détaillées.

  • Synthèse : le résumé respecte un format spécifique. Par exemple, vous devrez peut-être supprimer d'un résumé de chat les informations permettant d'identifier personnellement l'utilisateur.

     :

    Ce format de remplacement des noms des locuteurs par #Person1 et #Person2 est difficile à décrire, et le modèle de fondation peut ne pas produire naturellement une telle réponse.

  • Systèmes de questions-réponses extractifs : la question porte sur un contexte et la réponse est une sous-chaîne du contexte.

     :

    La réponse "Dernière période glaciaire la plus longue" est une expression spécifique du contexte.

  • Chat : vous devez personnaliser la réponse du modèle pour suivre un persona, un rôle ou un caractère.

Vous pouvez également régler un modèle dans les situations suivantes :

  • Les requêtes ne produisent pas suffisamment les résultats souhaités.
  • La tâche est trop compliquée à définir dans une requête. Par exemple, vous souhaitez que le modèle effectue un clonage de comportement pour un comportement difficile à expliquer dans une requête.
  • Vous avez des intuitions complexes sur une tâche difficile à formaliser dans une requête.
  • Vous souhaitez réduire la longueur de contexte en supprimant les exemples few-shot.

Configurer une région de job de réglage

Les données utilisateur, telles que l'ensemble de données transformé et le modèle réglé, sont stockées dans la région du job d'optimisation. Lors de l'ajustement, le calcul peut être transféré vers d'autres régions US ou EU pour les accélérateurs disponibles. Le déchargement est transparent pour les utilisateurs.

  • Si vous utilisez le SDK Vertex AI, vous pouvez spécifier la région lors de l'initialisation. Exemple :

    import vertexai
    vertexai.init(project='myproject', location='us-central1')
    
  • Si vous créez un job d'affinage supervisé en envoyant une requête POST à l'aide de la tuningJobs.create méthode, vous utilisez l'URL pour spécifier la région dans laquelle le job d'affinage est exécuté. Par exemple, dans l'URL suivante, vous spécifiez une région en remplaçant les deux instances de TUNING_JOB_REGION par la région où le job est exécuté.

     https://TUNING_JOB_REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/TUNING_JOB_REGION/tuningJobs
    
  • Si vous utilisez la Google Cloud console, vous pouvez sélectionner le nom de la région dans le champ déroulant Région de la page Informations sur le modèle. Il s'agit de la même page que celle sur laquelle vous sélectionnez le modèle de base et le nom d'un modèle réglé.

Évaluer les modèles réglés

Vous pouvez évaluer les modèles réglés de différentes manières :

  • Métriques de réglage et de validation : évaluez le modèle réglé à l'aide des métriques de réglage et de validation une fois le job de réglage terminé.

  • Évaluation intégrée avec Gen AI Evaluation Service (aperçu) : configurez les jobs de réglage pour exécuter automatiquement des évaluations à l'aide de Gen AI Evaluation Service pendant le réglage. Les interfaces, modèles et régions suivants sont compatibles avec l'intégration du réglage à Gen AI Evaluation Service :

    • Interfaces compatibles : SDK Google Gen AI et API REST.

    • Modèles compatibles : gemini-2.5-pro, gemini-2.5-flash et gemini-2.5-flash-lite.

    • Régions compatibles : pour obtenir la liste des régions compatibles, consultez Régions compatibles.

Quota

Le quota est appliqué au nombre de jobs de réglage simultanés. Chaque projet est associé à un quota par défaut pour exécuter au moins un job de réglage. Il s'agit d'un quota mondial, partagé entre toutes les régions disponibles et tous les modèles compatibles. Si vous souhaitez exécuter plus de jobs simultanément, vous devez demander un quota supplémentaire pour Global concurrent tuning jobs.

Si vous configurez le Gen AI Evaluation Service pour exécuter automatiquement des évaluations pendant le réglage, consultez les quotas de Gen AI Evaluation Service.

Tarifs

Vous trouverez les tarifs de l'affinage supervisé de Gemini ici : Tarifs de Gemini Enterprise Agent Platform.

Le nombre de jetons d'entraînement est calculé en multipliant le nombre de jetons dans votre ensemble de données d'entraînement par le nombre d'époques. Après le réglage, les coûts d'inférence (requête de prédiction) du modèle réglé continuent de s'appliquer. Les tarifs d'inférence sont les mêmes pour chaque version stable de Gemini. Pour en savoir plus, consultez Versions stables disponibles de Gemini.

Si vous configurez Gen AI Evaluation Service pour qu'il s'exécute automatiquement pendant le réglage, les évaluations sont facturées en tant que jobs de prédiction par lot. Pour en savoir plus, reportez-vous à la page Tarifs.

Étape suivante