À propos du réglage des préférences pour les modèles Gemini

Le réglage des préférences de Gemini Enterprise Agent Platform vous permet de régler vos modèles Gemini avec des données de commentaires humains.

Le réglage des préférences permet au modèle d'apprendre à partir des préférences subjectives des utilisateurs, qui sont difficiles à définir à l'aide d'étiquettes spécifiques ou par le biais d'un réglage supervisé seul.

L'ensemble de données d'entrée pour le réglage des préférences contient des exemples composés d'une invite et d'une paire de réponses indiquant laquelle est préférée et laquelle ne l'est pas. Le modèle apprend à générer des réponses préférées avec une probabilité plus élevée et des réponses non préférées avec une probabilité plus faible.

Pour savoir comment préparer l'ensemble de données, consultez Préparer les données de réglage des préférences pour les modèles Gemini.

Modèles compatibles

Les modèles Gemini suivants sont compatibles avec le réglage des préférences :

Cliquer pour développer les modèles compatibles

Limites

Spécification Valeur
Modalités Texte
Taille du fichier de l'ensemble de données d'entraînement 1 Go
Nombre maximal de jetons d'entrée et de sortie par exemple d'entraînement 131 072
Nombre maximal de jetons d'entrée et de sortie pour la diffusion Identique au modèle Gemini de base
Nombre maximal d'exemples d'entraînement dans un ensemble de données d'entraînement 10 millions d'exemples d'entraînement incluant uniquement du texte
Taille maximale de l'ensemble de données de validation 5 000 exemples ou 30% du nombre d'exemples d'entraînement s'il y a plus de 1 000 exemples de validation
Taille de l'adaptateur Valeurs acceptées : 1, 2, 4, 8 et 16

Bonnes pratiques

Avant d'appliquer l'algorithme d'optimisation des préférences à votre modèle, nous vous recommandons vivement de procéder comme suit :

  1. Réglez le modèle à l'aide d'un affinage supervisé sur les données de réponse préférées. Cela permet au modèle de générer des réponses préférées lors de l'inférence.
  2. Continuez le réglage à partir du point de contrôle généré à l'étape 1 à l'aide du réglage des préférences. Cela permet au modèle d'augmenter l'écart de probabilité entre les réponses préférées et non préférées.

Pour créer l'ensemble de données d'affinage supervisé, utilisez les paires d'invites et de réponses acceptées dans votre ensemble de données de préférences comme invite et cible pour votre ensemble de données d'affinage supervisé. En règle générale, une ou deux époques de réglage supervisé devraient suffire, bien que cela puisse varier en fonction de la taille de l'ensemble de données et de l'alignement initial de votre ensemble de données d'entraînement avec le modèle Gemini.

Pour utiliser l'affinage supervisé afin de régler le modèle, suivez les étapes décrites dans Régler des modèles Gemini à l'aide de l'affinage supervisé.

Quota

Le quota est appliqué au nombre de jobs de réglage simultanés. Chaque projet est associé à un quota par défaut pour exécuter au moins un job de réglage. Il s'agit d'un quota mondial, partagé entre toutes les régions disponibles et tous les modèles compatibles. Si vous souhaitez exécuter plus de jobs simultanément, vous devez demander un quota supplémentaire pour Global concurrent tuning jobs.

Tarifs

Vous trouverez les tarifs du réglage des préférences Gemini ici : Tarifs de Gemini Enterprise Agent Platform.

À des fins de tarification, le nombre de jetons pour chaque exemple de réglage est calculé en multipliant le nombre de jetons dans l'invite par 2, puis en ajoutant le nombre de jetons de saisie semi-automatique.

Étape suivante