Abstimmung von Gemini-Modellen auf Präferenzen

Mit der Vertex AI-Präferenzabstimmung können Sie Ihre Gemini-Modelle mit Daten aus menschlichem Feedback abstimmen.

Durch die Präferenzabstimmung kann das Modell aus subjektiven Nutzerpräferenzen lernen, die sich nur schwer mit bestimmten Labels oder allein durch überwachte Feinabstimmung definieren lassen.

Das Eingabe-Dataset für die Präferenzabstimmung enthält Beispiele, die aus einem Prompt und einem Antwortpaar bestehen, wobei angegeben wird, welche Antwort bevorzugt und welche abgelehnt wird. Das Modell lernt, bevorzugte Antworten mit höherer Wahrscheinlichkeit und abgelehnte Antworten mit geringerer Wahrscheinlichkeit zu generieren.

Informationen zum Vorbereiten des Datasets finden Sie unter Daten für die Präferenzabstimmung für Gemini-Modelle vorbereiten.

Unterstützte Modelle

Die folgenden Gemini-Modelle unterstützen die Präferenzabstimmung:

Beschränkungen

Spezifikation Wert
Betriebsarten Text
Dateigröße des Trainings-Datasets 1GB
Maximale Anzahl von Eingabe- und Ausgabetokens pro Trainingsbeispiel 131.072
Maximale Anzahl von Eingabe- und Ausgabetokens für die Bereitstellung Wie beim Gemini-Basismodell
Maximale Anzahl von Trainingsbeispielen in einem Trainings-Dataset 10 Millionen Trainingsbeispiele nur mit Text
Maximale Größe des Validierungs-Datasets 5.000 Beispiele oder 30% der Anzahl der Trainingsbeispiele, wenn mehr als 1.000 Validierungsbeispiele vorhanden sind
Adaptergröße Unterstützte Werte sind 1, 2, 4, 8 und 16

Best Practices

Bevor Sie den Algorithmus zur Präferenzoptimierung auf Ihr Modell anwenden, empfehlen wir dringend, Folgendes zu tun:

  1. Stimmen Sie das Modell mit der überwachten Feinabstimmung auf die bevorzugten Antwortdaten ab. Dadurch lernt das Modell, bei der Inferenz bevorzugte Antworten zu generieren.
  2. Setzen Sie die Abstimmung mit dem Prüfpunkt aus Schritt 1 mit der Präferenzabstimmung fort. Dadurch lernt das Modell, die Wahrscheinlichkeit für bevorzugte Antworten im Vergleich zu abgelehnten Antworten zu erhöhen.

Verwenden Sie zum Erstellen des Datasets für die überwachte Feinabstimmung die Prompt- und akzeptierten Antwortpaare in Ihrem Präferenz-Dataset als Prompt und Ziel für Ihr Dataset für die überwachte Feinabstimmung. In der Regel sollten ein oder zwei Epochen der überwachten Feinabstimmung ausreichen. Dies kann jedoch je nach Dataset-Größe und der anfänglichen Übereinstimmung Ihres Trainings-Datasets mit dem Gemini-Modell variieren.

Wenn Sie das Modell mit der überwachten Feinabstimmung abstimmen möchten, folgen Sie der Anleitung unter Gemini-Modelle mithilfe der überwachten Feinabstimmung abstimmen.

Quota

Das Kontingent wird für die Anzahl der gleichzeitigen Abstimmungsjobs erzwungen. Jedes Projekt kommt mit einem Standardkontingent zum Ausführen mindestens eines Abstimmungsjobs. Dies ist ein globales Kontingent, das für alle verfügbaren Regionen und unterstützten Modelle gilt. Wenn Sie weitere Jobs gleichzeitig ausführen möchten, müssen Sie zusätzliche Kontingente anfordern für Global concurrent tuning jobs.

Preise

Die Preise für die Gemini-Präferenzabstimmung finden Sie unter Vertex AI-Preise.

Für die Preisberechnung wird die Anzahl der Tokens für jedes Abstimmungsbeispiel berechnet, indem die Anzahl der Tokens im Prompt mit 2 multipliziert und dann die Anzahl der Vervollständigungs-Tokens addiert wird.

Nächste Schritte