Abstimmung von Gemini-Modellen auf Präferenzen

Mit dem Vertex AI-Abstimmungsverfahren können Sie Ihre Gemini-Modelle mit Daten aus menschlichem Feedback abstimmen.

Durch die Abstimmung von Präferenzen kann das Modell aus subjektiven Nutzerpräferenzen lernen, die sich nur schwer durch bestimmte Labels oder durch überwachtes Fine-Tuning allein definieren lassen.

Das Eingabe-Dataset für die Präferenzabstimmung enthält Beispiele, die aus einem Prompt und einem Antwortpaar bestehen. Das Paar gibt an, welche Antwort bevorzugt und welche nicht bevorzugt wird. Das Modell lernt, bevorzugte Antworten mit höherer Wahrscheinlichkeit und nicht bevorzugte Antworten mit geringerer Wahrscheinlichkeit zu generieren.

Informationen zum Vorbereiten des Datasets finden Sie unter Daten für die Abstimmung von Gemini-Modellen vorbereiten.

Unterstützte Modelle

Die folgenden Gemini-Modelle unterstützen die Abstimmung auf Präferenzen:

Beschränkungen

Spezifikation	Wert
Betriebsarten	Text
Dateigröße des Trainings-Datasets	1 GB
Maximale Anzahl der Eingabe- und Ausgabetokens pro Trainingsbeispiel	131.072
Maximale Anzahl von Eingabe- und Ausgabetokens für die Bereitstellung	Wie beim Basismodell von Gemini
Maximale Anzahl von Trainingsbeispielen in einem Trainings-Dataset	10 Millionen Trainingsbeispiele nur mit Text
Maximale Größe des Validierungs-Datasets	5.000 Beispiele oder 30% der Anzahl der Trainingsbeispiele, wenn es mehr als 1.000 Validierungsbeispiele gibt
Adaptergröße	Unterstützte Werte sind 1, 2, 4, 8 und 16.

Best Practices

Bevor Sie den Algorithmus zur Optimierung von Einstellungen auf Ihr Modell anwenden, sollten Sie unbedingt Folgendes tun:

Stimmen Sie das Modell mit überwachter Feinabstimmung auf die Daten der bevorzugten Antworten ab. So wird dem Modell beigebracht, während der Inferenz bevorzugte Antworten zu generieren.
Feinabstimmung fortsetzen mit dem Prüfpunkt aus Schritt 1 und Preference Tuning. So wird dem Modell beigebracht, die Wahrscheinlichkeitslücke zwischen bevorzugten und nicht bevorzugten Antworten zu vergrößern.

Verwenden Sie zum Erstellen des Datasets für das überwachte Fine-Tuning die Paare aus Prompt und akzeptierter Antwort in Ihrem Präferenz-Dataset als Prompt und Ziel für Ihr Dataset für das überwachte Fine-Tuning. In der Regel reichen ein oder zwei Epochen des überwachten Fine-Tunings aus. Das kann sich jedoch je nach Größe des Datasets und der anfänglichen Übereinstimmung Ihres Trainings-Datasets mit dem Gemini-Modell ändern.

Wenn Sie das Modell mit überwachter Feinabstimmung abstimmen möchten, folgen Sie der Anleitung unter Gemini-Modelle mithilfe der überwachten Feinabstimmung abstimmen.

Kontingent

Das Kontingent wird für die Anzahl der gleichzeitig ausgeführten Abstimmungsjobs durchgesetzt. Jedes Projekt kommt mit einem Standardkontingent zum Ausführen mindestens eines Abstimmungsjobs. Dies ist ein globales Kontingent, das für alle verfügbaren Regionen und unterstützten Modelle gilt. Wenn Sie weitere Jobs gleichzeitig ausführen möchten, müssen Sie für Global concurrent tuning jobs zusätzliche Kontingente anfordern.

Preise

Preise für die Anpassung von Gemini-Einstellungen

Zur Preisberechnung wird die Anzahl der Tokens für jedes Abstimmungsbeispiel berechnet, indem die Anzahl der Tokens im Prompt mit 2 multipliziert und dann die Anzahl der Vervollständigungstokens addiert wird.

Nächste Schritte

Bereiten Sie ein Dataset für die Präferenzabstimmung vor.
Informationen zum Bereitstellen eines abgestimmten Gemini-Modells