Mit dem Vertex AI-Abstimmungsverfahren können Sie Ihre Gemini-Modelle mit Daten aus menschlichem Feedback abstimmen.
Durch die Abstimmung von Präferenzen kann das Modell aus subjektiven Nutzerpräferenzen lernen, die sich nur schwer durch bestimmte Labels oder durch überwachtes Fine-Tuning allein definieren lassen.
Das Eingabe-Dataset für die Präferenzabstimmung enthält Beispiele, die aus einem Prompt und einem Antwortpaar bestehen. Das Paar gibt an, welche Antwort bevorzugt und welche nicht bevorzugt wird. Das Modell lernt, bevorzugte Antworten mit höherer Wahrscheinlichkeit und nicht bevorzugte Antworten mit geringerer Wahrscheinlichkeit zu generieren.
Informationen zum Vorbereiten des Datasets finden Sie unter Daten für die Abstimmung von Gemini-Modellen vorbereiten.
Unterstützte Modelle
Die folgenden Gemini-Modelle unterstützen die Abstimmung auf Präferenzen:
Beschränkungen
| Spezifikation | Wert |
|---|---|
| Betriebsarten | Text |
| Dateigröße des Trainings-Datasets | 1 GB |
| Maximale Anzahl der Eingabe- und Ausgabetokens pro Trainingsbeispiel | 131.072 |
| Maximale Anzahl von Eingabe- und Ausgabetokens für die Bereitstellung | Wie beim Basismodell von Gemini |
| Maximale Anzahl von Trainingsbeispielen in einem Trainings-Dataset | 10 Millionen Trainingsbeispiele nur mit Text |
| Maximale Größe des Validierungs-Datasets | 5.000 Beispiele oder 30% der Anzahl der Trainingsbeispiele, wenn es mehr als 1.000 Validierungsbeispiele gibt |
| Adaptergröße | Unterstützte Werte sind 1, 2, 4, 8 und 16. |
Best Practices
Bevor Sie den Algorithmus zur Optimierung von Einstellungen auf Ihr Modell anwenden, sollten Sie unbedingt Folgendes tun:
- Stimmen Sie das Modell mit überwachter Feinabstimmung auf die Daten der bevorzugten Antworten ab. So wird dem Modell beigebracht, während der Inferenz bevorzugte Antworten zu generieren.
- Feinabstimmung fortsetzen mit dem Prüfpunkt aus Schritt 1 und Preference Tuning. So wird dem Modell beigebracht, die Wahrscheinlichkeitslücke zwischen bevorzugten und nicht bevorzugten Antworten zu vergrößern.
Verwenden Sie zum Erstellen des Datasets für das überwachte Fine-Tuning die Paare aus Prompt und akzeptierter Antwort in Ihrem Präferenz-Dataset als Prompt und Ziel für Ihr Dataset für das überwachte Fine-Tuning. In der Regel reichen ein oder zwei Epochen des überwachten Fine-Tunings aus. Das kann sich jedoch je nach Größe des Datasets und der anfänglichen Übereinstimmung Ihres Trainings-Datasets mit dem Gemini-Modell ändern.
Wenn Sie das Modell mit überwachter Feinabstimmung abstimmen möchten, folgen Sie der Anleitung unter Gemini-Modelle mithilfe der überwachten Feinabstimmung abstimmen.
Kontingent
Das Kontingent wird für die Anzahl der gleichzeitig ausgeführten Abstimmungsjobs durchgesetzt. Jedes Projekt kommt mit einem Standardkontingent zum Ausführen mindestens eines Abstimmungsjobs. Dies ist ein globales Kontingent, das für alle verfügbaren Regionen und unterstützten Modelle gilt. Wenn Sie weitere Jobs gleichzeitig ausführen möchten, müssen Sie für Global concurrent tuning jobs zusätzliche Kontingente anfordern.
Preise
Preise für die Anpassung von Gemini-Einstellungen
Zur Preisberechnung wird die Anzahl der Tokens für jedes Abstimmungsbeispiel berechnet, indem die Anzahl der Tokens im Prompt mit 2 multipliziert und dann die Anzahl der Vervollständigungstokens addiert wird.
Nächste Schritte
- Bereiten Sie ein Dataset für die Präferenzabstimmung vor.
- Informationen zum Bereitstellen eines abgestimmten Gemini-Modells