Mit der Vertex AI-Präferenzabstimmung können Sie Ihre Gemini-Modelle mit Daten aus menschlichem Feedback abstimmen.
Durch die Präferenzabstimmung kann das Modell aus subjektiven Nutzerpräferenzen lernen, die sich nur schwer mit bestimmten Labels oder allein durch überwachte Feinabstimmung definieren lassen.
Das Eingabe-Dataset für die Präferenzabstimmung enthält Beispiele, die aus einem Prompt und einem Antwortpaar bestehen, wobei angegeben wird, welche Antwort bevorzugt und welche abgelehnt wird. Das Modell lernt, bevorzugte Antworten mit höherer Wahrscheinlichkeit und abgelehnte Antworten mit geringerer Wahrscheinlichkeit zu generieren.
Informationen zum Vorbereiten des Datasets finden Sie unter Daten für die Präferenzabstimmung für Gemini-Modelle vorbereiten.
Unterstützte Modelle
Die folgenden Gemini-Modelle unterstützen die Präferenzabstimmung:
Beschränkungen
| Spezifikation | Wert |
|---|---|
| Betriebsarten | Text |
| Dateigröße des Trainings-Datasets | 1GB |
| Maximale Anzahl von Eingabe- und Ausgabetokens pro Trainingsbeispiel | 131.072 |
| Maximale Anzahl von Eingabe- und Ausgabetokens für die Bereitstellung | Wie beim Gemini-Basismodell |
| Maximale Anzahl von Trainingsbeispielen in einem Trainings-Dataset | 10 Millionen Trainingsbeispiele nur mit Text |
| Maximale Größe des Validierungs-Datasets | 5.000 Beispiele oder 30% der Anzahl der Trainingsbeispiele, wenn mehr als 1.000 Validierungsbeispiele vorhanden sind |
| Adaptergröße | Unterstützte Werte sind 1, 2, 4, 8 und 16 |
Best Practices
Bevor Sie den Algorithmus zur Präferenzoptimierung auf Ihr Modell anwenden, empfehlen wir dringend, Folgendes zu tun:
- Stimmen Sie das Modell mit der überwachten Feinabstimmung auf die bevorzugten Antwortdaten ab. Dadurch lernt das Modell, bei der Inferenz bevorzugte Antworten zu generieren.
- Setzen Sie die Abstimmung mit dem Prüfpunkt aus Schritt 1 mit der Präferenzabstimmung fort. Dadurch lernt das Modell, die Wahrscheinlichkeit für bevorzugte Antworten im Vergleich zu abgelehnten Antworten zu erhöhen.
Verwenden Sie zum Erstellen des Datasets für die überwachte Feinabstimmung die Prompt- und akzeptierten Antwortpaare in Ihrem Präferenz-Dataset als Prompt und Ziel für Ihr Dataset für die überwachte Feinabstimmung. In der Regel sollten ein oder zwei Epochen der überwachten Feinabstimmung ausreichen. Dies kann jedoch je nach Dataset-Größe und der anfänglichen Übereinstimmung Ihres Trainings-Datasets mit dem Gemini-Modell variieren.
Wenn Sie das Modell mit der überwachten Feinabstimmung abstimmen möchten, folgen Sie der Anleitung unter Gemini-Modelle mithilfe der überwachten Feinabstimmung abstimmen.
Quota
Das Kontingent wird für die Anzahl der gleichzeitigen Abstimmungsjobs erzwungen. Jedes Projekt kommt mit einem Standardkontingent zum Ausführen mindestens eines Abstimmungsjobs. Dies ist ein globales Kontingent, das für alle verfügbaren Regionen und unterstützten Modelle gilt. Wenn Sie
weitere Jobs gleichzeitig ausführen möchten, müssen Sie zusätzliche Kontingente anfordern für
Global concurrent tuning jobs.
Preise
Die Preise für die Gemini-Präferenzabstimmung finden Sie unter Vertex AI-Preise.
Für die Preisberechnung wird die Anzahl der Tokens für jedes Abstimmungsbeispiel berechnet, indem die Anzahl der Tokens im Prompt mit 2 multipliziert und dann die Anzahl der Vervollständigungs-Tokens addiert wird.
Nächste Schritte
- Dataset für die Präferenzabstimmung vorbereiten
- Informationen zum Bereitstellen eines abgestimmten Gemini-Modells.