Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zur Feinabstimmung von Gemini-Modellen mithilfe von Bilddaten und beaufsichtigtem Lernen.
Anwendungsfälle
Mit der Feinabstimmung können Sie Gemini-Basismodelle für spezielle Aufgaben anpassen. Hier einige Anwendungsfälle für Bilder:
- Produktkatalog verbessern: Extrahieren Sie wichtige Attribute aus Bildern (z.B. Marke, Farbe, Größe), um Ihren Produktkatalog automatisch zu erstellen und zu erweitern.
- Bildmoderation: Stimmen Sie ein Modell fein ab, um unangemessene oder schädliche Inhalte in Bildern zu erkennen und zu kennzeichnen, damit das Internet ein sicherer Ort für alle wird.
- Visuelle Inspektion: Trainieren Sie ein Modell, um bestimmte Objekte oder Fehler in Bildern zu identifizieren und so die Qualitätskontrolle oder Inspektionsprozesse zu automatisieren.
- Bildklassifizierung: Verbessern Sie die Genauigkeit der Bildklassifizierung für bestimmte Bereiche wie medizinische Bildgebung oder Satellitenbildanalyse.
- Bildbasierte Empfehlungen: Analysieren Sie Bilder, um personalisierte Empfehlungen zu geben, z. B. ähnliche Produkte oder ergänzende Artikel vorzuschlagen.
- Tabelleninhalte extrahieren: Extrahieren Sie Daten aus Tabellen in Bildern und konvertieren Sie sie in strukturierte Formate wie Tabellen oder Datenbanken.
Beschränkungen
- Maximale Anzahl von Bildern pro Beispiel: 30
- Maximale Bilddateigröße: 20 MB
Weitere Informationen zu den Anforderungen an Bildbeispiele finden Sie auf der Seite Bildverständnis.
Dataset-Format
Der fileUri für Ihr Dataset kann der URI einer Datei in einem Cloud Storage-Bucket oder eine öffentlich verfügbare HTTP- oder HTTPS-URL sein.
Mit dem mediaResolution Feld des GenerationConfig
Objekts können
Sie den Kompromiss zwischen der Qualität der für die Abstimmung gesendeten Mediendatei und der Anzahl der Tokens steuern, die zur Darstellung der Medien verwendet werden. Eine höhere Auflösung ermöglicht es dem Modell, mehr Details zu erkennen, was zu einem differenzierteren Verhalten des abgestimmten Modells führen kann. Es werden jedoch auch mehr Tokens verwendet. Dies wirkt sich nicht auf die an das Modell gesendeten Bildabmessungen aus. Wenn nicht angegeben, ist die Standardauflösung MEDIA_RESOLUTION_HIGH.
Im Folgenden sind die unterstützten mediaResolution-Werte für die Feinabstimmung von Bilddaten für Gemini-Versionen unter 3 aufgeführt:
MEDIA_RESOLUTION_LOW: 64 TokensMEDIA_RESOLUTION_MEDIUM: 256 TokensMEDIA_RESOLUTION_HIGH: 256 Tokens + (256 Tokens * Anzahl der Pan-and-Scan-Bilder)
Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini.
Im Folgenden finden Sie ein Beispiel für ein Bild-Dataset:
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/longcap100/100.jpeg"
}
},
{
"text": "Describe this image in detail that captures the essence of it."
}
]
},
{
"role": "model",
"parts": [
{
"text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
}
]
}
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
(Nur Gemini 3 und höhere Modelle) Ab den Gemini 3
Modellen können Sie die Medienauflösung auch für einzelne Medien-Part festlegen.
So können Sie Auflösungen in Ihrem Dataset mischen, indem Sie beispielsweise MEDIA_RESOLUTION_HIGH für ein Element und MEDIA_RESOLUTION_LOW für ein anderes festlegen.
Weitere Informationen zur Auflösung auf Teilebene und den entsprechenden Token
anzahlen finden Sie unter Medien
auflösung.
Einstellungen für die Medienauflösung auf Part-Ebene haben Vorrang vor globalen Einstellungen.
Das folgende Beispiel zeigt ein Dataset, in dem die Medienauflösung sowohl auf Part- als auch auf globaler Ebene festgelegt ist:
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://image.jpeg"
}
},
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://ultra_high_res_image.jpeg"
},
"mediaResolution": {
"level": "MEDIA_RESOLUTION_HIGH"
}
},
{
"text": "Describe these images in detail."
}
]
},
{
"role": "model",
"parts": [
{
"text": "Image 1 is low resolution while image 2 is sharp and clear"
}
]
}
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
Beispieldatensätze
Anhand der folgenden Beispiel-Datasets können Sie lernen, wie Sie ein Gemini-Modell abstimmen. Geben Sie die URIs in den entsprechenden Parametern beim Erstellen eines überwachten Textmodell-Feinabstimmungsjobs an, um diese Datasets zu verwenden.
Geben Sie den Speicherort des Beispiel-Datasets für die Abstimmung so an:
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_train_data.jsonl",
Geben Sie den Speicherort des Beispiel-Datasets für die Validierung so an:
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_validation_data.jsonl",
Nächste Schritte
- Weitere Informationen zum Bildverständnis von Gemini finden Sie in der Dokumentation zum Bildverständnis.
- Weitere Informationen finden Sie unter Gemini-Modelle mithilfe der überwachten Feinabstimmung abstimmen.
- Informationen dazu, wie die überwachte Feinabstimmung in einer Lösung verwendet werden kann, die eine Wissensdatenbank für generative KI erstellt, finden Sie unter Schnellstartlösung: Wissensdatenbank für generative KI.