Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zur Feinabstimmung von Gemini mithilfe von Bilddaten und beaufsichtigtem Lernen.
Anwendungsfälle
Mit der Feinabstimmung können Sie Gemini-Basismodelle für spezielle Aufgaben anpassen. Hier einige Anwendungsbeispiele für Bilder:
- Optimierung des Produktkatalogs: Wichtige Attribute wie Marke, Farbe und Größe werden aus Bildern extrahiert, um Ihren Produktkatalog automatisch zu erstellen und zu erweitern.
- Bildmoderation: Ein Modell kann so optimiert werden, dass es unangemessene oder schädliche Inhalte in Bildern erkennt und kennzeichnet, um für mehr Sicherheit im Internet zu sorgen.
- Visuelle Prüfung: Trainieren Sie ein Modell, um bestimmte Objekte oder Fehler in Bildern zu erkennen und so die Qualitätskontrolle oder Inspektionsprozesse zu automatisieren.
- Bildklassifizierung: Die Genauigkeit der Bildklassifizierung für bestimmte Bereiche wie medizinische Bildgebung oder Analyse von Satellitenbildern verbessern.
- Bildbasierte Empfehlungen: Analysieren Sie Bilder, um personalisierte Empfehlungen zu geben, z. B. ähnliche Produkte oder ergänzende Artikel.
- Extrahieren von Tabelleninhalten: Daten aus Tabellen in Bildern extrahieren und in strukturierte Formate wie Tabellenkalkulationen oder Datenbanken konvertieren.
Beschränkungen
- Maximale Anzahl von Bildern pro Beispiel: 30
- Maximale Dateigröße für Bilder: 20 MB
Weitere Informationen zu den Anforderungen an Bildbeispiele finden Sie auf der Seite Bildverständnis.
Dataset-Format
Der fileUri für Ihr Dataset kann der URI für eine Datei in einem Cloud Storage-Bucket oder eine öffentlich verfügbare HTTP- oder HTTPS-URL sein.
Das mediaResolution-Feld des GenerationConfig-Objekts wird verwendet, um den Kompromiss zwischen der Qualität der für das Tuning gesendeten Mediendatei und der Anzahl der zur Darstellung der Medien verwendeten Tokens zu steuern. Bei einer höheren Auflösung kann das Modell mehr Details erkennen, was zu einem differenzierteren Verhalten des optimierten Modells führen kann. Es werden jedoch auch mehr Tokens verwendet. Das hat keine Auswirkungen auf die an das Modell gesendeten Bildabmessungen. Wenn keine Angabe erfolgt, ist die Standardauflösung MEDIA_RESOLUTION_HIGH.
Im Folgenden sind die unterstützten mediaResolution-Werte für die Feinabstimmung von Bilddaten aufgeführt:
MEDIA_RESOLUTION_LOW: 64 TokensMEDIA_RESOLUTION_MEDIUM: 256 TokensMEDIA_RESOLUTION_HIGH: 256 Tokens + (256 Tokens × Anzahl der Pan-and-Scan-Bilder)
Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini.
Im Folgenden finden Sie ein Beispiel für ein Bild-Dataset.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/longcap100/100.jpeg"
}
},
{
"text": "Describe this image in detail that captures the essence of it."
}
]
},
{
"role": "model",
"parts": [
{
"text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
}
]
}
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
Beispieldatensätze
Anhand der folgenden Beispiel-Datasets können Sie lernen, wie Sie ein Gemini-Modell abstimmen. Geben Sie die URIs in den entsprechenden Parametern beim Erstellen eines überwachten Textmodell-Feinabstimmungsjobs an, um diese Datasets zu verwenden.
Wenn Sie das Beispiel-Abstimmungs-Dataset verwenden möchten, geben Sie den Speicherort so an:
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_train_data.jsonl",
Wenn Sie das Beispiel-Validierungs-Dataset verwenden möchten, geben Sie den Speicherort so an:
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_validation_data.jsonl",
Nächste Schritte
- Weitere Informationen zur Bildanalyse durch Gemini finden Sie in unserer Dokumentation zur Bildanalyse.
- Weitere Informationen finden Sie unter Gemini-Modelle mithilfe der überwachten Feinabstimmung abstimmen.
- Informationen dazu, wie die überwachte Feinabstimmung in einer Lösung verwendet werden kann, die eine Wissensdatenbank für generative KI erstellt, finden Sie unter Schnellstartlösung: Wissensdatenbank für generative KI.