Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Bildoptimierung

Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zur Feinabstimmung von Gemini-Modellen mithilfe von Bilddaten und beaufsichtigtem Lernen.

Anwendungsfälle

Mit der Feinabstimmung können Sie Gemini-Basismodelle für spezielle Aufgaben anpassen. Hier einige Anwendungsfälle für Bilder:

Produktkatalog optimieren: Wichtige Attribute wie Marke, Farbe und Größe aus Bildern extrahieren, um Ihren Produktkatalog automatisch zu erstellen und zu erweitern.
Bildmoderation: Ein Modell kann so optimiert werden, dass es unangemessene oder schädliche Inhalte in Bildern erkennt und kennzeichnet, um für mehr Sicherheit im Internet zu sorgen.
Visuelle Prüfung: Trainieren Sie ein Modell, um bestimmte Objekte oder Fehler in Bildern zu erkennen und so die Qualitätskontrolle oder Inspektionsprozesse zu automatisieren.
Bildklassifizierung: Die Genauigkeit der Bildklassifizierung für bestimmte Bereiche wie medizinische Bildgebung oder Analyse von Satellitenbildern verbessern.
Bildbasierte Empfehlungen: Analysieren Sie Bilder, um personalisierte Empfehlungen zu geben, z. B. ähnliche Produkte oder ergänzende Artikel.
Extrahieren von Tabelleninhalten: Daten aus Tabellen in Bildern extrahieren und in strukturierte Formate wie Tabellenkalkulationen oder Datenbanken konvertieren.

Beschränkungen

Maximale Anzahl von Bildern pro Beispiel: 30
Maximale Dateigröße für Bilder: 20 MB

Weitere Informationen zu den Anforderungen an Bildbeispiele finden Sie auf der Seite Bildverständnis.

Dataset-Format

Der fileUri für Ihr Dataset kann der URI für eine Datei in einem Cloud Storage-Bucket oder eine öffentlich verfügbare HTTP- oder HTTPS-URL sein.

Mit dem Feld mediaResolution des GenerationConfig-Objekts wird der Kompromiss zwischen der Qualität der für das Tuning gesendeten Mediendatei und der Anzahl der zur Darstellung der Medien verwendeten Tokens gesteuert. Bei einer höheren Auflösung kann das Modell mehr Details erkennen, was zu einem differenzierteren Verhalten des optimierten Modells führen kann. Es werden jedoch auch mehr Tokens verwendet. Dies hat keine Auswirkungen auf die an das Modell gesendeten Bilddimensionen. Wenn keine Auflösung angegeben ist, wird die Standardauflösung MEDIA_RESOLUTION_HIGH verwendet.

`mediaResolution` für Gemini-Versionen 3 und früher

Die folgenden mediaResolution-Werte werden für das Feinabstimmen von Bilddaten für Gemini-Versionen 3 und früher unterstützt:

MEDIA_RESOLUTION_LOW: 64 Tokens
MEDIA_RESOLUTION_MEDIUM: 256 Tokens
MEDIA_RESOLUTION_HIGH: 256 Tokens + (256 Tokens × Anzahl der Schwenk- und Scanbilder)

Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini.

Im Folgenden finden Sie ein Beispiel für ein Bild-Dataset:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/longcap100/100.jpeg"
            }
        },
        {
          "text": "Describe this image in detail that captures the essence of it."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

`mediaResolution` für Gemini-Versionen 3 und höher

Bei Gemini 3-Modellen und höher können Sie auch die Media-Auflösung für einzelne Media-Part festlegen. So können Sie Auflösungen in Ihrem Dataset kombinieren, indem Sie beispielsweise MEDIA_RESOLUTION_HIGH für ein Element und MEDIA_RESOLUTION_LOW für ein anderes festlegen. Weitere Informationen zur Auflösung auf Teilebene und den entsprechenden Tokenanzahlen finden Sie unter Media-Auflösung.

Einstellungen für die Medienauflösung auf Part-Ebene haben Vorrang vor globalen Einstellungen.

Das folgende Beispiel-Dataset legt die Media-Auflösung sowohl auf Part- als auch auf globaler Ebene fest:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://image.jpeg"
          }
        },
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://ultra_high_res_image.jpeg"
          },
          "mediaResolution": {
            "level": "MEDIA_RESOLUTION_HIGH"
          }
        },
        {
          "text": "Describe these images in detail."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Image 1 is low resolution while image 2 is sharp and clear"
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

Beispieldatensätze

Anhand der folgenden Beispiel-Datasets können Sie lernen, wie Sie ein Gemini-Modell abstimmen. Geben Sie die URIs in den entsprechenden Parametern beim Erstellen eines überwachten Textmodell-Feinabstimmungsjobs an, um diese Datasets zu verwenden.

Wenn Sie das Beispiel-Dataset für die Abstimmung verwenden möchten, geben Sie den Speicherort so an:

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_train_data.jsonl",

Wenn Sie das Beispiel-Validierungs-Dataset verwenden möchten, geben Sie den Speicherort so an:

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_validation_data.jsonl",

Nächste Schritte

Weitere Informationen zum Bildverständnis von Gemini finden Sie in unserer Dokumentation zum Bildverständnis.
Weitere Informationen finden Sie unter Gemini-Modelle mithilfe der überwachten Feinabstimmung abstimmen.
Informationen dazu, wie die überwachte Feinabstimmung in einer Lösung verwendet werden kann, die eine Wissensdatenbank für generative KI erstellt, finden Sie unter Schnellstartlösung: Wissensdatenbank für generative KI.

Bildoptimierung Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.