Bildoptimierung

Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zur Feinabstimmung von Gemini-Modellen mithilfe von Bilddaten und beaufsichtigtem Lernen.

Anwendungsfälle

Mit der Feinabstimmung können Sie Gemini-Basismodelle für spezielle Aufgaben anpassen. Hier einige Anwendungsfälle für Bilder:

  • Produktkatalog verbessern: Extrahieren Sie wichtige Attribute aus Bildern (z.B. Marke, Farbe, Größe), um Ihren Produktkatalog automatisch zu erstellen und zu erweitern.
  • Bildmoderation: Stimmen Sie ein Modell fein ab, um unangemessene oder schädliche Inhalte in Bildern zu erkennen und zu kennzeichnen, damit das Internet ein sicherer Ort für alle wird.
  • Visuelle Inspektion: Trainieren Sie ein Modell, um bestimmte Objekte oder Fehler in Bildern zu identifizieren und so die Qualitätskontrolle oder Inspektionsprozesse zu automatisieren.
  • Bildklassifizierung: Verbessern Sie die Genauigkeit der Bildklassifizierung für bestimmte Bereiche wie medizinische Bildgebung oder Satellitenbildanalyse.
  • Bildbasierte Empfehlungen: Analysieren Sie Bilder, um personalisierte Empfehlungen zu geben, z. B. ähnliche Produkte oder ergänzende Artikel vorzuschlagen.
  • Tabelleninhalte extrahieren: Extrahieren Sie Daten aus Tabellen in Bildern und konvertieren Sie sie in strukturierte Formate wie Tabellen oder Datenbanken.

Beschränkungen

  • Maximale Anzahl von Bildern pro Beispiel: 30
  • Maximale Bilddateigröße: 20 MB

Weitere Informationen zu den Anforderungen an Bildbeispiele finden Sie auf der Seite Bildverständnis.

Dataset-Format

Der fileUri für Ihr Dataset kann der URI einer Datei in einem Cloud Storage-Bucket oder eine öffentlich verfügbare HTTP- oder HTTPS-URL sein.

Mit dem mediaResolution Feld des GenerationConfig Objekts können Sie den Kompromiss zwischen der Qualität der für die Abstimmung gesendeten Mediendatei und der Anzahl der Tokens steuern, die zur Darstellung der Medien verwendet werden. Eine höhere Auflösung ermöglicht es dem Modell, mehr Details zu erkennen, was zu einem differenzierteren Verhalten des abgestimmten Modells führen kann. Es werden jedoch auch mehr Tokens verwendet. Dies wirkt sich nicht auf die an das Modell gesendeten Bildabmessungen aus. Wenn nicht angegeben, ist die Standardauflösung MEDIA_RESOLUTION_HIGH.

Im Folgenden sind die unterstützten mediaResolution-Werte für die Feinabstimmung von Bilddaten für Gemini-Versionen unter 3 aufgeführt:

  • MEDIA_RESOLUTION_LOW: 64 Tokens
  • MEDIA_RESOLUTION_MEDIUM: 256 Tokens
  • MEDIA_RESOLUTION_HIGH: 256 Tokens + (256 Tokens * Anzahl der Pan-and-Scan-Bilder)

Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini.

Im Folgenden finden Sie ein Beispiel für ein Bild-Dataset:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/longcap100/100.jpeg"
            }
        },
        {
          "text": "Describe this image in detail that captures the essence of it."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

(Nur Gemini 3 und höhere Modelle) Ab den Gemini 3 Modellen können Sie die Medienauflösung auch für einzelne Medien-Part festlegen. So können Sie Auflösungen in Ihrem Dataset mischen, indem Sie beispielsweise MEDIA_RESOLUTION_HIGH für ein Element und MEDIA_RESOLUTION_LOW für ein anderes festlegen. Weitere Informationen zur Auflösung auf Teilebene und den entsprechenden Token anzahlen finden Sie unter Medien auflösung.

Einstellungen für die Medienauflösung auf Part-Ebene haben Vorrang vor globalen Einstellungen.

Das folgende Beispiel zeigt ein Dataset, in dem die Medienauflösung sowohl auf Part- als auch auf globaler Ebene festgelegt ist:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://image.jpeg"
          }
        },
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://ultra_high_res_image.jpeg"
          },
          "mediaResolution": {
            "level": "MEDIA_RESOLUTION_HIGH"
          }
        },
        {
          "text": "Describe these images in detail."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Image 1 is low resolution while image 2 is sharp and clear"
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

Beispieldatensätze

Anhand der folgenden Beispiel-Datasets können Sie lernen, wie Sie ein Gemini-Modell abstimmen. Geben Sie die URIs in den entsprechenden Parametern beim Erstellen eines überwachten Textmodell-Feinabstimmungsjobs an, um diese Datasets zu verwenden.

Geben Sie den Speicherort des Beispiel-Datasets für die Abstimmung so an:

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_train_data.jsonl",

Geben Sie den Speicherort des Beispiel-Datasets für die Validierung so an:

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_validation_data.jsonl",

Nächste Schritte