Textoptimierung

Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zur Feinabstimmung von Gemini-Modellen mithilfe von Textdaten und beaufsichtigtem Lernen.

Anwendungsfälle

Mit der Feinabstimmung können Sie Gemini-Basismodelle für spezielle Aufgaben anpassen. Hier einige Anwendungsfälle für Text:

  • Strukturierte Informationen aus Chats extrahieren: Sie können Unterhaltungen über mehrere Themen in strukturierte Daten umwandeln, indem Sie ein Modell so optimieren, dass es wichtige Attribute erkennt und in einem strukturierten Format wie JSONL ausgibt.
  • Dokumentkategorisierung: Sie können ein Modell optimieren, um lange Dokumente genau in vordefinierte Kategorien zu klassifizieren. So lassen sich Informationen effizient organisieren und abrufen.
  • Anleitungen befolgen: Dadurch verbessern Sie die Fähigkeit eines Modells, Anweisungen zu verstehen und auszuführen, was zu einer genaueren und zuverlässigeren Aufgabenerledigung führt.
  • Automatisierte Codeüberprüfung: Mit der Feinabstimmung können Sie ein Modell erstellen, das aussagekräftige Codeüberprüfungen ermöglicht, potenzielle Probleme erkennt und Verbesserungen vorschlägt.
  • Zusammenfassung: Sie können kurze und informative Zusammenfassungen langer Texte generieren, indem Sie ein Modell so optimieren, dass es den Kern des Inhalts erfasst.
  • Code- und DSL-Generierung: Sie können ein Modell optimieren, um Code in verschiedenen Programmiersprachen oder domänenspezifischen Sprachen (DSLs) zu generieren und so sich wiederholende Programmieraufgaben zu automatisieren.
  • Verbesserte RAG-Leistung: Verbessern Sie die Nützlichkeit und Genauigkeit von RAG-Systemen (Retrieval Augmented Generation) durch die Feinabstimmung des zugrunde liegenden Language Models.

Dataset-Format

Der fileUri für Ihr Dataset kann der URI für eine Datei in einem Cloud Storage-Bucket oder eine öffentlich verfügbare HTTP- oder HTTPS-URL sein.

Das folgende Beispiel zeigt ein Text-Dataset.

Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini.

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

Beispieldatensätze

Anhand der folgenden Beispiel-Datasets können Sie lernen, wie Sie ein Gemini-Modell abstimmen. Geben Sie die URIs in den entsprechenden Parametern beim Erstellen eines überwachten Textmodell-Feinabstimmungsjobs an, um diese Datasets zu verwenden.

Wenn Sie das Beispiel-Abstimmungs-Dataset verwenden möchten, geben Sie den Speicherort so an:

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_train_data.jsonl",

Wenn Sie das Beispiel-Validierungs-Dataset verwenden möchten, geben Sie den Speicherort so an:

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_validation_data.jsonl",

Nächste Schritte