Textoptimierung

Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zur Feinabstimmung von Gemini mithilfe von Textdaten und beaufsichtigtem Lernen. Beispiele für die Textabstimmung für Anwendungsfälle der Klassifizierung, Sentimentanalyse und Extraktion finden Sie unter Modellabstimmung für Gemini-Textmodelle.

Anwendungsfälle

Mit der Feinabstimmung können Sie Gemini-Basismodelle für spezielle Aufgaben anpassen. Hier einige Anwendungsfälle für Text:

  • Strukturierte Informationen aus Chats extrahieren: Sie können Unterhaltungen über mehrere Themen in strukturierte Daten umwandeln, indem Sie ein Modell so optimieren, dass es wichtige Attribute erkennt und in einem strukturierten Format wie JSONL ausgibt.
  • Dokumentkategorisierung: Sie können ein Modell optimieren, um lange Dokumente genau in vordefinierte Kategorien zu klassifizieren. So lassen sich Informationen effizient organisieren und abrufen.
  • Anleitungen befolgen: Dadurch verbessern Sie die Fähigkeit eines Modells, Anweisungen zu verstehen und auszuführen, was zu einer genaueren und zuverlässigeren Aufgabenerledigung führt.
  • Automatische Codeüberprüfung: Mit der Feinabstimmung können Sie ein Modell erstellen, das aussagekräftige Codeüberprüfungen ermöglicht, potenzielle Probleme erkennt und Verbesserungen vorschlägt.
  • Zusammenfassung: Sie können kurze und informative Zusammenfassungen langer Texte generieren, indem Sie ein Modell so optimieren, dass es den Kern des Inhalts erfasst.
  • Code- und DSL-Generierung: Sie können ein Modell optimieren, um Code in verschiedenen Programmiersprachen oder domänenspezifischen Sprachen (DSLs) zu generieren und so sich wiederholende Programmieraufgaben zu automatisieren.
  • Verbesserte RAG-Leistung: Verbessern Sie die Nützlichkeit und Genauigkeit von RAG-Systemen (Retrieval Augmented Generation) durch die Feinabstimmung des zugrunde liegenden Language Models.

Dataset-Format

Der fileUri für Ihr Dataset kann der URI für eine Datei in einem Cloud Storage-Bucket oder eine öffentlich zugängliche HTTP- oder HTTPS-URL sein.

Das folgende Beispiel zeigt ein Text-Dataset.

Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini.

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

Beispieldatensätze

Anhand der folgenden Beispiel-Datasets können Sie lernen, wie Sie ein Gemini-Modell abstimmen. Geben Sie die URIs in den entsprechenden Parametern beim Erstellen eines überwachten Textmodell-Feinabstimmungsjobs an, um diese Datasets zu verwenden.

Wenn Sie das Beispiel-Abstimmungs-Dataset verwenden möchten, geben Sie seinen Speicherort so an:

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_train_data.jsonl",

Wenn Sie das Beispiel-Validierungs-Dataset verwenden möchten, geben Sie seinen Speicherort so an:

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_validation_data.jsonl",

Nächste Schritte