文字調整

本頁面提供先決條件和詳細操作說明,說明如何使用監督式學習,根據文字資料微調 Gemini 模型。

用途

微調功能可讓您調整基礎 Gemini 模型,以執行專業工作。 以下是一些文字用途:

  • 從對話中擷取結構化資訊:微調模型,找出重要屬性並以 JSONL 等結構化格式輸出,將多輪對話轉換為有條理的資料。
  • 文件分類:微調模型,將長篇文件準確分類至預先定義的類別,有效整理及擷取資訊。
  • 遵循指令:提升模型理解及執行指令的能力,進而更準確可靠地完成工作。
  • 自動審查程式碼:透過微調建立模型,提供深入的程式碼審查結果、找出潛在問題,並建議改善方式。
  • 摘要:微調模型以掌握內容要點,生成長篇文字的精簡摘要。
  • 程式碼和 DSL 生成:微調模型,以各種程式設計語言或網域特定語言 (DSL) 生成程式碼,自動執行重複的程式設計工作。
  • 提升 RAG 效能:微調基礎語言模型,提升檢索增強生成 (RAG) 系統的實用性和準確度。

資料集格式

資料集的 fileUri 可以是 Cloud Storage 值區中檔案的 URI,也可以是公開的 HTTP 或 HTTPS 網址。

以下是文字資料集的範例。

如要查看一般格式範例,請參閱「Gemini 的資料集範例」。

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

範例資料集

您可以使用下列範例資料集,瞭解如何調整 Gemini 模型。如要使用這些資料集,請在建立文字模型監督式微調工作時,於適用的參數中指定 URI。

如要使用範例調整用資料集,請指定其位置,如下所示:

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_train_data.jsonl",

如要使用範例驗證資料集,請指定其位置,如下所示:

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_validation_data.jsonl",

後續步驟