Ajustes de texto

En esta página, se proporcionan los requisitos previos y las instrucciones detalladas para ajustar los modelos de Gemini en datos de texto con el aprendizaje supervisado.

Casos de uso

El ajuste te permite adaptar los modelos de Gemini de base para tareas especializadas. Estos son algunos casos de uso de texto:

  • Extracción de información estructurada de los chats: Transforma conversaciones de varias entradas en datos organizados ajustando un modelo para identificar atributos clave y generarlos en un formato estructurado, como JSONL.
  • Categorización de documentos: Ajusta un modelo para clasificar con precisión documentos extensos en categorías predefinidas, lo que permite organizar y recuperar información de manera eficiente.
  • Seguimiento de instrucciones: Mejora la capacidad de un modelo para comprender y ejecutar instrucciones, lo que lleva a una finalización de tareas más precisa y confiable.
  • Revisión de código automatizada: Usa el perfeccionamiento para crear un modelo capaz de proporcionar revisiones de código útiles, identificar posibles problemas y sugerir mejoras.
  • Resúmenes: Genera resúmenes concisos e informativos de textos largos ajustando un modelo para capturar la esencia del contenido.
  • Generación de código y DSL: Ajusta un modelo para generar código en varios lenguajes de programación o lenguajes específicos de dominio (DSL), y automatiza tareas de programación repetitivas.
  • Rendimiento mejorado de la RAG: Mejora la utilidad y la exactitud de los sistemas de generación mejorada por recuperación (RAG) ajustando el modelo de lenguaje subyacente.

Formato del conjunto de datos

El fileUri de tu conjunto de datos puede ser el URI de un archivo en un bucket de Cloud Storage o una URL HTTP o HTTPS disponible públicamente.

El siguiente es un ejemplo de un conjunto de datos de texto.

Para ver el ejemplo de formato genérico, consulta Ejemplo de conjunto de datos para Gemini.

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

Conjunto de datos de muestra

Puedes usar los siguientes conjuntos de datos de muestra para aprender a ajustar un modelo de Gemini. Para usar estos conjuntos de datos, especifica los URI en los parámetros aplicables cuando crees un trabajo de ajuste supervisado del modelo de texto.

Para usar el conjunto de datos de ajuste de muestra, especifica su ubicación de la siguiente manera:

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_train_data.jsonl",

Para usar el conjunto de datos de validación de muestra, especifica su ubicación de la siguiente manera:

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_validation_data.jsonl",

¿Qué sigue?