Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Preparar dados de ajuste fino supervisionados para modelos Gemini

Neste documento, descrevemos como definir um conjunto de dados de ajuste supervisionado para um modelo do Gemini. É possível ajustar os tipos de dados texto, imagem, áudio, vídeo e documento.

Sobre conjuntos de dados de ajuste supervisionado

Um conjunto de dados de ajuste supervisionado é usado para ajustar um modelo pré-treinado para uma tarefa ou domínio específico. Os dados de entrada precisam ser semelhantes ao que você espera que o modelo encontre no uso real. Os rótulos de saída precisam representar as respostas ou os resultados corretos para cada entrada.

Conjunto de dados de treinamento

Para ajustar um modelo, você fornece um conjunto de dados de treinamento. Para melhores resultados, recomendamos que você comece com 100 exemplos. Você pode escalonar verticalmente para milhares de exemplos, se necessário. A qualidade do conjunto de dados é muito mais importante do que a quantidade.

Conjunto de dados de validação

Recomendamos que você forneça um conjunto de dados de validação. Um conjunto de dados de validação ajuda a medir a eficácia de um job de ajuste.

Limitações

Para limitações em conjuntos de dados, como tokens máximos de entrada e saída, tamanho máximo do conjunto de dados de validação e tamanho máximo do arquivo do conjunto de dados de treinamento, consulte Sobre o ajuste supervisionado para modelos do Gemini.

Formato do conjunto de dados

Oferecemos suporte aos seguintes formatos de dados:

Conjunto de dados multimodal na Gemini Enterprise Agent Platform (pré-lançamento).
Formato JSON Lines (JSONL), em que cada linha contém um único exemplo de ajuste. Antes de ajustar o modelo, faça upload do conjunto de dados para um bucket do Cloud Storage.

Exemplo de conjunto de dados para o Gemini

{
  "systemInstruction": {
    "role": string,
    "parts": [
      {
        "text": string
      }
    ]
  },
  "contents": [
    {
      "role": string,
      "parts": [
        {
          // Union field data can be only one of the following:
          "text": string,
          "fileData": {
            "mimeType": string,
            "fileUri": string
          }
        }
      ]
    }
  ]
}

Parâmetros

O exemplo contém dados com os seguintes parâmetros:

Parâmetros

Parâmetros
`contents`	Obrigatório: `Content` O conteúdo da conversa atual com o modelo. Para consultas de turno único, esta é uma instância única. Para consultas com várias interações, esse é um campo repetido que contém o histórico da conversa e a solicitação mais recente.
`systemInstruction`	Opcional: `Content` Consulte Modelos compatíveis. Instruções para o modelo gerar um desempenho melhor. Por exemplo, "Responda da forma mais concisa possível" ou "Não use termos técnicos na resposta". As strings `text` são contabilizadas no limite de tokens. O campo `role` do `systemInstruction` é ignorado e não afeta o desempenho do modelo. Observação: somente `text` pode ser usado em `parts` e o conteúdo de cada `part` precisa estar em um parágrafo separado.
`tools`	Opcional. Uma parte do código que permite ao sistema interagir com sistemas externos para realizar uma ação ou conjunto de ações fora do conhecimento e do escopo do modelo. Consulte Chamada de função.

contents

Obrigatório: Content

O conteúdo da conversa atual com o modelo.

Para consultas de turno único, esta é uma instância única. Para consultas com várias interações, esse é um campo repetido que contém o histórico da conversa e a solicitação mais recente.

systemInstruction

Opcional: Content

Consulte Modelos compatíveis.

Instruções para o modelo gerar um desempenho melhor. Por exemplo, "Responda da forma mais concisa possível" ou "Não use termos técnicos na resposta".

As strings text são contabilizadas no limite de tokens.

O campo role do systemInstruction é ignorado e não afeta o desempenho do modelo.

Observação: somente text pode ser usado em parts e o conteúdo de cada part precisa estar em um parágrafo separado.

tools

Opcional. Uma parte do código que permite ao sistema interagir com sistemas externos para realizar uma ação ou conjunto de ações fora do conhecimento e do escopo do modelo. Consulte Chamada de função.

Índice

O tipo de dados estruturados de base que contém várias partes de uma mensagem.

Essa classe consiste em duas properties principais: role e parts. A propriedade role indica o indivíduo que produz o conteúdo, enquanto a propriedade parts contém vários elementos, cada um representando um segmento de dados em uma mensagem.

Parâmetros

Parâmetros
`role`	Opcional: `string` A identidade da entidade que cria a mensagem. Os valores a seguir são compatíveis: `user`: indica que a mensagem é enviada por uma pessoa real, geralmente uma mensagem gerada pelo usuário. `model`: indica que a mensagem é gerada pelo modelo. O valor `model` é usado para inserir mensagens do modelo na conversa durante conversas com vários turnos. Para conversas que não têm vários turnos, esse campo pode ser deixado em branco ou sem definição.
`parts`	`part` Uma lista de partes ordenadas que compõem uma única mensagem. Partes diferentes podem ter tipos MIME IANA distintos. Para ver os limites das entradas, como o número máximo de tokens ou o número de imagens, consulte as especificações do modelo na página Modelos do Google. Para calcular o número de tokens na solicitação, consulte Receber contagem de tokens.

role

Opcional: string

A identidade da entidade que cria a mensagem. Os valores a seguir são compatíveis:

user: indica que a mensagem é enviada por uma pessoa real, geralmente uma mensagem gerada pelo usuário.
model: indica que a mensagem é gerada pelo modelo.

O valor model é usado para inserir mensagens do modelo na conversa durante conversas com vários turnos.

Para conversas que não têm vários turnos, esse campo pode ser deixado em branco ou sem definição.

parts

part

Uma lista de partes ordenadas que compõem uma única mensagem. Partes diferentes podem ter tipos MIME IANA distintos.

Para ver os limites das entradas, como o número máximo de tokens ou o número de imagens, consulte as especificações do modelo na página Modelos do Google.

Para calcular o número de tokens na solicitação, consulte Receber contagem de tokens.

Partes

Um tipo de dados que contém mídia que faz parte de uma mensagem Content de várias partes.

Parâmetros
`text`	Opcional: `string` Um comando de texto ou snippet de código.
`fileData`	Opcional: `fileData` Dados armazenados em um arquivo.
`functionCall`	Opcional: `FunctionCall`. Ele contém uma string que representa o campo `FunctionDeclaration.name` e um objeto JSON estruturado com todos os parâmetros para a chamada de função prevista pelo modelo. Consulte Chamada de função.
`functionResponse`	Opcional: `FunctionResponse`. A saída resultante de uma `FunctionCall` que contém uma string que representa o campo `FunctionDeclaration.name` e um objeto JSON estruturado com qualquer saída da chamada de função. Ele é usado como contexto para o modelo. Consulte Chamada de função.

Práticas recomendadas

Estas seções descrevem as práticas recomendadas para preparar seus dados de ajuste supervisionado.

Manter a consistência com os dados de produção

Os exemplos nos seus conjunto de dados precisam corresponder ao tráfego de produção esperado. Se o conjunto de dados contiver formatação, palavras-chave, instruções ou informações específicas, os dados de produção deverão ser formatados da mesma maneira e conter as mesmas instruções.

Por exemplo, se os exemplos no seu conjunto de dados incluem um "question:" e um "context:", o tráfego de produção também deve ser formatado para incluir um "question:" e um "context:" na mesma ordem em que aparece no exemplos de conjuntos de dados. Se você excluir o contexto, o modelo não vai reconhecer o padrão, mesmo que a pergunta exata esteja em um exemplo no conjunto de dados.

Fazer upload de conjuntos de dados de ajuste para o Cloud Storage

Para executar um job de ajuste, é preciso fazer upload de um ou mais conjuntos de dados para um bucket do Cloud Storage. É possível criar um novo bucket do Cloud Storage ou usar um existente para armazenar arquivos de conjuntos de dados. A região do bucket não importa, mas recomendamos que você use um bucket que esteja no mesmo projeto doGoogle Cloud em que planeja executar o ajuste do modelo.

Quando o bucket estiver pronto, faça o upload do arquivo do conjunto de dados para o bucket.

Seguir as práticas recomendadas para design de comandos

Depois de ter o conjunto de dados de treinamento e treinar o modelo, é hora de criar comandos. É importante seguir a prática recomendada de design de comando no seu conjunto de dados de treinamento para fornecer uma descrição detalhada da tarefa a ser realizada e de como a saída deve ser.

A seguir

Escolha uma região para ajustar um modelo.
Para saber como o ajuste supervisionado de detalhes pode ser usado em uma solução que cria uma base de conhecimento de IA generativa, consulte Solução de início rápido: base de conhecimento de IA generativa.

Preparar dados de ajuste fino supervisionados para modelos Gemini Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Sobre conjuntos de dados de ajuste supervisionado

Formato do conjunto de dados

Exemplo de conjunto de dados para o Gemini

Parâmetros

Índice

Partes

Práticas recomendadas

Manter a consistência com os dados de produção

Fazer upload de conjuntos de dados de ajuste para o Cloud Storage

Seguir as práticas recomendadas para design de comandos

A seguir

Preparar dados de ajuste fino supervisionados para modelos Gemini