Ajuste de documentos

Esta página fornece pré-requisitos e instruções detalhadas para ajustar modelos do Gemini em dados de documentos usando o aprendizado supervisionado.

Casos de uso

Com o ajuste de detalhes, é possível personalizar modelos de linguagem avançados para suas necessidades específicas. Confira alguns casos de uso importantes em que o ajuste fino com seu próprio conjunto de PDFs pode melhorar significativamente a performance de um modelo:

  • Base de conhecimento interna: converta seus documentos internos em uma base de conhecimento com tecnologia de IA que oferece respostas e insights instantâneos. Por exemplo, um representante de vendas pode acessar instantaneamente as especificações do produto e os detalhes de preços de materiais de treinamento anteriores.
  • Assistente de pesquisa: crie um assistente de pesquisa capaz de analisar uma coleção de artigos, livros e trabalhos de pesquisa. Um pesquisador que estuda a mudança climática pode analisar rapidamente artigos científicos para identificar tendências no aumento do nível do mar ou avaliar a eficácia de diferentes estratégias de mitigação.
  • Conformidade regulatória ou jurídica: o ajuste fino em documentos jurídicos pode ajudar a automatizar a revisão de contratos, sinalizando possíveis inconsistências ou áreas de risco. Isso permite que os profissionais do direito se concentrem em tarefas de nível mais alto, garantindo a conformidade.
  • Geração automática de relatórios: automatize a análise de relatórios financeiros complexos, extraindo indicadores principais de performance e gerando resumos para as partes interessadas. Isso pode economizar tempo e reduzir o risco de erros em comparação com a análise manual.
  • Resumo e análise de conteúdo: resuma documentos PDF longos, extraia insights importantes e analise tendências. Por exemplo, uma equipe de pesquisa de mercado pode analisar uma coleção de pesquisas com clientes para identificar temas e sentimentos principais.
  • Comparação de documentos e controle de versões: compare diferentes versões de um documento para identificar mudanças e acompanhar revisões. Isso pode ser especialmente útil em ambientes colaborativos em que vários autores contribuem para um documento.

Limitações

Estas são as limitações ao incluir PDFs no conjunto de dados:

  • Máximo de páginas de PDF por exemplo: 300
  • Máximo de arquivos PDF por exemplo: 4
  • Tamanho máximo do arquivo PDF: 20 MB

Para saber mais sobre os requisitos de compreensão de documentos, consulte Compreensão de documentos.

Formato do conjunto de dados

O fileUri do conjunto de dados pode ser o URI de um arquivo em um bucket do Cloud Storage ou um URL HTTP ou HTTPS disponível publicamente.

Para conferir o exemplo de formato genérico, consulte Exemplo de conjunto de dados para o Gemini.

Confira a seguir um exemplo de conjunto de dados de documentos.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "application/pdf",
            "fileUri": "gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf"
            }
        },
        {
          "text": "You are a very professional document summarization specialist. Please summarize the given document."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The report introduces Gemini 2.0 Flash, a multimodal AI model developed by Google DeepMind. The report positions Gemini 2.0 Flash as a significant advancement in multimodal AI, pushing the boundaries of long-context understanding and opening new avenues for future research and applications."
        }
      ]
    }
  ]
}

(Somente modelos Gemini 3 e mais recentes) A partir dos modelos do Gemini 3, também é possível definir a resolução de mídia para cada mídia individual Part. Isso permite misturar resoluções no seu conjunto de dados (por exemplo, definindo MEDIA_RESOLUTION_HIGH para um item e MEDIA_RESOLUTION_LOW para outro).

As configurações de resolução de mídia no nível do Part têm precedência sobre as configurações globais.

Se você não especificar um Part de mídia para uma mídia específica, o valor padrão será o mesmo que os padrões do lado de veiculação. Para mais informações sobre a resolução no nível da parte e as contagens de tokens correspondentes, consulte Resolução de mídia.

Este é um exemplo de conjunto de dados que define a resolução da mídia nos níveis Part e global:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "application/pdf",
            "fileUri": "gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf"
          }
        },
        {
          "fileData": {
            "mimeType": "application/pdf",
            "fileUri": "gs://<path to another PDF>"
          },
          "mediaResolution": {
            "level": "MEDIA_RESOLUTION_HIGH"
          }
        },
        {
          "text": "Describe these documents in detail."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "PDF 1 is low resolution while PDF 2 is sharp and clear"
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

A seguir