Esta página fornece pré-requisitos e instruções detalhadas para ajustar modelos do Gemini em dados de documentos usando o aprendizado supervisionado.
Casos de uso
O ajuste de detalhes permite personalizar modelos de linguagem avançados para suas necessidades específicas. Confira alguns casos de uso importantes em que o ajuste de detalhes com seu próprio conjunto de PDFs pode melhorar significativamente o desempenho de um modelo:
- Base de conhecimento interna: converta seus documentos internos em uma base de conhecimento com tecnologia de IA que forneça respostas e insights instantâneos. Por exemplo, um representante de vendas pode acessar instantaneamente as especificações do produto e os detalhes de preços de materiais de treinamento anteriores.
- Assistente de pesquisa: crie um assistente de pesquisa capaz de analisar uma coleção de artigos de pesquisa, artigos e livros. Um pesquisador que estuda as mudanças climáticas pode analisar rapidamente artigos científicos para identificar tendências no aumento do nível do mar ou avaliar a eficácia de diferentes estratégias de mitigação.
- Conformidade legal ou regulamentar: o ajuste de detalhes em documentos legais pode ajudar a automatizar a revisão de contratos, sinalizando possíveis inconsistências ou áreas de risco. Isso permite que os profissionais jurídicos se concentrem em tarefas de nível superior, garantindo a conformidade.
- Geração automatizada de relatórios: automatize a análise de relatórios financeiros complexos, extraindo indicadores de desempenho principais e gerando resumos para as partes interessadas. Isso pode economizar tempo e reduzir o risco de erros em comparação com a análise manual.
- Resumo e análise de conteúdo: resuma documentos PDF longos, extraia insights importantes e analise tendências. Por exemplo, uma equipe de pesquisa de mercado pode analisar uma coleção de pesquisas de clientes para identificar temas e sentimentos importantes.
- Comparação de documentos e controle de versão: compare diferentes versões de um documento para identificar mudanças e acompanhar revisões. Isso pode ser particularmente útil em ambientes colaborativos em que vários autores contribuem para um documento.
Limitações
Confira as limitações ao incluir PDFs no conjunto de dados:
- Número máximo de páginas de PDF por exemplo: 300
- Número máximo de arquivos PDF por exemplo: 4
- Tamanho máximo do arquivo PDF: 20 MB
Para saber mais sobre os requisitos de compreensão de documentos, consulte Compreensão de documentos.
Formato do conjunto de dados
O fileUri do conjunto de dados pode ser o URI de um arquivo em um bucket do Cloud Storage ou um URL HTTP ou HTTPS disponível publicamente.
Para conferir o exemplo de formato genérico, consulte Exemplo de conjunto de dados para o Gemini.
Confira a seguir um exemplo de conjunto de dados de documentos.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "application/pdf",
"fileUri": "gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf"
}
},
{
"text": "You are a very professional document summarization specialist. Please summarize the given document."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The report introduces Gemini 2.0 Flash, a multimodal AI model developed by Google DeepMind. The report positions Gemini 2.0 Flash as a significant advancement in multimodal AI, pushing the boundaries of long-context understanding and opening new avenues for future research and applications."
}
]
}
]
}
(Somente modelos do Gemini 3 e mais recentes) A partir dos modelos do Gemini 3, também é possível definir a resolução de mídia por mídia individual Part.
Isso permite misturar resoluções no conjunto de dados (por exemplo, definindo MEDIA_RESOLUTION_HIGH para um item e MEDIA_RESOLUTION_LOW para outro).
As configurações de resolução de mídia no nível de Part têm precedência sobre as configurações globais.
Se você não especificar uma Part de mídia para uma mídia específica, o valor padrão será o mesmo dos padrões do lado do serviço. Para mais informações sobre a resolução no nível da parte
e as contagens de tokens correspondentes, consulte Resolução de mídia.
Confira a seguir um conjunto de dados de exemplo que define a resolução de mídia nos níveis Part e global:
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "application/pdf",
"fileUri": "gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf"
}
},
{
"fileData": {
"mimeType": "application/pdf",
"fileUri": "gs://<path to another PDF>"
},
"mediaResolution": {
"level": "MEDIA_RESOLUTION_HIGH"
}
},
{
"text": "Describe these documents in detail."
}
]
},
{
"role": "model",
"parts": [
{
"text": "PDF 1 is low resolution while PDF 2 is sharp and clear"
}
]
}
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
A seguir
- Para saber mais sobre a capacidade de compreensão de documentos dos modelos do Gemini, consulte a Visão geral da compreensão de documentos.
- Para começar a ajustar, consulte Ajustar modelos do Gemini usando ajuste supervisionado de detalhes
- Para saber como o ajuste supervisionado de detalhes pode ser usado em uma solução que cria uma base de conhecimento de IA generativa, consulte Solução de início rápido: base de conhecimento de IA generativa.