Esta página fornece pré-requisitos e instruções detalhadas para ajustar os modelos do Gemini em dados de imagem usando o aprendizado supervisionado.
Casos de uso
O ajuste fino permite adaptar os modelos de base do Gemini para tarefas especializadas. Confira alguns casos de uso de imagens:
- Melhoria do catálogo de produtos: extraia atributos importantes de imagens (por exemplo, marca, cor, tamanho) para criar e enriquecer automaticamente seu catálogo de produtos.
- Moderação de imagens: ajuste um modelo para detectar e sinalizar conteúdo nocivo ou inadequado em imagens, garantindo uma experiência on-line mais segura.
- Inspeção visual: treine um modelo para identificar objetos ou defeitos específicos em imagens, automatizando processos de controle de qualidade ou inspeção.
- Classificação de imagens: melhore a acurácia da classificação de imagens para domínios específicos, como imagens médicas ou análise de imagens de satélite.
- Recomendações baseadas em imagens: analise imagens para fornecer recomendações personalizadas como sugerir produtos semelhantes ou itens complementares.
- Extração de conteúdo de tabelas: extraia dados de tabelas em imagens e converta os em formatos estruturados, como planilhas ou bancos de dados.
Limitações
- Máximo de imagens por exemplo: 30
- Tamanho máximo do arquivo de imagem: 20 MB
Para saber mais sobre os requisitos de amostra de imagem, consulte a página Entendimento de imagens.
Formato do conjunto de dados
O fileUri do conjunto de dados pode ser o URI de um arquivo em um bucket do Cloud Storage ou um URL HTTP ou HTTPS disponível publicamente.
O campo mediaResolution do GenerationConfig
objeto é
usado para controlar a compensação entre a qualidade do arquivo de mídia enviado
para ajuste e o número de tokens usados para representar a mídia. Uma resolução mais alta permite que o modelo perceba mais detalhes, o que pode levar a um comportamento mais sutil do modelo ajustado, mas também usa mais tokens. Isso não afeta as dimensões da imagem enviadas ao modelo. Quando não especificado, a resolução padrão é MEDIA_RESOLUTION_HIGH.
A seguir estão os valores mediaResolution aceitos para ajustar dados de imagem para versões do Gemini abaixo de 3:
MEDIA_RESOLUTION_LOW: 64 tokensMEDIA_RESOLUTION_MEDIUM: 256 tokensMEDIA_RESOLUTION_HIGH: 256 tokens + (256 tokens * número de imagens de pan e scan)
Para conferir o exemplo de formato genérico, consulte Exemplo de conjunto de dados para o Gemini.
Confira a seguir um exemplo de conjunto de dados de imagem:
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/longcap100/100.jpeg"
}
},
{
"text": "Describe this image in detail that captures the essence of it."
}
]
},
{
"role": "model",
"parts": [
{
"text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
}
]
}
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
(Somente modelos do Gemini 3 e mais recentes) A partir dos modelos do Gemini 3, também é possível definir a resolução de mídia por mídia individual Part.
Isso permite misturar resoluções no conjunto de dados (por exemplo, definindo MEDIA_RESOLUTION_HIGH para um item e MEDIA_RESOLUTION_LOW para outro).
Para mais informações sobre a resolução no nível da parte e as contagens de tokens correspondentes, consulte Resolução de mídia.
As configurações de resolução de mídia no nível da Part têm precedência sobre as configurações globais.
Confira a seguir um exemplo de conjunto de dados que define a resolução de mídia nos níveis Part e global:
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://image.jpeg"
}
},
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://ultra_high_res_image.jpeg"
},
"mediaResolution": {
"level": "MEDIA_RESOLUTION_HIGH"
}
},
{
"text": "Describe these images in detail."
}
]
},
{
"role": "model",
"parts": [
{
"text": "Image 1 is low resolution while image 2 is sharp and clear"
}
]
}
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
Conjuntos de dados de amostra
Use os conjuntos de dados de exemplo a seguir para aprender a ajustar um modelo do Gemini. Para usar esses conjuntos de dados, especifique os URIs nos parâmetros aplicáveis ao criar um job de ajuste supervisionado de modelo de texto.
Para usar o conjunto de dados de ajuste de amostra, especifique o local da seguinte maneira:
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_train_data.jsonl",
Para usar o conjunto de dados de validação de amostra, especifique o local da seguinte maneira:
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_validation_data.jsonl",
A seguir
- Para saber mais sobre a capacidade de compreensão de imagens do Gemini, consulte nossa documentação sobre compreensão de imagens.
- Para começar a ajustar, consulte Ajustar modelos do Gemini usando ajuste supervisionado de detalhes
- Para saber como o ajuste supervisionado de detalhes pode ser usado em uma solução que cria uma base de conhecimento de IA generativa, consulte Solução de início rápido: base de conhecimento de IA generativa.