Ajuste de imagem

Esta página fornece pré-requisitos e instruções detalhadas para ajustar o Gemini em dados de imagem usando o aprendizado supervisionado.

Casos de uso

Com o ajuste de detalhes, é possível adaptar os modelos de base do Gemini para tarefas especializadas. Confira alguns casos de uso de imagens:

  • Melhoria do catálogo de produtos: extraia atributos principais de imagens (por exemplo, marca, cor, tamanho) para criar e enriquecer automaticamente seu catálogo de produtos.
  • Moderação de imagens: ajuste um modelo para detectar e sinalizar conteúdo inadequado ou nocivo em imagens, garantindo uma experiência on-line mais segura.
  • Inspeção visual: treine um modelo para identificar objetos ou defeitos específicos em imagens, automatizando processos de controle de qualidade ou inspeção.
  • Classificação de imagens: melhore a precisão da classificação de imagens para domínios específicos, como imagens médicas ou análise de imagens de satélite.
  • Recomendações com base em imagens: analise imagens para oferecer recomendações personalizadas, como sugestões de produtos semelhantes ou itens complementares.
  • Extração de conteúdo de tabelas: extrai dados de tabelas em imagens e os converte em formatos estruturados, como planilhas ou bancos de dados.

Limitações

  • Máximo de imagens por exemplo: 30
  • Tamanho máximo do arquivo de imagem: 20 MB

Para saber mais sobre os requisitos de amostra de imagem, consulte a página Entendimento de imagens.

Formato do conjunto de dados

O fileUri do conjunto de dados pode ser o URI de um arquivo em um bucket do Cloud Storage ou um URL HTTP ou HTTPS disponível publicamente.

O campo mediaResolution do objeto GenerationConfig é usado para controlar a troca entre a qualidade do arquivo de mídia enviado para ajuste e o número de tokens usados para representar a mídia. Uma resolução mais alta permite que o modelo perceba mais detalhes, o que pode levar a um comportamento mais sutil do modelo ajustado, mas também usa mais tokens. Isso não afeta as dimensões da imagem enviadas ao modelo. Quando não especificada, a resolução padrão é MEDIA_RESOLUTION_HIGH.

Confira a seguir os valores mediaResolution compatíveis para ajuste de dados de imagem:

  • MEDIA_RESOLUTION_LOW: 64 tokens
  • MEDIA_RESOLUTION_MEDIUM: 256 tokens
  • MEDIA_RESOLUTION_HIGH: 256 tokens + (256 tokens * número de imagens de pan e scan)

Para conferir o exemplo de formato genérico, consulte Exemplo de conjunto de dados para o Gemini.

Confira a seguir um exemplo de conjunto de dados de imagens.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "image/jpeg",
            "fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/longcap100/100.jpeg"
            }
        },
        {
          "text": "Describe this image in detail that captures the essence of it."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
        }
      ]
    }
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

Conjuntos de dados de amostra

Use os conjuntos de dados de exemplo a seguir para aprender a ajustar um modelo do Gemini. Para usar esses conjuntos de dados, especifique os URIs nos parâmetros aplicáveis ao criar um job de ajuste fino supervisionado de modelo de texto.

Para usar o conjunto de dados de ajuste de amostra, especifique o local dele da seguinte maneira:

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_train_data.jsonl",

Para usar o conjunto de dados de validação de amostra, especifique o local dele da seguinte maneira:

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_validation_data.jsonl",

A seguir