Configure o formato

Experimente a geração de imagens (Vertex AI Studio)

Experimente o Imagen num Colab

Esta página descreve como configurar o formato para o qual o Imagen no Vertex AI gera imagens.

Em função do modo como planeia usar as imagens geradas, alguns formatos podem funcionar melhor do que outros. Escolha o formato mais adequado ao seu exemplo de utilização.

Existem vários modelos de geração de imagens que pode usar, e determinados formatos estão disponíveis para modelos Imagen específicos. Para mais informações, consulte os modelos Imagen.

Formato Utilização prevista Imagem de exemplo
1:1 Predefinição, quadrado, utilização geral
Exemplo de imagem gerada na consola
Prompt: vista de cima de um jantar de massa, foto de estúdio no estilo da capa de uma revista de comida.
3:4 TV, meios de comunicação e filmes
Exemplo de imagem gerada na consola
Comando: sessão fotográfica comercial, anúncio de fragrância, frasco com aroma de lavanda e baunilha num fundo de cor clara.
4:3 TV, meios de comunicação, filmes
Exemplo de imagem gerada na consola
Comando: sessão fotográfica comercial, sapatilhas de cano alto verdes e cinzentas, 4k, ângulos dramáticos.
9:16 vertical, objetos altos, dispositivos móveis
Exemplo de imagem gerada na consola
Comando: fotografia de natureza, uma praia no Havai com o oceano em segundo plano, reflexo da lente, pôr do sol.
16:9 paisagem
Exemplo de imagem gerada na consola
Comando: arranha-céus na cidade de Nova Iorque, renderização futurista, conceito, arte digital.

Consola

  1. Na Google Cloud consola, aceda à página Vertex AI > Vertex AI Studio .

    Aceda ao Vertex AI Studio

  2. Clique em Gerar conteúdo multimédia.

  3. Clique em Imagem.

  4. Na lista Tarefa, selecione uma tarefa de geração de imagens.

  5. Na lista Modelo,escolha um modelo entre as opções disponíveis.

    Para mais informações sobre os modelos disponíveis, consulte os modelos Imagen

  6. Na caixa Comando, introduza o comando de texto que descreve as imagens a gerar. Por exemplo, pequeno barco na água de manhã, ilustração a aguarela.

  7. Na secção Parâmetros, ajuste as seguintes opções:

    • Formato: o formato a usar quando gera imagens
  8. Clique em Executar.

REST

O formato é um campo opcional no objeto parameters de um corpo do pedido JSON.

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

  • REGION: a região onde o seu projeto está localizado. Para mais informações sobre as regiões suportadas, consulte as localizações da IA generativa no Vertex AI.
  • PROJECT_ID: O seu Google Cloud ID do projeto.
  • MODEL_VERSION: a versão do modelo Imagen a usar. Para mais informações sobre os modelos disponíveis, consulte os modelos Imagen.

  • TEXT_PROMPT: o comando de texto que orienta as imagens que o modelo gera. Este campo é obrigatório para a geração e a edição.
  • IMAGE_COUNT: o número de imagens a gerar. O intervalo de valores aceite é de 1 a 4.
  • Parâmetros opcionais adicionais

    Use as seguintes variáveis opcionais consoante o seu exemplo de utilização. Adicione alguns ou todos os seguintes parâmetros no objeto "parameters": {}. Esta lista mostra parâmetros opcionais comuns e não se destina a ser exaustiva. Para mais informações sobre parâmetros opcionais, consulte a referência da API Imagen: gerar imagens.

    "parameters": {
      "sampleCount": IMAGE_COUNT,
      "addWatermark": ADD_WATERMARK,
      "aspectRatio": "ASPECT_RATIO",
      "enhancePrompt": ENABLE_PROMPT_REWRITING,
      "includeRaiReason": INCLUDE_RAI_REASON,
      "includeSafetyAttributes": INCLUDE_SAFETY_ATTRIBUTES,
      "outputOptions": {
        "mimeType": "MIME_TYPE",
        "compressionQuality": COMPRESSION_QUALITY
      },
      "personGeneration": "PERSON_SETTING",
      "safetySetting": "SAFETY_SETTING",
      "seed": SEED_NUMBER,
      "storageUri": "OUTPUT_STORAGE_URI"
    }
    
    • ADD_WATERMARK: booleano. Opcional. Se deve ativar uma marca de água para imagens geradas. Qualquer imagem gerada quando o campo está definido como true contém um SynthID digital que pode usar para validar uma imagem com marca de água. Se omitir este campo, é usado o valor predefinido de true. Tem de definir o valor como false para desativar esta funcionalidade. Pode usar o campo seed para obter um resultado determinístico apenas quando este campo estiver definido como false.
    • ASPECT_RATIO: string. Opcional. Um parâmetro do modo de geração que controla o formato. Valores de proporção suportados e a respetiva utilização prevista:
      • 1:1 (predefinição, quadrada)
      • 3:4 (Anúncios, redes sociais)
      • 4:3 (TV, fotografia)
      • 16:9 (horizontal)
      • 9:16 (vertical)
    • ENABLE_PROMPT_REWRITING: booleano. Opcional. Um parâmetro para usar uma funcionalidade de reescrita de comandos baseada em MDIs para fornecer imagens de maior qualidade que reflitam melhor a intenção do comando original. A desativação desta funcionalidade pode afetar a qualidade da imagem e a conformidade com o comando. Valor predefinido: true.
    • INCLUDE_RAI_REASON: booleano. Opcional. Se deve ativar o código do motivo filtrado da IA responsávelnas respostas com entrada ou saída bloqueada. Valor predefinido: true.
    • INCLUDE_SAFETY_ATTRIBUTES: booleano. Opcional. Se deve ativar as pontuações de IA responsável arredondadas para uma lista de atributos de segurança nas respostas para entrada e saída não filtradas. Categorias de atributos de segurança: "Death, Harm & Tragedy", "Firearms & Weapons", "Hate", "Health", "Illicit Drugs", "Politics", "Porn", "Religion & Belief", "Toxic", "Violence", "Vulgarity" e "War & Conflict". Valor predefinido: false.
    • MIME_TYPE: string. Opcional. O tipo MIME do conteúdo da imagem. Valores disponíveis:
      • image/jpeg
      • image/gif
      • image/png
      • image/webp
      • image/bmp
      • image/tiff
      • image/vnd.microsoft.icon
    • COMPRESSION_QUALITY: número inteiro. Opcional. Aplica-se apenas a ficheiros de saída JPEG. O nível de detalhe que o modelo preserva para imagens geradas no formato de ficheiro JPEG. Valores: 0 a 100, em que um número mais elevado significa mais compressão. Predefinição: 75.
    • PERSON_SETTING: string. Opcional. A definição de segurança que controla o tipo de pessoas ou geração de rostos que o modelo permite. Valores disponíveis:
      • allow_adult (predefinição): permitir a geração de conteúdo apenas para adultos, exceto a geração de conteúdo com celebridades. A geração de celebridades não é permitida para nenhuma definição.
      • dont_allow: desative a inclusão de pessoas ou rostos em imagens geradas.
    • SAFETY_SETTING: string. Opcional. Uma definição que controla os limites dos filtros de segurança para imagens geradas. Valores disponíveis:
      • block_low_and_above: o limite de segurança mais elevado, o que resulta na maior quantidade de imagens geradas filtradas. Valor anterior: block_most.
      • block_medium_and_above (predefinição): um limite de segurança médio que equilibra a filtragem de conteúdo potencialmente prejudicial e seguro. Valor anterior: block_some.
      • block_only_high: um limite de segurança que reduz o número de pedidos bloqueados devido a filtros de segurança. Esta definição pode aumentar o conteúdo censurável gerado pelo Imagen. Valor anterior: block_few.
    • SEED_NUMBER: número inteiro. Opcional. Qualquer número inteiro não negativo que fornecer para tornar as imagens de saída determinísticas. Indicar o mesmo número aleatório resulta sempre nas mesmas imagens de saída. Se o modelo que está a usar suportar marcas de água digitais, tem de definir "addWatermark": false para usar este campo. Valores inteiros aceites: 1 a 2147483647.
    • OUTPUT_STORAGE_URI: string. Opcional. O contentor do Cloud Storage para armazenar as imagens de saída. Se não for fornecido, os bytes da imagem codificados em base64 são devolvidos na resposta. Valor de exemplo: gs://image-bucket/output/.

Método HTTP e URL:

POST https://REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/MODEL_VERSION:predict

Corpo JSON do pedido:

{
  "instances": [
    {
      "prompt": "TEXT_PROMPT"
    }
  ],
  "parameters": {
    "sampleCount": IMAGE_COUNT
  }
}

Para enviar o seu pedido, escolha uma destas opções:

curl

Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/MODEL_VERSION:predict"

PowerShell

Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/MODEL_VERSION:predict" | Select-Object -Expand Content
A seguinte resposta de exemplo destina-se a um pedido com "sampleCount": 2. A resposta devolve dois objetos de previsão, com os bytes da imagem gerada codificados em base64.
{
  "predictions": [
    {
      "bytesBase64Encoded": "BASE64_IMG_BYTES",
      "mimeType": "image/png"
    },
    {
      "mimeType": "image/png",
      "bytesBase64Encoded": "BASE64_IMG_BYTES"
    }
  ]
}

Se usar um modelo que suporte o melhoramento de comandos, a resposta inclui um campo prompt adicional com o comando melhorado usado para a geração:

{
  "predictions": [
    {
      "mimeType": "MIME_TYPE",
      "prompt": "ENHANCED_PROMPT_1",
      "bytesBase64Encoded": "BASE64_IMG_BYTES_1"
    },
    {
      "mimeType": "MIME_TYPE",
      "prompt": "ENHANCED_PROMPT_2",
      "bytesBase64Encoded": "BASE64_IMG_BYTES_2"
    }
  ]
}

O que se segue?