A personalização de estilo do Imagen 3 ajuda você a gerar novas imagens com base em comandos de texto e imagens de referência fornecidas. As imagens de referência orientam a geração de novas imagens.
Os seguintes modelos são compatíveis com a personalização de estilo:
Casos de uso
A personalização do Imagen 3 oferece comandos de estilo livre, o que pode dar a impressão de que ele pode fazer mais do que foi treinado para fazer. As seções a seguir descrevem os casos de uso pretendidos para a personalização do Imagen 3 e exemplos não exaustivos de casos de uso não pretendidos.
Recomendamos usar a personalização do Imagen 3 para os casos de uso pretendidos, já que treinamos o modelo nesses casos e esperamos bons resultados para eles. Por outro lado, embora seja possível forçar o modelo a fazer coisas fora dos casos de uso pretendidos, não esperamos bons resultados.
Casos de uso pretendidos
Confira a seguir casos de uso destinados à personalização de estilo do Imagen 3:
- Gere uma imagem com base em uma entrada de texto que siga o estilo específico fornecido por uma imagem de referência.
- Alterar a foto de uma pessoa.
- Altere uma foto de uma pessoa e preserve a expressão facial dela.
Exemplos de casos de uso não intencionais
Confira uma lista não exaustiva de casos de uso para os quais a personalização do Imagen 3 não foi treinada e que geram resultados ruins:
Gere uma imagem com base em texto e usando uma imagem de referência, com a intenção de ter algum nível de controle da composição gerada com base na imagem de referência.
Gere uma imagem de uma pessoa com base em uma imagem de referência que tenha uma pessoa com uma expressão facial específica.
Coloque duas pessoas em uma cena diferente, preserve as identidades delas e especifique o estilo da imagem de saída (como uma pintura a óleo) usando uma imagem de referência.
Estilize uma foto de um animal de estimação e transforme em um desenho, preservando ou especificando a composição da imagem.
Coloque um produto, como um cookie ou um sofá, em diferentes cenas com ângulos e estilos de imagem específicos (como fotorrealista com cores, estilos de iluminação ou animação específicos).
Exemplo de personalização de estilo
Confira a seguir um exemplo de personalização de estilo do Imagen 3:
| Entrada de exemplo | Exemplo de saída |
|---|---|
|
|
1 Imagem de entrada de referência gerada usando a geração de imagens do Imagen 3 com base no comando: um mosaico simples.
Ver o card de modelo do Imagen para edição e personalização
Antes de começar
- Faça login na sua conta do Google Cloud . Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Configure a autenticação do ambiente.
Selecione a guia para como planeja usar as amostras nesta página:
Console
Quando você usa o console Google Cloud para acessar serviços Google Cloud e APIs, não é necessário configurar a autenticação.
REST
Para usar as amostras da API REST desta página em um ambiente de desenvolvimento local, use as credenciais fornecidas para gcloud CLI.
Instale a CLI do Google Cloud.
Ao usar um provedor de identidade (IdP) externo, primeiro faça login na gcloud CLI com sua identidade federada.
Saiba mais em Autenticar para usar REST na documentação de autenticação do Google Cloud .
Personalização de estilo
Você pode fornecer imagens de referência de tipos de estilo ao usar a personalização do Imagen 3. O estilo escolhido afeta a forma como você cria o pedido de geração.
O comando usado com a personalização do Imagen 3 pode afetar a qualidade das imagens geradas. As seções a seguir descrevem modelos e exemplos de comandos recomendados para enviar solicitações de personalização.
| Caso de uso | Imagens de referência | Modelo de comando | Exemplo |
|---|---|---|---|
| Estilo do objeto | Imagem do assunto (1 a 4) | Gere uma imagem em STYLE_DESCRIPTION [1] com base na seguinte legenda: IMAGE_DESCRIPTION. | Gere uma imagem em neon sign style [1] com base na seguinte legenda: a sign saying have a great day. |
| Estilização de imagem de pessoa sem entrada de malha facial | Imagem do assunto (1 a 4) | Crie uma imagem sobre SUBJECT_DESCRIPTION [1] para corresponder à descrição: um retrato de SUBJECT_DESCRIPTION [1] ${PROMPT} | Crie uma imagem sobre a woman with short hair[1] que corresponda à descrição: um retrato de a woman with short hair[1] em estilo de desenho animado 3D com fundo desfocado. Um personagem fofo e adorável, sorrindo, olhando para a câmera, tom de cor pastel, alta qualidade, 4k, obra-prima, super detalhes, textura da pele, mapeamento de textura, sombras suaves, iluminação realista suave, cores vibrantes |
| Estilização de imagem de pessoa com entrada de malha facial |
Imagem do assunto (1 a 3) Imagem de controle de facemesh (1) |
Crie uma imagem sobre SUBJECT_DESCRIPTION [1] na pose de CONTROL_IMAGE [2] para corresponder à descrição: um retrato de SUBJECT_DESCRIPTION [1] ${PROMPT} | Crie uma imagem sobre a woman with short hair [1] na pose de control image [2] para corresponder à descrição: um retrato de a woman with short hair [1] em estilo de desenho animado 3D com fundo desfocado. Um personagem fofo e adorável com um rosto sorridente. Veja a câmera, tom pastel, alta qualidade, 4k, obra-prima, superdetalhes, textura da pele, mapeamento de textura, sombras suaves, iluminação suave e realista, cores vibrantes |
REST
Para mais informações sobre a API Imagen, consulte:
- Método:
endpoints.predict VisionGenerativeModelInstanceVisionGenerativeModelParamsVisionGenerativeModelResult
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- PROJECT_ID: o ID do projeto do Google Cloud .
- LOCATION: a região do seu projeto. Por exemplo,
us-central1,europe-west2ouasia-northeast3. Para uma lista de regiões disponíveis, consulte IA generativa em locais da Vertex AI. Quando um endpoint de API regional é usado, a região do URL do endpoint determina onde a solicitação é processada, e esseLOCATIONno caminho do recurso é ignorado se houver conflito. - TEXT_PROMPT: o prompt de texto fornece orientações sobre quais imagens o modelo gera. Para usar a personalização do Imagen 3, inclua o
referenceIdda imagem ou imagens de referência que você fornecer no formato [$referenceId]. Por exemplo:- O comando de texto a seguir é para uma solicitação que tem uma única imagem de referência com
"referenceId": 1e uma descrição opcional de"styleDescription": "glowing style": Gere uma imagem em glowing style [1] com base na seguinte legenda: Uma igreja na montanha.
- O comando de texto a seguir é para uma solicitação que tem uma única imagem de referência com
"referenceId": o ID da imagem de referência ou de uma série de imagens de referência que correspondem ao mesmo assunto ou estilo. Neste exemplo, a única imagem de referência tem umreferenceIdde (1).- BASE64_REFERENCE_IMAGE: uma imagem de referência para orientar a geração de imagens. A imagem precisa ser especificada como uma string de bytes codificada em base64.
- STYLE_DESCRIPTION: opcional. Uma descrição em texto da imagem de referência que você pode usar no campo
prompt. Exemplo:"prompt": "Generate an image in glowing style [1] based on the following caption: A church in the mountain.", [...], "styleImageConfig": { "styleDescription": "glowing style" } - IMAGE_COUNT: o número de imagens geradas. Valores inteiros aceitos: 1 a 4. Valor padrão: 4.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagen-3.0-capability-001:predict
Corpo JSON da solicitação:
{
"instances": [
{
"prompt": "TEXT_PROMPT",
"referenceImages": [
{
"referenceType": "REFERENCE_TYPE_STYLE",
"referenceId": 1,
"referenceImage": {
"bytesBase64Encoded": "BASE64_REFERENCE_IMAGE"
},
"styleImageConfig": {
"styleDescription": "STYLE_DESCRIPTION"
}
}
]
}
],
"parameters": {
"sampleCount": IMAGE_COUNT
}
}
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando abaixo:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagen-3.0-capability-001:predict"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagen-3.0-capability-001:predict" | Select-Object -Expand Content
"sampleCount": 2. A resposta retorna dois objetos de previsão, com os bytes de imagem gerados codificados em base64.
{
"predictions": [
{
"bytesBase64Encoded": "BASE64_IMG_BYTES",
"mimeType": "image/png"
},
{
"mimeType": "image/png",
"bytesBase64Encoded": "BASE64_IMG_BYTES"
}
]
}
Python
Uso do produto
Para ver os padrões de uso e as restrições de conteúdo associados ao Imagen na Vertex AI, consulte as diretrizes de uso.
Versões do modelo
Há vários modelos de geração de imagens que podem ser usados. Para mais informações, consulte Modelos do Imagen.
A seguir
Confira artigos sobre o Imagen e outras IAs generativas nos produtos da Vertex AI:
- Guia para desenvolvedores sobre como começar a usar o Imagen 3 na Vertex AI
- Novos modelos e ferramentas de mídia generativa criados com criadores para criadores
- Novidades no Gemini: Gems personalizados e geração de imagens aprimorada com o Imagen 3
- Google DeepMind: Imagen 3 — Nosso modelo de qualidade mais alta para conversão de texto em imagem