O Gemini 2.5 Flash Image oferece suporte à geração de respostas em várias modalidades, incluindo texto e imagens.
Geração de imagens
O Gemini 2.5 Flash Image
(gemini-2.5-flash-image
) permite gerar
imagens além de texto. Isso amplia os recursos do Gemini para incluir o seguinte:
- Gere imagens de forma iterativa por conversa em linguagem natural, ajustando as imagens e mantendo a consistência e o contexto.
- Gere imagens com renderização de texto longo de alta qualidade.
- Gere uma saída de texto e imagem intercalada. Por exemplo, uma postagem de blog com texto e imagens em uma única interação. Antes, isso exigia a junção de vários modelos.
- Gere imagens usando o conhecimento de mundo e os recursos de raciocínio do Gemini.
Com essa versão experimental pública, o Gemini 2.5 Flash Image pode gerar imagens em 1024 px, criar imagens de pessoas e contém filtros de segurança atualizados que oferecem uma experiência do usuário mais flexível e menos restritiva.
Ele é compatível com as seguintes modalidades e recursos:
Texto para imagem
- Exemplo de comando: "Gere uma imagem da Torre Eiffel com fogos de artifício ao fundo".
Texto para imagem (renderização de texto)
- Exemplo de comando: "gere uma foto cinematográfica de um grande edifício com esta projeção de texto gigante mapeada na frente do edifício: "O Gemini 2.5 agora pode gerar textos longos""
Texto para imagens e texto (intercalado)
- Exemplo de comando: "Gere uma receita ilustrada de paella. Crie imagens ao lado do texto enquanto gera a receita".
- Exemplo de comando: "Gere uma história sobre um cachorro em um estilo de animação de desenho animado em 3D. Para cada cena, gere uma imagem"
Imagens e texto para imagens e texto (intercalados)
- Comando de exemplo: (com uma imagem de um quarto mobiliado) "Quais outros sofás de cores ficariam bons no meu espaço? Você pode atualizar a imagem?"
Geração de imagens com reconhecimento de localidade
- Exemplo de comando: "Gere uma imagem de um café da manhã".
Práticas recomendadas
Para melhorar os resultados da geração de imagens, siga estas práticas recomendadas:
Seja específico:mais detalhes dão mais controle. Por exemplo, em vez de "armadura de fantasia", tente "armadura de placa élfica ornamentada, gravada com padrões de folha de prata, com um colar alto e ombreiras em forma de asas de falcão".
Forneça contexto e intenção:explique a finalidade da imagem para ajudar o modelo a entender o contexto. Por exemplo, "Crie um logotipo para uma marca de cuidados com a pele sofisticada e minimalista" funciona melhor do que "Crie um logotipo".
Itere e refine:não espere uma imagem perfeita na primeira tentativa. Use comandos de acompanhamento para fazer pequenas mudanças, por exemplo, "Deixe a iluminação mais quente" ou "Mude a expressão do personagem para algo mais sério".
Use instruções detalhadas:para cenas complexas, divida seu pedido em etapas. Por exemplo: "Primeiro, crie um plano de fundo de uma floresta serena e enevoada ao amanhecer. Em seguida, em primeiro plano, adicione um altar de pedra antigo coberto de musgo. Por fim, coloque uma única espada brilhante em cima do altar."
Descreva o que você quer, não o que você não quer:em vez de dizer "sem carros", descreva a cena de forma positiva dizendo "uma rua vazia e deserta sem sinais de trânsito".
Controlar a câmera:guie a visualização da câmera. Use termos fotográficos e cinematográficos para descrever a composição, por exemplo, "foto grande-angular", "foto macro" ou "perspectiva de baixo ângulo".
Comando para imagens:descreva a intenção usando frases como "crie uma imagem de" ou "gere uma imagem de". Caso contrário, o modelo multimodal pode responder com texto em vez da imagem.
Limitações:
Para ter o melhor desempenho, use os seguintes idiomas: EN, es-MX, ja-JP, zh-CN e hi-IN.
A geração de imagens não aceita entradas de áudio ou vídeo.
O modelo pode não criar o número exato de imagens que você pediu.
Para ter os melhores resultados, inclua no máximo três imagens em uma entrada.
Ao gerar uma imagem com texto, primeiro gere o texto e depois gere uma imagem com esse texto.
A geração de imagens ou texto pode não funcionar como esperado nestas situações:
O modelo só pode criar texto. Se você quiser imagens, peça isso de forma clara na sua solicitação. Por exemplo, "forneça imagens à medida que avança".
O modelo pode criar texto como uma imagem. Para gerar texto, peça especificamente uma saída de texto. Por exemplo, "gere texto narrativo com ilustrações".
O modelo pode parar de gerar conteúdo mesmo quando não tiver terminado. Se isso acontecer, tente de novo ou use outro comando.
Se um comando for potencialmente não seguro, o modelo poderá não processar a solicitação e vai retornar uma resposta indicando que não é possível criar imagens não seguras. Nesse caso, o
FinishReason
éSTOP
.
Gerar imagens
As seções a seguir mostram como gerar imagens usando o Vertex AI Studio ou a API.
Para orientações e práticas recomendadas de comandos, consulte Criar comandos multimodais.
Console
Para usar a geração de imagens:
- Abra Vertex AI Studio > Criar comando.
-
Clique em Trocar modelo e selecione
gemini-2.5-flash-image
no menu. - No painel Saídas, selecione Imagem e texto no menu suspenso.
- Escreva uma descrição da imagem que você quer gerar na área de texto Escreva um comando.
- Clique no botão Comando ( ).
O Gemini vai gerar uma imagem com base na sua descrição. Esse processo leva alguns segundos, mas pode ser comparativamente mais lento dependendo da capacidade.
Python
Instalar
pip install --upgrade google-genai
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA generativa com a Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Node.js
Instalar
npm install @google/genai
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA generativa com a Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Saiba como instalar ou atualizar o Java.
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA generativa com a Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Execute o comando a seguir no terminal para criar ou substituir esse arquivo no diretório atual:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
"image_config": {
"aspect_ratio": "16:9",
},
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
O Gemini vai gerar uma imagem com base na sua descrição. Esse processo leva alguns segundos, mas pode ser comparativamente mais lento dependendo da capacidade.
Gerar resposta com textos e imagens
O Gemini 2.5 Flash Image pode gerar imagens intercaladas com as respostas de texto. Por exemplo, você pode gerar imagens de como cada etapa de uma receita gerada pode ser para acompanhar o texto dessa etapa, sem precisar fazer solicitações separadas ao modelo para isso.
Console
Para gerar imagens intercaladas com respostas de texto:
- Abra Vertex AI Studio > Criar comando.
-
Clique em Trocar modelo e selecione
gemini-2.5-flash-image
no menu. - No painel Saídas, selecione Imagem e texto no menu suspenso.
- Escreva uma descrição da imagem que você quer gerar na área de texto Escreva um comando. Por exemplo, "Crie um tutorial explicando como fazer um sanduíche de pasta de amendoim e geleia em três etapas simples. Para cada etapa, forneça um título com o número da etapa, uma explicação e também gere uma imagem, cada uma em uma proporção de 1:1."
- Clique no botão Comando ( ).
O Gemini vai gerar uma resposta com base na sua descrição. Esse processo leva alguns segundos, mas pode ser comparativamente mais lento dependendo da capacidade.
Python
Instalar
pip install --upgrade google-genai
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA generativa com a Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Saiba como instalar ou atualizar o Java.
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA generativa com a Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Execute o comando a seguir no terminal para criar ou substituir esse arquivo no diretório atual:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps. For each step, provide a title with the number of the step, an explanation, and also generate an image, generate each image in a 1:1 aspect ratio."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
"image_config": {
"aspect_ratio": "16:9",
},
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
O Gemini vai gerar uma imagem com base na sua descrição. Esse processo leva alguns segundos, mas pode ser comparativamente mais lento dependendo da capacidade.
Geração de imagens com reconhecimento de localidade
O Gemini 2.5 Flash Image também pode incluir informações sobre sua localização ao fornecer respostas em texto ou imagem. Por exemplo, você pode gerar imagens de tipos de lugares ou experiências que consideram sua localização atual sem precisar especificar seu local para o modelo.
Console
Para usar a geração de imagens com reconhecimento de localidade:
- Abra Vertex AI Studio > Criar comando.
-
Clique em Trocar modelo e selecione
gemini-2.5-flash-image
no menu. - No painel Saídas, selecione Imagem e texto no menu suspenso.
- Escreva uma descrição da imagem que você quer gerar na área de texto Escreva um comando. Por exemplo, "Gere uma foto de um café da manhã típico".
- Clique no botão Comando ( ).
O Gemini vai gerar uma resposta com base na sua descrição. Esse processo leva alguns segundos, mas pode ser comparativamente mais lento dependendo da capacidade.
Python
Instalar
pip install --upgrade google-genai
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA generativa com a Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Saiba como instalar ou atualizar o Java.
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA generativa com a Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Execute o comando a seguir no terminal para criar ou substituir esse arquivo no diretório atual:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Generate a photo of a typical breakfast."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
"image_config": {
"aspect_ratio": "16:9",
},
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
O Gemini vai gerar uma imagem com base na sua descrição. Esse processo leva alguns segundos, mas pode ser comparativamente mais lento dependendo da capacidade.