O Gemini 2.5 Flash Image suporta a geração de respostas em várias modalidades, incluindo texto e imagens.
Geração de imagens
O Gemini 2.5 Flash Image
(gemini-2.5-flash-image
) suporta a capacidade de gerar
imagens, além de texto. Isto expande as capacidades do Gemini para incluir o seguinte:
- Gerar imagens iterativamente através de conversas com linguagem natural, ajustando as imagens e mantendo a consistência e o contexto.
- Gere imagens com renderização de texto longo de alta qualidade.
- Gerar resultados de texto e imagem intercalados. Por exemplo, uma publicação no blogue com texto e imagens num único comando. Anteriormente, isto exigia a combinação de vários modelos.
- Gere imagens com o conhecimento do mundo e as capacidades de raciocínio do Gemini.
Com esta versão experimental pública, o Gemini 2.5 Flash Image pode gerar imagens em 1024 px, suporta a geração de imagens de pessoas e contém filtros de segurança atualizados que proporcionam uma experiência do utilizador mais flexível e menos restritiva.
Suporta as seguintes modalidades e capacidades:
Texto para imagem
- Exemplo de comando: "Gera uma imagem da Torre Eiffel com fogos de artifício no fundo."
Text to Image (renderização de texto)
- Exemplo de comando: "gera uma foto cinematográfica de um grande edifício com esta projeção de texto gigante mapeada na frente do edifício: "O Gemini 2.5 já pode gerar texto de formato longo""
Texto para imagens e texto (intercalado)
- Exemplo de comando: "Gera uma receita ilustrada de uma paelha. Cria imagens juntamente com o texto à medida que gera a receita."
- Exemplo de comando: "Gera uma história sobre um cão num estilo de animação de desenho animado 3D. Para cada cena, gera uma imagem"
Imagens e texto para imagens e texto (intercalados)
- Comando de exemplo: (com uma imagem de uma sala mobilada) "Que outras cores de sofás ficariam bem no meu espaço? Pode atualizar a imagem?"
Geração de imagens com reconhecimento da localização
- Exemplo de comando: "Gera uma imagem de uma refeição ao pequeno-almoço."
Práticas recomendadas
Para melhorar os resultados da geração de imagens, siga estas práticas recomendadas:
Seja específico: mais detalhes dão-lhe mais controlo. Por exemplo, em vez de "armadura de fantasia", experimente "armadura de placas élfica ornamentada, gravada com padrões de folhas de prata, com uma gola alta e ombreiras em forma de asas de falcão".
Forneça contexto e intenção: explique a finalidade da imagem para ajudar o modelo a compreender o contexto. Por exemplo, "Cria um logótipo para uma marca de cuidados de pele minimalista e de alta qualidade" funciona melhor do que "Cria um logótipo".
Itere e refine: não espere uma imagem perfeita à primeira tentativa. Use comandos de seguimento para fazer pequenas alterações, por exemplo, "Torna a iluminação mais quente" ou "Altera a expressão do personagem para ser mais séria".
Use instruções passo a passo: para cenas complexas, divida o seu pedido em passos. Por exemplo, "Primeiro, cria um fundo de uma floresta serena e enevoada ao amanhecer. Em seguida, no primeiro plano, adicione um altar de pedra antigo coberto de musgo. Por fim, coloca uma única espada brilhante em cima do altar."
Descreva o que quer, não o que não quer: em vez de dizer "sem carros", descreva a cena de forma positiva dizendo "uma rua vazia e deserta sem sinais de trânsito".
Controlar a câmara: orientar a vista da câmara. Use termos fotográficos e cinematográficos para descrever a composição, por exemplo, "grande angular", "macro" ou "perspetiva de ângulo baixo".
Comandos para imagens: descreva a intenção com expressões como "criar uma imagem de" ou "gerar uma imagem de". Caso contrário, o modelo multimodal pode responder com texto em vez da imagem.
Limitações:
Para o melhor desempenho, use os seguintes idiomas: EN, es-MX, ja-JP, zh-CN e hi-IN.
A geração de imagens não suporta entradas de áudio nem de vídeo.
O modelo pode não criar o número exato de imagens que pedir.
Para os melhores resultados, inclua um máximo de três imagens numa entrada.
Quando gera uma imagem com texto, primeiro gera o texto e, em seguida, gera uma imagem com esse texto.
A geração de imagens ou texto pode não funcionar conforme esperado nestas situações:
O modelo só pode criar texto. Se quiser imagens, peça-as claramente na sua solicitação. Por exemplo, "fornece imagens à medida que avança".
O modelo pode criar texto como uma imagem. Para gerar texto, peça especificamente saída de texto. Por exemplo, "gera texto narrativo juntamente com ilustrações".
O modelo pode parar de gerar conteúdo, mesmo quando não tiver terminado. Se isto ocorrer, tente novamente ou use um comando diferente.
Se um comando for potencialmente inseguro, o modelo pode não processar o pedido e devolve uma resposta a indicar que não consegue criar imagens inseguras. Neste caso, o
FinishReason
éSTOP
.
Gerar imagens
As secções seguintes abordam como gerar imagens através do Vertex AI Studio ou da API.
Para ver orientações e práticas recomendadas para a criação de comandos, consulte o artigo Crie comandos multimodais.
Consola
Para usar a geração de imagens:
- Abra o Vertex AI Studio > Criar comando.
-
Clique em Mudar modelo e selecione
gemini-2.5-flash-image
no menu. - No painel Resultados, selecione Imagem e texto no menu pendente.
- Escreva uma descrição da imagem que quer gerar na área de texto de Escreva um comando.
- Clique no botão Comando ( ).
O Gemini gera uma imagem com base na sua descrição. Este processo deve demorar alguns segundos, mas pode ser comparativamente mais lento consoante a capacidade.
Python
Instalação
pip install --upgrade google-genai
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA gen com o Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Node.js
Instalação
npm install @google/genai
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA gen com o Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Saiba como instalar ou atualizar o Java.
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA gen com o Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Execute o seguinte comando no terminal para criar ou substituir este ficheiro no diretório atual:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
"image_config": {
"aspect_ratio": "16:9",
},
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
O Gemini gera uma imagem com base na sua descrição. Este processo deve demorar alguns segundos, mas pode ser comparativamente mais lento consoante a capacidade.
Gere imagens e texto intercalados
O Gemini 2.5 Flash Image pode gerar imagens intercaladas com as respetivas respostas de texto. Por exemplo, pode gerar imagens de como cada passo de uma receita gerada pode ser para acompanhar o texto desse passo, sem ter de fazer pedidos separados ao modelo para o fazer.
Consola
Para gerar imagens intercaladas com respostas de texto:
- Abra o Vertex AI Studio > Criar comando.
-
Clique em Mudar modelo e selecione
gemini-2.5-flash-image
no menu. - No painel Resultados, selecione Imagem e texto no menu pendente.
- Escreva uma descrição da imagem que quer gerar na área de texto de Escreva um comando. Por exemplo, "Cria um tutorial a explicar como fazer uma sanduíche de manteiga de amendoim e geleia em três passos simples. Para cada passo, indique um título com o número do passo, uma explicação e também gere uma imagem. Gere cada imagem numa proporção de 1:1."
- Clique no botão Comando ( ).
O Gemini gera uma resposta com base na sua descrição. Este processo deve demorar alguns segundos, mas pode ser comparativamente mais lento consoante a capacidade.
Python
Instalação
pip install --upgrade google-genai
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA gen com o Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Saiba como instalar ou atualizar o Java.
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA gen com o Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Execute o seguinte comando no terminal para criar ou substituir este ficheiro no diretório atual:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps. For each step, provide a title with the number of the step, an explanation, and also generate an image, generate each image in a 1:1 aspect ratio."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
"image_config": {
"aspect_ratio": "16:9",
},
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
O Gemini gera uma imagem com base na sua descrição. Este processo deve demorar alguns segundos, mas pode ser comparativamente mais lento consoante a capacidade.
Geração de imagens com reconhecimento da localização
A imagem do Gemini 2.5 Flash também pode incluir informações sobre a sua localização quando fornece respostas de texto ou de imagem. Por exemplo, pode gerar imagens de tipos de localizações ou experiências que têm em conta a sua localização atual sem ter de especificar a sua localização ao modelo para o fazer.
Consola
Para usar a geração de imagens com reconhecimento da localização:
- Abra o Vertex AI Studio > Criar comando.
-
Clique em Mudar modelo e selecione
gemini-2.5-flash-image
no menu. - No painel Resultados, selecione Imagem e texto no menu pendente.
- Escreva uma descrição da imagem que quer gerar na área de texto de Escreva um comando. Por exemplo, "Gera uma foto de um pequeno-almoço típico."
- Clique no botão Comando ( ).
O Gemini gera uma resposta com base na sua descrição. Este processo deve demorar alguns segundos, mas pode ser comparativamente mais lento consoante a capacidade.
Python
Instalação
pip install --upgrade google-genai
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA gen com o Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Saiba como instalar ou atualizar o Java.
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA gen com o Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Execute o seguinte comando no terminal para criar ou substituir este ficheiro no diretório atual:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Generate a photo of a typical breakfast."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
"image_config": {
"aspect_ratio": "16:9",
},
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
O Gemini gera uma imagem com base na sua descrição. Este processo deve demorar alguns segundos, mas pode ser comparativamente mais lento consoante a capacidade.