Gemini 2.5 Flash Image supporta la generazione di risposte in più modalità, tra cui testo e immagini.
Generazione di immagini
Gemini 2.5 Flash Image
(gemini-2.5-flash-image
) supporta la possibilità di generare
immagini oltre al testo. In questo modo, le funzionalità di Gemini vengono ampliate per includere
quanto segue:
- Genera immagini in modo iterativo tramite conversazioni in linguaggio naturale, modificando le immagini mantenendo coerenza e contesto.
- Genera immagini con rendering di testo lungo di alta qualità.
- Genera output di testo e immagini interleaving. Ad esempio, un post del blog con testo e immagini in un unico turno. In precedenza, ciò richiedeva di concatenare più modelli.
- Genera immagini utilizzando le capacità di ragionamento e la conoscenza del mondo di Gemini.
Con questa release sperimentale pubblica, Gemini 2.5 Flash Image può generare immagini a 1024 px, supporta la generazione di immagini di persone e contiene filtri di sicurezza aggiornati che offrono un'esperienza utente più flessibile e meno restrittiva.
Supporta le seguenti modalità e funzionalità:
Da testo a immagine
- Prompt di esempio: "Genera un'immagine della Torre Eiffel con fuochi d'artificio sullo sfondo".
Da testo a immagine (rendering del testo)
- Prompt di esempio: "genera una foto cinematografica di un grande edificio con questa proiezione di testo gigante mappata sulla parte anteriore dell'edificio: "Gemini 2.5 ora può generare testo in formato lungo""
Da testo a immagine/i e testo (interleaving)
- Prompt di esempio: "Genera una ricetta illustrata per una paella. Crea immagini insieme al testo mentre generi la ricetta."
- Prompt di esempio: "Genera una storia su un cane in stile di animazione di cartoni animati 3D. Per ogni scena, genera un'immagine"
Immagine/i e testo in immagine/i e testo (interleaving)
- Prompt di esempio: (con l'immagine di una stanza arredata) "Quali altri colori di divani si abbinerebbero al mio spazio? Puoi aggiornare l'immagine?"
Generazione di immagini in base alle impostazioni internazionali
- Prompt di esempio: "Genera un'immagine di una colazione".
Best practice
Per migliorare i risultati della generazione di immagini, segui queste best practice:
Fornisci dettagli specifici:più dettagli fornisci, maggiore sarà il controllo. Ad esempio, invece di "armatura fantasy", prova "armatura a piastre elfica riccamente decorata, incisa con motivi a foglia d'argento, con un colletto alto e spallacci a forma di ali di falco".
Fornisci contesto e intenzione: spiega lo scopo dell'immagine per aiutare il modello a comprendere il contesto. Ad esempio, "Crea un logo per un brand di prodotti per la cura della pelle di fascia alta e minimalista" funziona meglio di "Crea un logo".
Esegui l'iterazione e perfeziona:non aspettarti un'immagine perfetta al primo tentativo. Utilizza prompt di follow-up per apportare piccole modifiche, ad esempio "Rendi l'illuminazione più calda" o "Rendi l'espressione del personaggio più seria".
Utilizza istruzioni passo passo: per le scene complesse, dividi la richiesta in passaggi. Ad esempio, "Per prima cosa, crea uno sfondo di una serena foresta nebbiosa all'alba. Poi, in primo piano, aggiungi un antico altare in pietra ricoperto di muschio. Infine, posiziona una spada singola e luminosa sopra l'altare".
Descrivi ciò che vuoi, non ciò che non vuoi: invece di dire "nessuna auto", descrivi la scena in modo positivo dicendo "una strada vuota e deserta senza segni di traffico".
Controllare la videocamera:guida la visuale della videocamera. Utilizza termini fotografici e cinematografici per descrivere la composizione, ad esempio "inquadratura grandangolare", "scatto macro" o "prospettiva dal basso".
Prompt per le immagini:descrivi l'intento utilizzando frasi come "crea un'immagine di" o "genera un'immagine di". In caso contrario, il modello multimodale potrebbe rispondere con testo anziché con l'immagine.
Limitazioni:
Per ottenere prestazioni ottimali, utilizza le seguenti lingue: EN, es-MX, ja-JP, zh-CN, hi-IN.
La generazione di immagini non supporta input audio o video.
Il modello potrebbe non creare il numero esatto di immagini che hai richiesto.
Per ottenere risultati ottimali, includi un massimo di tre immagini in un input.
Quando generi un'immagine contenente testo, prima genera il testo e poi genera un'immagine con quel testo.
La generazione di immagini o testo potrebbe non funzionare come previsto nelle seguenti situazioni:
Il modello potrebbe creare solo testo. Se vuoi immagini, chiedile chiaramente nella richiesta. Ad esempio, "fornisci immagini man mano che procedi".
Il modello potrebbe creare testo come immagine. Per generare testo, chiedi specificamente un output di testo. Ad esempio, "genera un testo narrativo insieme alle illustrazioni".
Il modello potrebbe interrompere la generazione di contenuti anche se non è terminata. Se si verifica questo problema, riprova o utilizza un prompt diverso.
Se un prompt è potenzialmente non sicuro, il modello potrebbe non elaborare la richiesta e restituisce una risposta che indica che non può creare immagini non sicure. In questo caso,
FinishReason
èSTOP
.
Genera immagini
Le sezioni seguenti descrivono come generare immagini utilizzando Vertex AI Studio o l'API.
Per indicazioni e best practice per i prompt, consulta Progettare prompt multimodali.
Console
Per utilizzare la generazione di immagini:
- Apri Vertex AI Studio > Crea prompt.
-
Fai clic su Cambia modello e seleziona
gemini-2.5-flash-image
dal menu. - Nel riquadro Output, seleziona Immagine e testo dal menu a discesa.
- Scrivi una descrizione dell'immagine che vuoi generare nell'area di testo di Scrivi un prompt.
- Fai clic sul pulsante Prompt ( ).
Gemini genererà un'immagine in base alla tua descrizione. Questa operazione dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.
Python
Installa
pip install --upgrade google-genai
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Node.js
Installa
npm install @google/genai
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Scopri come installare o aggiornare Java.
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Esegui questo comando nel terminale per creare o sovrascrivere questo file nella directory corrente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
"image_config": {
"aspect_ratio": "16:9",
},
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
Gemini genererà un'immagine in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.
Genera testo e immagini interleaving
Gemini 2.5 Flash Image può generare immagini alternate con le sue risposte di testo. Ad esempio, puoi generare immagini di come potrebbe apparire ogni passaggio di una ricetta generata per accompagnare il testo del passaggio, senza dover fare richieste separate al modello.
Console
Per generare immagini interleaving con risposte di testo:
- Apri Vertex AI Studio > Crea prompt.
-
Fai clic su Cambia modello e seleziona
gemini-2.5-flash-image
dal menu. - Nel riquadro Output, seleziona Immagine e testo dal menu a discesa.
- Scrivi una descrizione dell'immagine che vuoi generare nell'area di testo di Scrivi un prompt. Ad esempio, "Crea un tutorial che spieghi come preparare un panino con burro di arachidi e marmellata in tre semplici passaggi. Per ogni passaggio, fornisci un titolo con il numero del passaggio, una spiegazione e genera anche un'immagine, genera ogni immagine con un formato 1:1".
- Fai clic sul pulsante Prompt ( ).
Gemini genererà una risposta in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.
Python
Installa
pip install --upgrade google-genai
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Scopri come installare o aggiornare Java.
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Esegui questo comando nel terminale per creare o sovrascrivere questo file nella directory corrente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps. For each step, provide a title with the number of the step, an explanation, and also generate an image, generate each image in a 1:1 aspect ratio."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
"image_config": {
"aspect_ratio": "16:9",
},
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
Gemini genererà un'immagine in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.
Generazione di immagini in base alle impostazioni internazionali
Gemini 2.5 Flash Image può anche includere informazioni sulla tua posizione quando fornisce risposte di testo o immagini. Ad esempio, puoi generare immagini di tipi di luoghi o esperienze che tengono conto della tua posizione attuale senza doverla specificare al modello.
Console
Per utilizzare la generazione di immagini in base alle impostazioni internazionali:
- Apri Vertex AI Studio > Crea prompt.
-
Fai clic su Cambia modello e seleziona
gemini-2.5-flash-image
dal menu. - Nel riquadro Output, seleziona Immagine e testo dal menu a discesa.
- Scrivi una descrizione dell'immagine che vuoi generare nell'area di testo di Scrivi un prompt. Ad esempio, "Genera una foto di una colazione tipica".
- Fai clic sul pulsante Prompt ( ).
Gemini genererà una risposta in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.
Python
Installa
pip install --upgrade google-genai
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Scopri come installare o aggiornare Java.
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Esegui questo comando nel terminale per creare o sovrascrivere questo file nella directory corrente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Generate a photo of a typical breakfast."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
"image_config": {
"aspect_ratio": "16:9",
},
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
Gemini genererà un'immagine in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.