Gambar Gemini 2.5 Flash mendukung pembuatan respons dalam berbagai modalitas, termasuk teks dan gambar.
Pembuatan gambar
Gemini 2.5 Flash Image
(gemini-2.5-flash-image
) mendukung kemampuan untuk membuat
gambar selain teks. Hal ini memperluas kemampuan Gemini untuk mencakup hal-hal berikut:
- Buat gambar secara iteratif melalui percakapan dengan bahasa alami, sesuaikan gambar sambil mempertahankan konsistensi dan konteks.
- Buat gambar dengan rendering teks panjang berkualitas tinggi.
- Menghasilkan output teks-gambar yang disisipkan. Misalnya, postingan blog dengan teks dan gambar dalam satu giliran. Sebelumnya, hal ini memerlukan penggabungan beberapa model.
- Membuat gambar menggunakan kemampuan penalaran dan pengetahuan dunia Gemini.
Dengan rilis eksperimental publik ini, Gemini 2.5 Flash Image dapat membuat gambar dalam 1024 piksel, mendukung pembuatan gambar orang, dan berisi filter keamanan yang diperbarui yang memberikan pengalaman pengguna yang lebih fleksibel dan tidak terlalu ketat.
API ini mendukung modalitas dan kemampuan berikut:
Teks ke gambar
- Contoh perintah: "Buat gambar Menara Eiffel dengan kembang api di latar belakang."
Teks ke gambar (rendering teks)
- Contoh perintah: "buat foto sinematik sebuah bangunan besar dengan proyeksi teks raksasa ini yang dipetakan di bagian depan bangunan: "Gemini 2.5 kini dapat membuat teks panjang""
Teks ke gambar dan teks (berselang-seling)
- Contoh perintah: "Buat resep paella bergambar. Buat gambar bersama teks saat Anda membuat resep."
- Contoh perintah: "Buat cerita tentang seekor dengan gaya animasi kartun 3D. Untuk setiap adegan, buat gambar"
Gambar dan teks ke gambar dan teks (berselang)
- Contoh perintah: (Dengan gambar ruangan yang dilengkapi perabot) "Sofa warna apa lagi yang cocok untuk ruangan saya? Dapatkah Anda memperbarui gambar?"
Pembuatan gambar yang disesuaikan dengan lokalitas
- Contoh perintah: "Buat gambar makanan sarapan."
Praktik terbaik
Untuk meningkatkan hasil pembuatan gambar Anda, ikuti praktik terbaik berikut:
Bersikaplah spesifik: Semakin banyak detail yang Anda berikan, semakin besar kontrol yang Anda miliki. Misalnya, alih-alih "armor fantasi", coba "armor pelat elf berhias, diukir dengan pola daun perak, dengan kerah tinggi dan pauldron berbentuk sayap elang".
Berikan konteks dan maksud: Jelaskan tujuan gambar untuk membantu model memahami konteksnya. Misalnya, "Buat logo untuk merek perawatan kulit minimalis kelas atas" lebih efektif daripada "Buat logo".
Lakukan iterasi dan tingkatkan kualitas: Jangan mengharapkan gambar yang sempurna pada percobaan pertama. Gunakan perintah lanjutan untuk membuat perubahan kecil, misalnya, "Buat pencahayaannya lebih hangat" atau "Ubah ekspresi karakter agar lebih serius".
Gunakan petunjuk langkah demi langkah: Untuk adegan yang rumit, bagi permintaan Anda menjadi beberapa langkah. Misalnya, "Pertama, buat latar belakang hutan berkabut yang tenang dan damai saat fajar. Kemudian, di latar depan, tambahkan altar batu kuno yang tertutup lumut. Terakhir, letakkan pedang tunggal yang bercahaya di atas altar."
Deskripsikan apa yang Anda inginkan, bukan yang tidak Anda inginkan: Daripada mengatakan "tidak ada mobil", deskripsikan adegan secara positif dengan mengatakan, "jalan yang kosong dan sepi tanpa ada tanda-tanda lalu lintas".
Mengontrol kamera: Memandu tampilan kamera. Gunakan istilah fotografi dan sinematik untuk mendeskripsikan komposisi, misalnya, "bidikan sudut lebar", "bidikan makro", atau "perspektif sudut rendah".
Perintah untuk gambar: Jelaskan maksudnya dengan menggunakan frasa seperti "buat gambar" atau "buatkan gambar". Jika tidak, model multimodal dapat merespons dengan teks, bukan gambar.
Batasan:
Untuk performa terbaik, gunakan bahasa berikut: EN, es-MX, ja-JP, zh-CN, hi-IN.
Pembuatan gambar tidak mendukung input audio atau video.
Model mungkin tidak membuat jumlah gambar yang tepat seperti yang Anda minta.
Untuk hasil terbaik, sertakan maksimal tiga gambar dalam input.
Saat membuat gambar yang berisi teks, buat teks terlebih dahulu, lalu buat gambar dengan teks tersebut.
Pembuatan gambar atau teks mungkin tidak berfungsi seperti yang diharapkan dalam situasi berikut:
Model hanya dapat membuat teks. Jika Anda menginginkan gambar, minta gambar dengan jelas dalam permintaan Anda. Misalnya, "berikan gambar saat Anda melakukannya".
Model dapat membuat teks sebagai gambar. Untuk membuat teks, khususnya minta output teks. Misalnya, "buat teks naratif beserta ilustrasinya".
Model dapat berhenti membuat konten meskipun belum selesai. Jika hal ini terjadi, coba lagi atau gunakan perintah lain.
Jika perintah berpotensi tidak aman, model mungkin tidak memproses permintaan dan menampilkan respons yang menunjukkan bahwa model tidak dapat membuat gambar yang tidak aman. Dalam hal ini, nilai
FinishReason
adalahSTOP
.
Buat gambar
Bagian berikut membahas cara membuat gambar menggunakan Vertex AI Studio atau menggunakan API.
Untuk panduan dan praktik terbaik dalam membuat perintah, lihat Mendesain perintah multimodal.
Konsol
Untuk menggunakan pembuatan gambar:
- Buka Vertex AI Studio > Create prompt.
-
Klik Ganti model, lalu pilih
gemini-2.5-flash-image
dari menu. - Di panel Output, pilih Gambar dan teks dari menu drop-down.
- Tulis deskripsi gambar yang ingin Anda buat di area teks Tulis perintah.
- Klik tombol Perintah ( ).
Gemini akan membuat gambar berdasarkan deskripsi Anda. Proses ini akan memakan waktu beberapa detik, tetapi mungkin lebih lambat bergantung pada kapasitas.
Python
Instal
pip install --upgrade google-genai
Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.
Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Node.js
Instal
npm install @google/genai
Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.
Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Pelajari cara menginstal atau mengupdate Java.
Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.
Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
"image_config": {
"aspect_ratio": "16:9",
},
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
Gemini akan membuat gambar berdasarkan deskripsi Anda. Proses ini akan memakan waktu beberapa detik, tetapi mungkin lebih lambat bergantung pada kapasitas.
Membuat kombinasi gambar dan teks
Gemini 2.5 Flash Image dapat membuat gambar yang disisipkan dengan respons teksnya. Misalnya, Anda dapat membuat gambar seperti apa tampilan setiap langkah resep yang dibuat untuk melengkapi teks langkah tersebut, tanpa harus membuat permintaan terpisah ke model untuk melakukannya.
Konsol
Untuk membuat kombinasi gambar dengan respons teks:
- Buka Vertex AI Studio > Create prompt.
-
Klik Ganti model, lalu pilih
gemini-2.5-flash-image
dari menu. - Di panel Output, pilih Gambar dan teks dari menu drop-down.
- Tulis deskripsi gambar yang ingin Anda buat di area teks Tulis perintah. Misalnya, "Buat tutorial yang menjelaskan cara membuat sandwich selai kacang dan jeli dalam tiga langkah mudah. Untuk setiap langkah, berikan judul dengan nomor langkah, penjelasan, dan buat juga gambar, buat setiap gambar dalam rasio aspek 1:1."
- Klik tombol Perintah ( ).
Gemini akan membuat respons berdasarkan deskripsi Anda. Proses ini akan memakan waktu beberapa detik, tetapi mungkin lebih lambat bergantung pada kapasitas.
Python
Instal
pip install --upgrade google-genai
Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.
Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Pelajari cara menginstal atau mengupdate Java.
Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.
Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps. For each step, provide a title with the number of the step, an explanation, and also generate an image, generate each image in a 1:1 aspect ratio."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
"image_config": {
"aspect_ratio": "16:9",
},
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
Gemini akan membuat gambar berdasarkan deskripsi Anda. Proses ini akan memakan waktu beberapa detik, tetapi mungkin lebih lambat bergantung pada kapasitas.
Pembuatan gambar yang disesuaikan dengan lokalitas
Gambar Gemini 2.5 Flash juga dapat menyertakan informasi tentang lokasi Anda saat memberikan respons teks atau gambar. Misalnya, Anda dapat membuat gambar jenis lokasi atau pengalaman yang memperhitungkan lokasi Anda saat ini tanpa harus menentukan lokasi Anda ke model untuk melakukannya.
Konsol
Untuk menggunakan pembuatan gambar yang mendukung lokalitas:
- Buka Vertex AI Studio > Create prompt.
-
Klik Ganti model, lalu pilih
gemini-2.5-flash-image
dari menu. - Di panel Output, pilih Gambar dan teks dari menu drop-down.
- Tulis deskripsi gambar yang ingin Anda buat di area teks Tulis perintah. Misalnya, "Buat foto sarapan biasa".
- Klik tombol Perintah ( ).
Gemini akan membuat respons berdasarkan deskripsi Anda. Proses ini akan memakan waktu beberapa detik, tetapi mungkin lebih lambat bergantung pada kapasitas.
Python
Instal
pip install --upgrade google-genai
Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.
Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Pelajari cara menginstal atau mengupdate Java.
Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.
Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Jalankan perintah berikut di terminal untuk membuat atau menimpa file ini di direktori saat ini:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Generate a photo of a typical breakfast."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
"image_config": {
"aspect_ratio": "16:9",
},
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
Gemini akan membuat gambar berdasarkan deskripsi Anda. Proses ini akan memakan waktu beberapa detik, tetapi mungkin lebih lambat bergantung pada kapasitas.