Se usó la API de Cloud Translation para traducir esta página.

Genera y edita imágenes con Gemini

Precaución: Los modelos gemini-2.0-flash-preview-image-generation y gemini-2.5-flash-image-preview se retirarán el 31 de octubre de 2025. Migra todos los flujos de trabajo a gemini-2.5-flash-image antes de esa fecha para evitar interrupciones del servicio.

Los siguientes modelos de Gemini admiten la capacidad de generar imágenes además de texto:

Gemini 2.5 Flash Image, también conocido como Gemini 2.5 Flash (con Nano Banana)
Gemini 3 Pro Image (versión preliminar), también conocido como Gemini 3 Pro (con Nano Banana)

Esto expande las capacidades de Gemini para incluir lo siguiente:

Genera imágenes de forma iterativa a través de conversaciones en lenguaje natural y ajusta las imágenes manteniendo la coherencia y el contexto.
Genera imágenes con renderización de texto largo de alta calidad.
Genera una salida intercalada de texto e imagen. Por ejemplo, una entrada de blog con texto e imágenes en un solo turno. Anteriormente, esto requería encadenar varios modelos.
Generar imágenes con el conocimiento del mundo y las capacidades de razonamiento de Gemini

Gemini 2.5 Flash Image (gemini-2.5-flash-image) y la versión preliminar de Gemini 3 Pro Image (gemini-3-pro-image-preview) admiten la generación de imágenes de personas y contienen filtros de seguridad actualizados que brindan una experiencia del usuario más flexible y menos restrictiva. Gemini 2.5 Flash Image puede generar imágenes en 1,024 px. Gemini 3 Pro Image puede generar imágenes de hasta 4096 px.

Ambos modelos admiten las siguientes modalidades y capacidades:

Texto a imagen
- Ejemplo de instrucción: "Genera una imagen de la Torre Eiffel con fuegos artificiales en el fondo".
Texto a imagen (renderización de texto)
- Ejemplo de instrucción: "Genera una foto cinematográfica de un edificio grande con esta proyección de texto gigante asignada en el frente del edificio: "Gemini 3 ahora puede generar texto de formato largo"".
Texto a imagen(es) y texto (intercalado)
- Ejemplo de instrucción: "Genera una receta ilustrada de paella. Crea imágenes junto con el texto a medida que generas la receta".
- Ejemplo de instrucción: "Genera una historia sobre un perro en un estilo de animación de dibujos animados en 3D. Para cada escena, genera una imagen".
Imágenes y texto a imágenes y texto (intercalado)
- Ejemplo de instrucción: (Con una imagen de una habitación amueblada) "¿Qué otros colores de sofás combinarían con mi espacio? ¿Puedes actualizar la imagen?"

Prácticas recomendadas

Para mejorar los resultados de la generación de imágenes, sigue estas prácticas recomendadas:

Sé específico: Cuantos más detalles brindes, más control tendrás. Por ejemplo, en lugar de "armadura de fantasía", prueba con "armadura de placas élfica ornamentada, grabada con patrones de hojas de plata, con un cuello alto y hombreras con forma de alas de halcón".
Proporciona contexto y la intención: Explica el propósito de la imagen para ayudar al modelo a comprender el contexto. Por ejemplo, "Crea un logotipo para una marca de cuidado de la piel minimalista y de alta gama" funciona mejor que "Crea un logotipo".
Itera y define mejor: No esperes obtener una imagen perfecta en el primer intento. Usa instrucciones de seguimiento para realizar pequeños cambios, por ejemplo, "Haz que la iluminación sea más cálida" o "Haz que la expresión del personaje sea más seria".
Usa instrucciones paso a paso: Para escenas complejas, divide tu solicitud en pasos. Por ejemplo, "Primero, crea un fondo de un bosque sereno y brumoso al amanecer. Luego, en primer plano, agrega un antiguo altar de piedra cubierto de musgo. Por último, coloca una sola espada brillante sobre el altar".
Describe lo que quieres, no lo que no quieres: En lugar de decir "sin autos", describe la escena de forma positiva diciendo "una calle vacía y desierta sin señales de tráfico".
Controlar la cámara: Guía la vista de la cámara. Usa términos fotográficos y cinematográficos para describir la composición, por ejemplo, "toma gran angular", "toma macro" o "perspectiva de ángulo bajo".
Instrucciones para generar imágenes: Describe la intención con frases como "crea una imagen de" o "genera una imagen de". De lo contrario, el modelo multimodal podría responder con texto en lugar de la imagen.
Pasa Firmas de pensamiento: Cuando uses Gemini 3 Pro Image, te recomendamos que pases firmas de pensamiento al modelo durante la creación y edición de imágenes en varios turnos. Esto te permite conservar el contexto del razonamiento en las interacciones. Para ver muestras de código relacionadas con la edición de imágenes de varios turnos con Gemini 3 Pro Image, consulta Ejemplo de edición de imágenes de varios turnos con firmas de pensamiento.

Limitaciones:

Para obtener el mejor rendimiento con Gemini 2.5 Flash Image, usa los siguientes idiomas: EN, es-MX, ja-JP, zh-CN o hi-IN. Para obtener el mejor rendimiento con Gemini 3 Pro Image, usa los siguientes idiomas: ar-EG, de-DE, EN, es-MX, fr-FR, hi-IN, id-ID, it-IT, ja-JP, ko-KR, pt-BR, ru-RU, ua-UA, vi-VN y zh-CN.
La generación de imágenes no admite entradas de audio ni video.
Es posible que el modelo no cree la cantidad exacta de imágenes que solicitaste.
Para obtener los mejores resultados con Gemini 2.5 Flash Image, incluye un máximo de tres imágenes en una entrada. Para obtener los mejores resultados con Gemini 3 Pro Image, incluye un máximo de 14 imágenes en una entrada.
Cuando generes una imagen que contenga texto, primero genera el texto y, luego, genera una imagen con ese texto.
Es posible que la generación de imágenes o texto no funcione según lo esperado en las siguientes situaciones:
- Si la instrucción es ambigua, es posible que el modelo solo cree texto y no imágenes. Si quieres imágenes, pídelas claramente en tu solicitud. Por ejemplo, "proporciona imágenes a medida que avanzas".
- El modelo podría crear texto como una imagen. Para generar texto, pide específicamente una salida de texto. Por ejemplo, "genera texto narrativo junto con ilustraciones".
- El modelo podría dejar de generar contenido incluso cuando no haya terminado. Si esto sucede, vuelve a intentarlo o usa una instrucción diferente.
- Si una instrucción es potencialmente insegura, es posible que el modelo no procese la solicitud y muestre una respuesta que indique que no puede crear imágenes inseguras. En este caso, el FinishReason es STOP.

Generar imágenes

En las siguientes secciones, se explica cómo generar imágenes con Vertex AI Studio o la API.

Para obtener orientación y conocer las prácticas recomendadas para crear instrucciones, consulta Diseña instrucciones multimodales.

Console

Para usar la generación de imágenes, sigue estos pasos:

Abre Vertex AI Studio > Crear instrucción.
Haz clic en Cambiar modelo y selecciona uno de los siguientes modelos en el menú:
- gemini-2.5-flash-image
- gemini-3-pro-image-preview
En el panel Salidas, selecciona Imagen y texto en el menú desplegable.
Escribe una descripción de la imagen que quieres generar en el área de texto de Escribe una instrucción.
Haz clic en el botón Instrucción ().

Gemini generará una imagen según tu descripción. Este proceso tarda unos segundos, pero puede ser comparativamente más lento según la capacidad.

Python

Instalar

pip install --upgrade google-genai

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import GenerateContentConfig, Modality
from PIL import Image
from io import BytesIO

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=("Generate an image of the Eiffel tower with fireworks in the background."),
    config=GenerateContentConfig(
        response_modalities=[Modality.TEXT, Modality.IMAGE],
    ),
)
for part in response.candidates[0].content.parts:
    if part.text:
        print(part.text)
    elif part.inline_data:
        image = Image.open(BytesIO((part.inline_data.data)))
        image.save("output_folder/example-image-eiffel-tower.png")

Node.js

Instalar

npm install @google/genai

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const fs = require('fs');
const {GoogleGenAI, Modality} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION =
  process.env.GOOGLE_CLOUD_LOCATION || 'us-central1';

async function generateImage(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
  });

  const response = await client.models.generateContentStream({
    model: 'gemini-2.5-flash-image',
    contents:
      'Generate an image of the Eiffel tower with fireworks in the background.',
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });

  const generatedFileNames = [];
  let imageIndex = 0;

  for await (const chunk of response) {
    const text = chunk.text;
    const data = chunk.data;
    if (text) {
      console.debug(text);
    } else if (data) {
      const outputDir = 'output-folder';
      if (!fs.existsSync(outputDir)) {
        fs.mkdirSync(outputDir, {recursive: true});
      }
      const fileName = `${outputDir}/generate_content_streaming_image_${imageIndex++}.png`;
      console.debug(`Writing response image to file: ${fileName}.`);
      try {
        fs.writeFileSync(fileName, data);
        generatedFileNames.push(fileName);
      } catch (error) {
        console.error(`Failed to write image file ${fileName}:`, error);
      }
    }
  }

  // Example response:
  //  I will generate an image of the Eiffel Tower at night, with a vibrant display of
  //  colorful fireworks exploding in the dark sky behind it. The tower will be
  //  illuminated, standing tall as the focal point of the scene, with the bursts of
  //  light from the fireworks creating a festive atmosphere.

  return generatedFileNames;
}

Java

Obtén más información para instalar o actualizar Java.

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.Blob;
import com.google.genai.types.Candidate;
import com.google.genai.types.Content;
import com.google.genai.types.GenerateContentConfig;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.Part;
import com.google.genai.types.SafetySetting;
import java.awt.image.BufferedImage;
import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import javax.imageio.ImageIO;

public class ImageGenMmFlashWithText {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash-image";
    String outputFile = "resources/output/example-image-eiffel-tower.png";
    generateContent(modelId, outputFile);
  }

  // Generates an image with text input
  public static void generateContent(String modelId, String outputFile) throws IOException {
    // Client Initialization. Once created, it can be reused for multiple requests.
    try (Client client = Client.builder().location("global").vertexAI(true).build()) {

      GenerateContentConfig contentConfig =
          GenerateContentConfig.builder()
              .responseModalities("TEXT", "IMAGE")
              .candidateCount(1)
              .safetySettings(
                  SafetySetting.builder()
                      .method("PROBABILITY")
                      .category("HARM_CATEGORY_DANGEROUS_CONTENT")
                      .threshold("BLOCK_MEDIUM_AND_ABOVE")
                      .build())
              .build();

      GenerateContentResponse response =
          client.models.generateContent(
              modelId,
              "Generate an image of the Eiffel tower with fireworks in the background.",
              contentConfig);

      // Get parts of the response
      List<Part> parts =
          response
              .candidates()
              .flatMap(candidates -> candidates.stream().findFirst())
              .flatMap(Candidate::content)
              .flatMap(Content::parts)
              .orElse(new ArrayList<>());

      // For each part print text if present, otherwise read image data if present and
      // write it to the output file
      for (Part part : parts) {
        if (part.text().isPresent()) {
          System.out.println(part.text().get());
        } else if (part.inlineData().flatMap(Blob::data).isPresent()) {
          BufferedImage image =
              ImageIO.read(new ByteArrayInputStream(part.inlineData().flatMap(Blob::data).get()));
          ImageIO.write(image, "png", new File(outputFile));
        }
      }

      System.out.println("Content written to: " + outputFile);
      // Example response:
      // Here is the Eiffel Tower with fireworks in the background...
      //
      // Content written to: resources/output/example-image-eiffel-tower.png
    }
  }
}

REST

Ejecuta el siguiente comando en la terminal para crear o reemplazar este archivo en el directorio actual:

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  https://${API_ENDPOINT}:generateContent \
  -d '{
    "contents": {
      "role": "USER",
      "parts": [
        {
          "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps."
        }
      ]
    },
    "generationConfig": {
      "responseModalities": ["TEXT", "IMAGE"],
      "imageConfig": {
        "aspectRatio": "16:9",
      },
     },
     "safetySettings": {
      "method": "PROBABILITY",
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    },
  }' 2>/dev/null >response.json

Nota: Gemini 2.5 Flash Image admite las siguientes relaciones de aspecto: 1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9 y 21:9.

Gemini generará una imagen según tu descripción. Este proceso tarda unos segundos, pero puede ser comparativamente más lento según la capacidad.

Genera imágenes y texto intercalados

Gemini 2.5 Flash Image puede generar imágenes intercaladas con sus respuestas de texto. Por ejemplo, puedes generar imágenes de cómo se vería cada paso de una receta generada para acompañar el texto de ese paso, sin tener que hacer solicitudes separadas al modelo para hacerlo.

Console

Para generar imágenes intercaladas con respuestas de texto, sigue estos pasos:

Abre Vertex AI Studio > Crear instrucción.
Haz clic en Cambiar modelo y selecciona uno de los siguientes modelos en el menú:
- gemini-2.5-flash-image
- gemini-3-pro-image-preview
En el panel Salidas, selecciona Imagen y texto en el menú desplegable.
Escribe una descripción de la imagen que quieres generar en el área de texto de Escribe una instrucción. Por ejemplo, "Crea un instructivo en el que se explique cómo hacer un sándwich de mantequilla de maní y mermelada en tres pasos sencillos. Para cada paso, proporciona un título con el número del paso, una explicación y también genera una imagen en una relación de aspecto de 1:1".
Haz clic en el botón Instrucción ().

Gemini generará una respuesta basada en tu descripción. Este proceso tarda unos segundos, pero puede ser comparativamente más lento según la capacidad.

Python

Instalar

pip install --upgrade google-genai

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import GenerateContentConfig, Modality
from PIL import Image
from io import BytesIO

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=(
        "Generate an illustrated recipe for a paella."
        "Create images to go alongside the text as you generate the recipe"
    ),
    config=GenerateContentConfig(response_modalities=[Modality.TEXT, Modality.IMAGE]),
)
with open("output_folder/paella-recipe.md", "w") as fp:
    for i, part in enumerate(response.candidates[0].content.parts):
        if part.text is not None:
            fp.write(part.text)
        elif part.inline_data is not None:
            image = Image.open(BytesIO((part.inline_data.data)))
            image.save(f"output_folder/example-image-{i+1}.png")
            fp.write(f"![image](example-image-{i+1}.png)")

Java

Obtén más información para instalar o actualizar Java.

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.Blob;
import com.google.genai.types.Candidate;
import com.google.genai.types.Content;
import com.google.genai.types.GenerateContentConfig;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.Part;
import java.awt.image.BufferedImage;
import java.io.BufferedWriter;
import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import javax.imageio.ImageIO;

public class ImageGenMmFlashTextAndImageWithText {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash-image";
    String outputFile = "resources/output/paella-recipe.md";
    generateContent(modelId, outputFile);
  }

  // Generates text and image with text input
  public static void generateContent(String modelId, String outputFile) throws IOException {
    // Client Initialization. Once created, it can be reused for multiple requests.
    try (Client client = Client.builder().location("global").vertexAI(true).build()) {

      GenerateContentResponse response =
          client.models.generateContent(
              modelId,
              Content.fromParts(
                  Part.fromText("Generate an illustrated recipe for a paella."),
                  Part.fromText(
                      "Create images to go alongside the text as you generate the recipe.")),
              GenerateContentConfig.builder().responseModalities("TEXT", "IMAGE").build());

      try (BufferedWriter writer = new BufferedWriter(new FileWriter(outputFile))) {

        // Get parts of the response
        List<Part> parts =
            response
                .candidates()
                .flatMap(candidates -> candidates.stream().findFirst())
                .flatMap(Candidate::content)
                .flatMap(Content::parts)
                .orElse(new ArrayList<>());

        int index = 1;
        // For each part print text if present, otherwise read image data if present and
        // write it to the output file
        for (Part part : parts) {
          if (part.text().isPresent()) {
            writer.write(part.text().get());
          } else if (part.inlineData().flatMap(Blob::data).isPresent()) {
            BufferedImage image =
                ImageIO.read(new ByteArrayInputStream(part.inlineData().flatMap(Blob::data).get()));
            ImageIO.write(
                image, "png", new File("resources/output/example-image-" + index + ".png"));
            writer.write("![image](example-image-" + index + ".png)");
          }
          index++;
        }

        System.out.println("Content written to: " + outputFile);

        // Example response:
        // A markdown page for a Paella recipe(`paella-recipe.md`) has been generated.
        // It includes detailed steps and several images illustrating the cooking process.
        //
        // Content written to:  resources/output/paella-recipe.md
      }
    }
  }
}

REST

Ejecuta el siguiente comando en la terminal para crear o reemplazar este archivo en el directorio actual:

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  https://${API_ENDPOINT}:generateContent \
  -d '{
    "contents": {
      "role": "USER",
      "parts": [
        {
          "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps. For each step, provide a title with the number of the step, an explanation, and also generate an image, generate each image in a 1:1 aspect ratio."
        }
      ]
    },
    "generationConfig": {
      "responseModalities": ["TEXT", "IMAGE"],
      "imageConfig": {
        "aspectRatio": "16:9",
      },
    },
    "safetySettings": {
      "method": "PROBABILITY",
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    },
  }' 2>/dev/null >response.json

Nota: Gemini 2.5 Flash Image y Gemini 3 Pro Image admiten las siguientes relaciones de aspecto: 1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9 y 21:9.

Gemini generará una imagen según tu descripción. Este proceso tarda unos segundos, pero puede ser comparativamente más lento según la capacidad.

Edita imágenes

Gemini 2.5 Flash Image para la generación de imágenes (gemini-2.5-flash-image) admite la capacidad de editar imágenes además de generarlas. Gemini 2.5 Flash Image admite la edición mejorada de imágenes y la edición en varios turnos, y contiene filtros de seguridad actualizados que brindan una experiencia del usuario más flexible y menos restrictiva.

Admite las siguientes modalidades y capacidades:

Edición de imágenes (texto a imagen y de imagen a imagen)
- Ejemplo de instrucción: "Edita esta imagen para que parezca una caricatura".
- Ejemplo de instrucción: [Imagen de un gato] + [Imagen de una almohada] + "Crea un punto de cruz de mi gato en esta almohada".
Edición de imágenes de varios turnos (chat)
- Ejemplos de instrucciones: [Sube una imagen de un auto azul]. "Convierte este auto en un convertible".
  - [El modelo devuelve una imagen de un convertible en la misma escena] "Ahora cambia el color a amarillo".
  - [El modelo devuelve una imagen con un automóvil convertible amarillo] "Agrega un alerón".
  - [El modelo devuelve una imagen del convertible con un alerón]

Cómo editar una imagen

Console

Para editar imágenes, sigue estos pasos:

Abre Vertex AI Studio > Crear instrucción.
Haz clic en Cambiar modelo y selecciona uno de los siguientes modelos en el menú:
- gemini-2.5-flash-image
- gemini-3-pro-image-preview
En el panel Salidas, selecciona Imagen y texto en el menú desplegable.
Haz clic en Insertar medios () y selecciona una fuente en el menú. Luego, sigue las instrucciones del diálogo.
Escribe los cambios que quieres realizar en la imagen en el área de texto Escribe una instrucción.
Haz clic en el botón Instrucción ().

Gemini generará una versión editada de la imagen proporcionada según tu descripción. Este proceso tarda unos segundos, pero puede ser comparativamente más lento según la capacidad.

Python

Instalar

pip install --upgrade google-genai

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import GenerateContentConfig, Modality
from PIL import Image
from io import BytesIO

client = genai.Client()

# Using an image of Eiffel tower, with fireworks in the background.
image = Image.open("test_resources/example-image-eiffel-tower.png")

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=[image, "Edit this image to make it look like a cartoon."],
    config=GenerateContentConfig(response_modalities=[Modality.TEXT, Modality.IMAGE]),
)
for part in response.candidates[0].content.parts:
    if part.text:
        print(part.text)
    elif part.inline_data:
        image = Image.open(BytesIO((part.inline_data.data)))
        image.save("output_folder/bw-example-image.png")

Java

Obtén más información para instalar o actualizar Java.

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.Blob;
import com.google.genai.types.Candidate;
import com.google.genai.types.Content;
import com.google.genai.types.GenerateContentConfig;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.Part;
import java.awt.image.BufferedImage;
import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.ArrayList;
import java.util.List;
import javax.imageio.ImageIO;

public class ImageGenMmFlashEditImageWithTextAndImage {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash-image";
    String outputFile = "resources/output/bw-example-image.png";
    generateContent(modelId, outputFile);
  }

  // Edits an image with image and text input
  public static void generateContent(String modelId, String outputFile) throws IOException {
    // Client Initialization. Once created, it can be reused for multiple requests.
    try (Client client = Client.builder().location("global").vertexAI(true).build()) {

      byte[] localImageBytes =
          Files.readAllBytes(Paths.get("resources/example-image-eiffel-tower.png"));

      GenerateContentResponse response =
          client.models.generateContent(
              modelId,
              Content.fromParts(
                  Part.fromBytes(localImageBytes, "image/png"),
                  Part.fromText("Edit this image to make it look like a cartoon.")),
              GenerateContentConfig.builder().responseModalities("TEXT", "IMAGE").build());

      // Get parts of the response
      List<Part> parts =
          response
              .candidates()
              .flatMap(candidates -> candidates.stream().findFirst())
              .flatMap(Candidate::content)
              .flatMap(Content::parts)
              .orElse(new ArrayList<>());

      // For each part print text if present, otherwise read image data if present and
      // write it to the output file
      for (Part part : parts) {
        if (part.text().isPresent()) {
          System.out.println(part.text().get());
        } else if (part.inlineData().flatMap(Blob::data).isPresent()) {
          BufferedImage image =
              ImageIO.read(new ByteArrayInputStream(part.inlineData().flatMap(Blob::data).get()));
          ImageIO.write(image, "png", new File(outputFile));
        }
      }

      System.out.println("Content written to: " + outputFile);

      // Example response:
      // No problem! Here's the image in a cartoon style...
      //
      // Content written to: resources/output/bw-example-image.png
    }
  }
}

REST

Ejecuta el siguiente comando en la terminal para crear o reemplazar este archivo en el directorio actual:

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  https://${API_ENDPOINT}:generateContent \
  -d '{
    "contents": {
      "role": "USER",
      "parts": [
        {"fileData": {
          "mimeType": "image/jpg",
          "fileUri": "FILE_NAME"
          }
        },
        {"text": "Convert this photo to black and white, in a cartoonish style."},
      ]

    },
    "generationConfig": {
      "responseModalities": ["TEXT", "IMAGE"],
      "imageConfig": {
        "aspectRatio": "16:9",
      },
    },
    "safetySettings": {
      "method": "PROBABILITY",
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    },
  }' 2>/dev/null >response.json

Nota: Gemini 2.5 Flash Image admite las siguientes relaciones de aspecto: 1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9 y 21:9.

Gemini generará una imagen según tu descripción. Este proceso tarda unos segundos, pero puede ser comparativamente más lento según la capacidad.

Edición de imágenes de varios turnos

Las imágenes de Gemini 2.5 Flash Image y Gemini 3 Pro admiten la edición de varios turnos mejorada, lo que te permite responder al modelo con cambios después de recibir una respuesta de imagen editada. Esto te permite seguir editando la imagen de forma conversacional.

Ten en cuenta que se recomienda limitar el tamaño total del archivo de solicitud a un máximo de 50 MB.

Para probar la edición de imágenes en varios turnos, prueba los siguientes notebooks:

Para ver ejemplos de código relacionados con la creación y edición de imágenes de varios turnos con Gemini 3 Pro Image, consulta Ejemplo de edición de imágenes de varios turnos con firmas de pensamiento.

IA responsable

Para garantizar una experiencia segura y responsable, las capacidades de generación de imágenes de Vertex AI están equipadas con un enfoque de seguridad de varias capas. Esto está diseñado para evitar la creación de contenido inapropiado, como material sexual explícito, peligroso, violento, tóxico o que incita al odio.

Todos los usuarios deben cumplir con la Política de Uso Prohibido de IA Generativas. Esta política prohíbe estrictamente la generación de contenido que cumpla con las siguientes condiciones:

Se relaciona con la explotación o el abuso sexual infantil.
Facilita el extremismo violento o el terrorismo.
Facilita imágenes íntimas no consensuadas. Facilita la autolesión.
Es sexualmente explícito.
Constituye incitación al odio o a la violencia.
Promueve el hostigamiento o el bullying.

Cuando se le proporciona una instrucción no segura, es posible que el modelo se niegue a generar una imagen, o que nuestros filtros de seguridad bloqueen la instrucción o la respuesta generada.

Rechazo del modelo: Si una instrucción es potencialmente insegura, es posible que el modelo se niegue a procesar la solicitud. Si esto sucede, el modelo suele dar una respuesta de texto en la que indica que no puede generar imágenes no seguras. El FinishReason será STOP.
Bloqueo del filtro de seguridad:
- Si un filtro de seguridad identifica que la instrucción es potencialmente dañina, la API devuelve BlockedReason en PromptFeedback.
- Si un filtro de seguridad identifica la respuesta como potencialmente dañina, la respuesta de la API incluirá un FinishReason de IMAGE_SAFETY, IMAGE_PROHIBITED_CONTENT o similar.

Categorías de códigos de filtro de seguridad

Según los filtros de seguridad que configures, tu resultado puede contener un código de motivo de seguridad similar al siguiente:

    {
      "raiFilteredReason": "ERROR_MESSAGE. Support codes: 56562880"
    }

El código que se indica corresponde a una categoría dañina específica. Estas asignaciones de código a categorías son las siguientes:

Código de error	Categoría de seguridad	Descripción	Contenido filtrado: instrucción de entrada o imagen de salida
58061214 17301594	Secundario	Detecta contenido secundario en el que no se permite debido a la configuración de la solicitud a la API o a la lista de entidades permitidas.	entrada (instrucción): 58061214 salida (imagen): 17301594
29310472 15236754	Celebridad	Detecta una representación fotorrealista de una celebridad en la solicitud.	entrada (instrucción): 29310472 salida (imagen): 15236754
62263041	Contenido peligroso	Detecta el contenido que es potencialmente peligroso por naturaleza.	entrada (instrucción)
57734940 22137204	Odio	Detecta temas o contenido relacionados con el odio.	entrada (instrucción): 57734940 salida (imagen): 22137204
74803281 29578790 42876398	Otro	Detecta otros problemas de seguridad diversos con la solicitud.	entrada (instrucción): 42876398 salida (imagen): 29578790, 74803281
39322892	Personas/rostro	Detecta una persona o un rostro cuando no está permitido debido a la configuración de seguridad de la solicitud.	salida (imagen)
92201652	Información personal	Detecta información de identificación personal (PII) en el texto, como la mención de un número de tarjeta de crédito, direcciones particulares o demás información similar.	entrada (instrucción)
89371032 49114662 72817394	Contenido prohibido	Detecta la solicitud de contenido prohibido en la solicitud.	entrada (instrucción): 89371032 salida (imagen): 49114662, 72817394
90789179 63429089 43188360	Contenido sexual	Detecta contenido de naturaleza sexual.	entrada (instrucción): 90789179 salida (imagen): 63429089, 43188360
78610348	Tóxico	Detecta temas o contenido tóxico en el texto.	entrada (instrucción)
61493863 56562880	Violencia	Detecta contenido relacionado con la violencia en la imagen o el texto.	entrada (instrucción): 61493863 salida (imagen): 56562880
32635315	Vulgar	Detecta temas o contenido vulgar en el texto.	entrada (instrucción)
64151117	Celebridad o niño	Detecta representaciones fotorrealistas de celebridades o niños que incumplen las políticas de seguridad de Google.	entrada (instrucción) salida (imagen)

Genera y edita imágenes con Gemini Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Generar imágenes

Console

Python

Instalar

Node.js

Instalar

Java

REST

Genera imágenes y texto intercalados

Console

Python

Instalar

Java

REST

Edita imágenes

Cómo editar una imagen

Console

Python

Instalar

Java

REST

Edición de imágenes de varios turnos

IA responsable

Categorías de códigos de filtro de seguridad

Genera y edita imágenes con Gemini