Diseña prompts multimodales

La API de Gemini en Vertex AI te permite incluir entradas multimodales, como texto, imágenes y video, como parte de tu instrucción para los modelos de Gemini. En esta página, se proporcionan prácticas recomendadas para diseñar prompts multimodales y se explica cómo solucionar problemas si tus prompts no funcionan según lo esperado. Para obtener orientación general sobre el diseño de instrucciones, consulta nuestras estrategias recomendadas de diseño de instrucciones o la siguiente lista de prácticas recomendadas específicas para el uso multimodal.

Conceptos básicos del diseño de instrucciones

Usa instrucciones específicas

Los prompts claros y detallados proporcionan los mejores resultados. Si tienes un resultado específico en mente, incluye ese requisito en el prompt para aumentar las probabilidades de obtener el resultado correcto.

Incluso cuando un prompt le parece claro a la persona que lo escribió, es posible que no esté lo suficientemente especificado. Para personalizar el comportamiento del modelo, considera cómo se podría interpretar tu instrucción y asegúrate de que las instrucciones que proporciones sean específicas y claras.

Si incluiste la imagen de un panel de aeropuerto que se muestra a continuación como parte de tu instrucción, pedirle al modelo que simplemente “describa esta imagen” podría generar una descripción general. Si necesitas que el modelo analice la hora y la ciudad desde la imagen, incluye esa solicitud directamente en el prompt.

Instrucción Respuesta del modelo
Un panel de horarios de aeropuerto con horas y ciudades.

Describe esta imagen.

En la imagen, se muestra el panel de llegadas y salidas de un aeropuerto.

Prompt actualizado Respuesta mejorada
Un panel de horarios de aeropuerto con horas y ciudades.

Analiza la hora y la ciudad del panel de aeropuerto que se muestra en esta imagen y crea una lista con esos datos.

  • 10:50 Moscú
  • 11:05 Edimburgo
  • 11:05 Londres
  • 11:10 Bucarest
  • 11:30 Kiev
  • 11:35 Dublín
  • 11:45 Midlands del Este
  • 12:15 Sofía
  • 12:30 Londres
  • 12:30 Newcastle
  • 12:40 San Petersburgo
  • 12:40 Londres
  • 12:45 Mánchester

Agregar ejemplos

El modelo puede aceptar varias entradas para usarlas como ejemplos y comprender el resultado que deseas. Agregar estos ejemplos puede ayudar a que el modelo identifique los patrones y aplique la relación entre las imágenes y respuestas proporcionadas al ejemplo nuevo. Esto se denomina aprendizaje con pocos ejemplos.

En el siguiente ejemplo, el resultado inicial es una oración completa que también contiene el país (Brasil). Si el resultado preferido es solo la ciudad, no el país, agregar ejemplos de pocas tomas a tu instrucción puede guiar al modelo para que responda en ese formato.

Instrucción Respuesta del modelo
La estatua del Cristo Redentor en Río de Janeiro, Brasil.

Determina la ciudad junto con el punto de referencia.

El punto de referencia es la estatua del Cristo Redentor de Río de Janeiro, Brasil.

Prompt actualizado Respuesta mejorada

Determina la ciudad junto con el punto de referencia.

El Coliseo en Roma, Italia.

ciudad: Roma, punto de referencia: el Coliseo.

La Ciudad Prohibida en Pekín, China.

ciudad: Beijing, punto de referencia: la Ciudad Prohibida

La estatua del Cristo Redentor en Río de Janeiro, Brasil.

ciudad: Río de Janeiro, punto de referencia: estatua del Cristo Redentor

Divide las tareas complejas en tareas más pequeñas

Para tareas complejas, como las que requieren comprensión visual y razonamiento, divide la tarea en pasos más pequeños y sencillos, o bien pídele directamente al modelo que piense paso a paso en la instrucción.

Instrucción Respuesta del modelo
Una imagen de tres rollos de papel higiénico.

¿Cuándo se me acabará el papel higiénico?

Pronto, solo te quedan 3 rollos.

Prompt actualizado Respuesta mejorada
Una imagen de tres rollos de papel higiénico.
  1. Primero, cuenta cuántos rollos de papel higiénico hay en esta imagen.
  2. Luego, determina cuánto papel higiénico usa una persona común por día.
  3. Calcula cuánto durarán estos rollos de papel higiénico.
  1. En esta imagen, hay 3 rollos de papel higiénico.
  2. Una persona común usa alrededor de 20 hojas de papel higiénico por día.
  3. Si cada rollo contiene 200 hojas, cada uno durará alrededor de 10 días. Por lo tanto, los 3 rollos durarán aproximadamente un mes.

Los problemas matemáticos y otros tipos de problemas de palabras también se pueden dividir en tareas más pequeñas.

Instrucción Respuesta
Una imagen de la secuencia matemática b. b(1) = 15 y b(n) = b(n-1) * (-3).

¿Cuál es el 4º término de la secuencia?

-135

La respuesta del modelo es incorrecta. Intenta pedirle al modelo que analice el problema antes de responder la instrucción.

Instrucción Respuesta
Una imagen de la secuencia matemática b. b(1) = 15 y b(n) = b(n-1) * (-3).

Analiza primero la fórmula de la imagen.

Luego, en función de la fórmula, responde “¿Cuál es el cuarto término de la secuencia?”.

Haz clic para expandir el resultado $$b(n) = b(n-1) * (-3)$$ $$b(1) = 15$$
  1. Sustituye n = 4 en la fórmula:

    $$b(4) = b(4-1) * (-3)$$

    $$b(4) = b(3) * (-3)$$

  2. No sabemos el valor de b(3), así que sustituye n = 3 en la fórmula:

    $$b(3) = b(3-1) * (-3)$$

    $$b(3) = b(2) * (-3)$$

  3. No sabemos el valor de b(2), así que sustituye n = 2 en la fórmula:

    $$b(2) = b(2-1) * (-3)$$

    $$b(2) = b(1) * (-3)$$

  4. Sabemos que el valor de b(1) es 15, por lo que debes sustituirlo en la fórmula:

    $$b(2) = 15 * (-3)$$

    $$b(2) = -45$$

  5. Ahora que conocemos el valor de b(2), reemplázalo por b(3) en la fórmula:

    $$b(3) = b(2) * (-3)$$

    $$b(3) = -45 * (-3)$$

    $$b(3) = 135$$

  6. Ahora que conocemos el valor de b(3), reemplázalo en la fórmula por b(4):

    $$b(4) = b(3) * (-3)$$

    $$b(4) = 135 * (-3)$$

    $$b(4) = -405$$

Por lo tanto, el cuarto término de la secuencia es -405.

Para que la respuesta sea aún más optimizada, puedes pedirle al modelo que piense paso a paso en la instrucción.

Prompt actualizado Respuesta mejorada
Una imagen de la secuencia matemática b. b(1) = 15 y b(n) = b(n-1) * (-3).

¿Cuál es el 4º término de la secuencia? Piensa paso a paso.

El primer término es 15.

El segundo término es b(1) * (-3) = 15 * (-3) = -45.

El tercer término es b(2) * (-3) = -45 * (-3) = 135.

El cuarto término es b(3) * (-3) = 135 * (-3) = -405.

Especifica el formato del resultado

Cuando se requiere un formato determinado, puedes indicarle al modelo que lo use para su resultado.

Instrucción Respuesta del modelo
Imagen de una hoja de cálculo en Excel.

Analiza la tabla en esta imagen en formato Markdown

| Subject   | Status      | Time    | Start date | Due on     |
|-----------|-------------|---------|------------|------------|
| Math      | Done        | 1.5 hrs | 11/29/2023 | 12/1/2023  |
| Geography | Done        | 30 min  | 12/2/2023  | 12/4/2023  |
| Physics   | In progress | 2 hrs   | 12/3/2023  | 12/5/2023  |
| Biology   | Not started | 6 hrs   | 11/2/2016  | 12/6/2023  |
        
Instrucción Respuesta del modelo
Una foto de una comida con camarones, almejas y otros ingredientes.

Proporciona una lista de todos los atributos siguientes:

ingredientes, tipo de cocina, vegetariano o no, en formato JSON


        {
          "ingredients": [
            "rice",
            "shrimp",
            "clams",
            "mussels",
            "peas",
            "tomatoes",
            "onions",
            "garlic",
            "olive oil",
            "paprika",
            "salt",
            "pepper"
          ],
          "type of cuisine": "Spanish",
          "vegetarian": false
        }
        

Soluciona problemas de una instrucción multimodal

La solución de problemas de una instrucción puede implicar mejorar el lenguaje de la instrucción, dirigir su enfoque o ajustar los parámetros. Estos diferentes enfoques pueden generar mejores resultados, en especial después de determinar la causa raíz del problema.

Cómo enfocarse en la parte relevante de una imagen

Para mejorar la respuesta, indica qué partes de la imagen son más relevantes para la instrucción.

Instrucción Respuesta del modelo
Una foto del costado de una caja de pañales; el número 198 está escrito en la caja.

¿Cuántos días durarán estos pañales para un bebé?

Los pañales se acabarán en 198 días.

Prompt actualizado Respuesta mejorada
Una foto del costado de una caja de pañales; el número 198 está escrito en la caja.

¿Cuánto durarán estos pañales antes de acabarse?

Usa el peso que se muestra en la caja para determinar la edad del bebé y usa la cantidad total de pañales que aparece en la caja.

Divide la cantidad total por la cantidad de pañales que el bebé usa en un día.

La caja contiene 198 pañales. La caja indica que los pañales son para niños que pesan entre 10 y 17 kg.

Es probable que el niño promedio de este rango de peso tenga entre 1 y 2 años.

Por lo general, un niño de 2 años usa 6 pañales por día. Por lo tanto, durarán aproximadamente 33 días (198/6).

Adapta la respuesta del modelo a la entrada

Pídele al modelo que describa las imágenes antes de realizar la tarea en la instrucción.

Instrucción Respuesta del modelo
Imagen de una persona empacando una maleta. Una foto de un pasillo vacío en un centro comercial. Una imagen de tres rollos de papel higiénico. Una foto de nubes oscuras que se disipan sobre el mar.

¿Qué tienen en común estas imágenes?

Las cuatro imágenes son ejemplos de fotografías horizontales.

Prompt actualizado Respuesta mejorada
Imagen de una persona empacando una maleta. Una foto de un pasillo vacío en un centro comercial. Una imagen de tres rollos de papel higiénico. Una foto de nubes oscuras que se disipan sobre el mar.

Primero, describe el contenido de cada imagen en detalle. ¿Qué tienen en común estas imágenes?

En la primera imagen, se muestra a una persona empacando una maleta. La segunda imagen muestra un pasillo vacío en un centro comercial. La tercera imagen muestra un rollo de papel higiénico. La cuarta imagen muestra un mar oscuro y tormentoso.

La común entre estas imágenes es que todos son ejemplos de espacios liminales. Los espacios liminales son lugares o situaciones que se encuentran entre otros dos lugares o situaciones. A menudo, se caracterizan por un sentido de incertidumbre o ambigüedad.

La primera imagen muestra a la persona entre estar en casa y estar de viaje. La segunda imagen muestra el pasillo entre dos tiendas. La tercera imagen es de papel higiénico, que puede representar un baño. Un baño es un espacio de transición entre el ámbito privado y el público. Es un lugar donde nos preparamos para ir al mundo exterior o para dejarlo.

En la cuarta imagen, se muestra el mar entre la calma y la tormenta.

Los espacios liminales pueden ser emocionantes e inquietantes. Pueden ser un lugar de nuevos comienzos o de finales. Pueden ser un lugar de reflexión o un lugar de acción.

Puedes pedirle explícitamente al modelo que haga referencia a lo que hay en la imagen.

Prompt actualizado Respuesta mejorada
Imagen de una persona empacando una maleta. Una foto de un pasillo vacío en un centro comercial. Una imagen de tres rollos de papel higiénico. Una foto de nubes oscuras que se disipan sobre el mar.

¿Qué tienen en común estas imágenes? Consulta el contenido de las imágenes en tu respuesta.

Todas las imágenes están relacionadas con viajes. La primera imagen muestra a una persona empacando una maleta; la segunda, un pasillo vacío en un centro comercial; la tercera imagen, una pila de papel higiénico, y la cuarta imagen, un mar oscuro y tormentoso.

Todas estas imágenes están relacionadas con viajes porque son todo lo que las personas necesitan o usan cuando viajan. La primera imagen muestra a una persona empacando una maleta, que es algo que hacen las personas cuando viajan. La segunda imagen muestra un pasillo vacío en un centro comercial, que es un lugar donde las personas suelen ir a comprar artículos para sus viajes. La tercera imagen muestra una pila de papel higiénico, algo que la gente suele usar cuando viaja. La cuarta imagen muestra un mar oscuro y tormentoso, algo que las personas suelen encontrar cuando viajan.

Las mismas sugerencias funcionan para obtener un resultado creativo. Pídele explícitamente al modelo que incluya aspectos de la imagen, ya que esto puede mejorar el resultado.

Instrucción Respuesta del modelo
Una imagen de un conejo marrón.

¿Puedes escribirme un poema sobre esta imagen?

Little bunny, so soft and brown,
        Hopping through the field, up and down.
        Your ears so long, your tail so small,
        You're the cutest creature of them all.
You nibble on the grass, so green and sweet,
        And hop away when you see me.
        But I'll always be your friend,
        Little bunny, until the very end.
Prompt actualizado Respuesta mejorada
Una imagen de un conejo marrón.

¿Puedes escribirme un poema descriptivo y dramático sobre esta imagen y también incluir la ubicación?

Little bunny on the green,
        Ears so long, so keen.
        What do you see out there,
        In the distance, where you stare?
Is it the ocean blue,
        Sparkling in the sun's hue?
        Or the waves that crash and roar,
        A rhythm that you adore?
Little bunny, tell me true,
        What captures your attention so?
        Is it the salty breeze,
        Or the seagulls' cries that please?
Perhaps it's the vastness of it all,
        A world so big and small.
        A place where dreams can roam,
        And adventures can be sown.
Little bunny, I wonder what you dream,
        As you sit on the grass, so serene.
        Do you yearn to explore the deep,
        Or stay on land, where you can leap?
Whatever it may be, little bunny,
        Keep that spark of wonder burning brightly.
        For in your dreams and aspirations,
        Lies a world waiting for your creation.

Determina cómo falló la instrucción

Una instrucción puede fallar porque el modelo no entendió la imagen en absoluto o porque no realizó los pasos de razonamiento correctos después. Para distinguir los motivos, pídele al modelo que describa el contenido de la imagen.

En este ejemplo, si el modelo responde con un bocadillo que parece extraño en combinación con el té (p. ej., palomitas de maíz), primero determina si el modelo reconoció que la imagen contiene té.

Instrucción Prompt para solucionar problemas
Una imagen de un juego de té.

¿Qué bocadillo puedo preparar en 1 minuto que combine bien con esto?

Una imagen de un juego de té.

Describe el contenido de esta imagen.

Pedirle al modelo que explique su razonamiento puede ayudarte a identificar qué parte del razonamiento falló, si la hubiera.

Instrucción Prompt para solucionar problemas
Una imagen de un juego de té.

¿Qué bocadillo puedo preparar en 1 minuto que combine bien con esto?

Una imagen de un juego de té.

¿Qué bocadillo puedo preparar en 1 minuto que combine bien con esto? Explica por qué.

Ajusta los parámetros de muestreo

En cada solicitud, envías no solo la instrucción multimodal, sino también un conjunto de parámetros de muestreo al modelo. El modelo puede generar resultados diferentes para los valores de parámetros diferentes. Experimenta con los diferentes parámetros para obtener los mejores valores para la tarea. Los parámetros que se ajustan con mayor frecuencia son los siguientes:

Temperatura

La temperatura se utiliza para el muestreo durante la generación de la respuesta, que ocurre cuando se aplican Top-P y Top-K. La temperatura controla el grado de aleatoriedad en la selección de tokens. Las temperaturas más bajas son buenas para las instrucciones que requieren una respuesta más determinística y menos abierta o creativa, mientras que las temperaturas más altas pueden generar resultados más diversos o creativos. Una temperatura de 0 es determinística, lo que significa que es más probable que se elija la respuesta de mayor probabilidad.

Para la mayoría de los casos de uso, comienza con una temperatura de 0.4. Si necesitas resultados más creativos, aumenta la temperatura. Si observas alucinaciones claras, reduce la temperatura.

Top-P

Top-P cambia la manera en la que el modelo selecciona los tokens para el resultado. Los tokens se seleccionan del más probable al menos probable hasta que la suma de sus probabilidades sea igual al valor de Top-P. Por ejemplo, si los tokens A, B y C tienen una probabilidad de 0.6, 0.3 y 0.1, y el valor Top-P es 0.9, el modelo elegirá A o B como el siguiente token usando la temperatura y excluirá a C como candidato.

Especifica un valor más bajo para respuestas menos aleatorias y un valor más alto para respuestas más aleatorias. El valor predeterminado de Top-P es 1.0.

¿Qué sigue?