La API de Gemini en Vertex AI te permite incluir entradas multimodales, como texto, imágenes y video, como parte de tu instrucción para los modelos de Gemini. En esta página, se proporcionan prácticas recomendadas para diseñar prompts multimodales y se explica cómo solucionar problemas si tus prompts no funcionan según lo esperado. Para obtener orientación general sobre el diseño de instrucciones, consulta nuestras estrategias recomendadas de diseño de instrucciones o la siguiente lista de prácticas recomendadas específicas para el uso multimodal.
Conceptos básicos del diseño de instrucciones
Usa instrucciones específicas
Los prompts claros y detallados proporcionan los mejores resultados. Si tienes un resultado específico en mente, incluye ese requisito en el prompt para aumentar las probabilidades de obtener el resultado correcto.
Incluso cuando un prompt le parece claro a la persona que lo escribió, es posible que no esté lo suficientemente especificado. Para personalizar el comportamiento del modelo, considera cómo se podría interpretar tu instrucción y asegúrate de que las instrucciones que proporciones sean específicas y claras.
Si incluiste la imagen de un panel de aeropuerto que se muestra a continuación como parte de tu instrucción, pedirle al modelo que simplemente “describa esta imagen” podría generar una descripción general. Si necesitas que el modelo analice la hora y la ciudad desde la imagen, incluye esa solicitud directamente en el prompt.
Instrucción | Respuesta del modelo |
---|---|
![]() Describe esta imagen. |
En la imagen, se muestra el panel de llegadas y salidas de un aeropuerto. |
Prompt actualizado | Respuesta mejorada |
---|---|
![]() Analiza la hora y la ciudad del panel de aeropuerto que se muestra en esta imagen y crea una lista con esos datos. |
|
Agregar ejemplos
El modelo puede aceptar varias entradas para usarlas como ejemplos y comprender el resultado que deseas. Agregar estos ejemplos puede ayudar a que el modelo identifique los patrones y aplique la relación entre las imágenes y respuestas proporcionadas al ejemplo nuevo. Esto se denomina aprendizaje con pocos ejemplos.
En el siguiente ejemplo, el resultado inicial es una oración completa que también contiene el país (Brasil). Si el resultado preferido es solo la ciudad, no el país, agregar ejemplos de pocas tomas a tu instrucción puede guiar al modelo para que responda en ese formato.
Instrucción | Respuesta del modelo |
---|---|
![]() Determina la ciudad junto con el punto de referencia. |
El punto de referencia es la estatua del Cristo Redentor de Río de Janeiro, Brasil. |
Prompt actualizado | Respuesta mejorada |
---|---|
Determina la ciudad junto con el punto de referencia. ![]() |
ciudad: Roma, punto de referencia: el Coliseo. |
![]() |
ciudad: Beijing, punto de referencia: la Ciudad Prohibida |
![]() |
ciudad: Río de Janeiro, punto de referencia: estatua del Cristo Redentor |
Divide las tareas complejas en tareas más pequeñas
Para tareas complejas, como las que requieren comprensión visual y razonamiento, divide la tarea en pasos más pequeños y sencillos, o bien pídele directamente al modelo que piense paso a paso en la instrucción.
Instrucción | Respuesta del modelo |
---|---|
![]() ¿Cuándo se me acabará el papel higiénico? |
Pronto, solo te quedan 3 rollos. |
Prompt actualizado | Respuesta mejorada |
---|---|
![]()
|
|
Los problemas matemáticos y otros tipos de problemas de palabras también se pueden dividir en tareas más pequeñas.
Instrucción | Respuesta |
---|---|
![]() ¿Cuál es el 4º término de la secuencia? |
-135 |
La respuesta del modelo es incorrecta. Intenta pedirle al modelo que analice el problema antes de responder la instrucción.
Instrucción | Respuesta |
---|---|
![]() Analiza primero la fórmula de la imagen. Luego, en función de la fórmula, responde “¿Cuál es el cuarto término de la secuencia?”. |
Haz clic para expandir el resultado$$b(n) = b(n-1) * (-3)$$ $$b(1) = 15$$
Por lo tanto, el cuarto término de la secuencia es -405. |
Para que la respuesta sea aún más optimizada, puedes pedirle al modelo que piense paso a paso en la instrucción.
Prompt actualizado | Respuesta mejorada |
---|---|
![]() ¿Cuál es el 4º término de la secuencia? Piensa paso a paso. |
El primer término es 15. El segundo término es b(1) * (-3) = 15 * (-3) = -45. El tercer término es b(2) * (-3) = -45 * (-3) = 135. El cuarto término es b(3) * (-3) = 135 * (-3) = -405. |
Especifica el formato del resultado
Cuando se requiere un formato determinado, puedes indicarle al modelo que lo use para su resultado.
Instrucción | Respuesta del modelo |
---|---|
![]() Analiza la tabla en esta imagen en formato Markdown |
| Subject | Status | Time | Start date | Due on | |-----------|-------------|---------|------------|------------| | Math | Done | 1.5 hrs | 11/29/2023 | 12/1/2023 | | Geography | Done | 30 min | 12/2/2023 | 12/4/2023 | | Physics | In progress | 2 hrs | 12/3/2023 | 12/5/2023 | | Biology | Not started | 6 hrs | 11/2/2016 | 12/6/2023 | |
Instrucción | Respuesta del modelo |
---|---|
![]() Proporciona una lista de todos los atributos siguientes: ingredientes, tipo de cocina, vegetariano o no, en formato JSON |
|
Soluciona problemas de una instrucción multimodal
La solución de problemas de una instrucción puede implicar mejorar el lenguaje de la instrucción, dirigir su enfoque o ajustar los parámetros. Estos diferentes enfoques pueden generar mejores resultados, en especial después de determinar la causa raíz del problema.
Cómo enfocarse en la parte relevante de una imagen
Para mejorar la respuesta, indica qué partes de la imagen son más relevantes para la instrucción.
Instrucción | Respuesta del modelo |
---|---|
![]() ¿Cuántos días durarán estos pañales para un bebé? |
Los pañales se acabarán en 198 días. |
Prompt actualizado | Respuesta mejorada |
---|---|
![]() ¿Cuánto durarán estos pañales antes de acabarse? Usa el peso que se muestra en la caja para determinar la edad del bebé y usa la cantidad total de pañales que aparece en la caja. Divide la cantidad total por la cantidad de pañales que el bebé usa en un día. |
La caja contiene 198 pañales. La caja indica que los pañales son para niños que pesan entre 10 y 17 kg. Es probable que el niño promedio de este rango de peso tenga entre 1 y 2 años. Por lo general, un niño de 2 años usa 6 pañales por día. Por lo tanto, durarán aproximadamente 33 días (198/6). |
Adapta la respuesta del modelo a la entrada
Pídele al modelo que describa las imágenes antes de realizar la tarea en la instrucción.
Instrucción | Respuesta del modelo |
---|---|
![]() ![]() ![]() ![]() ¿Qué tienen en común estas imágenes? |
Las cuatro imágenes son ejemplos de fotografías horizontales. |
Prompt actualizado | Respuesta mejorada |
---|---|
![]() ![]() ![]() ![]() Primero, describe el contenido de cada imagen en detalle. ¿Qué tienen en común estas imágenes? |
En la primera imagen, se muestra a una persona empacando una maleta. La segunda imagen muestra un pasillo vacío en un centro comercial. La tercera imagen muestra un rollo de papel higiénico. La cuarta imagen muestra un mar oscuro y tormentoso. La común entre estas imágenes es que todos son ejemplos de espacios liminales. Los espacios liminales son lugares o situaciones que se encuentran entre otros dos lugares o situaciones. A menudo, se caracterizan por un sentido de incertidumbre o ambigüedad. La primera imagen muestra a la persona entre estar en casa y estar de viaje. La segunda imagen muestra el pasillo entre dos tiendas. La tercera imagen es de papel higiénico, que puede representar un baño. Un baño es un espacio de transición entre el ámbito privado y el público. Es un lugar donde nos preparamos para ir al mundo exterior o para dejarlo. En la cuarta imagen, se muestra el mar entre la calma y la tormenta. Los espacios liminales pueden ser emocionantes e inquietantes. Pueden ser un lugar de nuevos comienzos o de finales. Pueden ser un lugar de reflexión o un lugar de acción. |
Puedes pedirle explícitamente al modelo que haga referencia a lo que hay en la imagen.
Prompt actualizado | Respuesta mejorada |
---|---|
![]() ![]() ![]() ![]() ¿Qué tienen en común estas imágenes? Consulta el contenido de las imágenes en tu respuesta. |
Todas las imágenes están relacionadas con viajes. La primera imagen muestra a una persona empacando una maleta; la segunda, un pasillo vacío en un centro comercial; la tercera imagen, una pila de papel higiénico, y la cuarta imagen, un mar oscuro y tormentoso. Todas estas imágenes están relacionadas con viajes porque son todo lo que las personas necesitan o usan cuando viajan. La primera imagen muestra a una persona empacando una maleta, que es algo que hacen las personas cuando viajan. La segunda imagen muestra un pasillo vacío en un centro comercial, que es un lugar donde las personas suelen ir a comprar artículos para sus viajes. La tercera imagen muestra una pila de papel higiénico, algo que la gente suele usar cuando viaja. La cuarta imagen muestra un mar oscuro y tormentoso, algo que las personas suelen encontrar cuando viajan. |
Las mismas sugerencias funcionan para obtener un resultado creativo. Pídele explícitamente al modelo que incluya aspectos de la imagen, ya que esto puede mejorar el resultado.
Instrucción | Respuesta del modelo |
---|---|
![]() ¿Puedes escribirme un poema sobre esta imagen? |
Little bunny, so soft and brown, Hopping through the field, up and down. Your ears so long, your tail so small, You're the cutest creature of them all. You nibble on the grass, so green and sweet, And hop away when you see me. But I'll always be your friend, Little bunny, until the very end. |
Prompt actualizado | Respuesta mejorada |
---|---|
![]() ¿Puedes escribirme un poema descriptivo y dramático sobre esta imagen y también incluir la ubicación? |
Little bunny on the green, Ears so long, so keen. What do you see out there, In the distance, where you stare? Is it the ocean blue, Sparkling in the sun's hue? Or the waves that crash and roar, A rhythm that you adore? Little bunny, tell me true, What captures your attention so? Is it the salty breeze, Or the seagulls' cries that please? Perhaps it's the vastness of it all, A world so big and small. A place where dreams can roam, And adventures can be sown. Little bunny, I wonder what you dream, As you sit on the grass, so serene. Do you yearn to explore the deep, Or stay on land, where you can leap? Whatever it may be, little bunny, Keep that spark of wonder burning brightly. For in your dreams and aspirations, Lies a world waiting for your creation. |
Determina cómo falló la instrucción
Una instrucción puede fallar porque el modelo no entendió la imagen en absoluto o porque no realizó los pasos de razonamiento correctos después. Para distinguir los motivos, pídele al modelo que describa el contenido de la imagen.
En este ejemplo, si el modelo responde con un bocadillo que parece extraño en combinación con el té (p. ej., palomitas de maíz), primero determina si el modelo reconoció que la imagen contiene té.
Instrucción | Prompt para solucionar problemas |
---|---|
![]() ¿Qué bocadillo puedo preparar en 1 minuto que combine bien con esto? |
![]() Describe el contenido de esta imagen. |
Pedirle al modelo que explique su razonamiento puede ayudarte a identificar qué parte del razonamiento falló, si la hubiera.
Instrucción | Prompt para solucionar problemas |
---|---|
![]() ¿Qué bocadillo puedo preparar en 1 minuto que combine bien con esto? |
![]() ¿Qué bocadillo puedo preparar en 1 minuto que combine bien con esto? Explica por qué. |
Ajusta los parámetros de muestreo
En cada solicitud, envías no solo la instrucción multimodal, sino también un conjunto de parámetros de muestreo al modelo. El modelo puede generar resultados diferentes para los valores de parámetros diferentes. Experimenta con los diferentes parámetros para obtener los mejores valores para la tarea. Los parámetros que se ajustan con mayor frecuencia son los siguientes:
Temperatura
La temperatura se utiliza para el muestreo durante la generación de la respuesta, que ocurre cuando se aplican Top-P y Top-K. La temperatura controla el grado de aleatoriedad en la selección de tokens. Las temperaturas más bajas son buenas para las instrucciones que requieren una respuesta más determinística y menos abierta o creativa, mientras que las temperaturas más altas pueden generar resultados más diversos o creativos. Una temperatura de 0 es determinística, lo que significa que es más probable que se elija la respuesta de mayor probabilidad.
Para la mayoría de los casos de uso, comienza con una temperatura de 0.4. Si necesitas resultados más creativos, aumenta la temperatura. Si observas alucinaciones claras, reduce la temperatura.
Top-P
Top-P cambia la manera en la que el modelo selecciona los tokens para el resultado. Los tokens se seleccionan del más probable al menos probable hasta que la suma de sus probabilidades sea igual al valor de Top-P. Por ejemplo, si los tokens A, B y C tienen una probabilidad de 0.6, 0.3 y 0.1, y el valor Top-P es 0.9, el modelo elegirá A o B como el siguiente token usando la temperatura y excluirá a C como candidato.
Especifica un valor más bajo para respuestas menos aleatorias y un valor más alto para respuestas más aleatorias. El valor predeterminado de Top-P es 1.0.
¿Qué sigue?
- Prueba un instructivo de guía de inicio rápido con Generative AI Studio o la API de Vertex AI.
- Para comenzar a usar la API de Gemini en Vertex AI, consulta la guía de inicio rápido de la API de Gemini en Vertex AI.