Crie comandos multimodais

A API Gemini na Vertex AI permite-lhe enviar entradas multimodais, como texto, imagens e vídeo, como parte do seu comando para os modelos Gemini. Esta página fornece práticas recomendadas para criar comandos multimodais e como resolver problemas se os seus comandos não estiverem a funcionar como esperado. Para orientações gerais sobre a conceção de comandos, consulte as nossas estratégias de conceção de comandos recomendadas ou consulte a seguinte lista de práticas recomendadas específicas para o modo multimodal.

Princípios básicos do design de comandos

Use instruções específicas

Os comandos claros e detalhados oferecem os melhores resultados. Se tiver um resultado específico em mente, inclua esse requisito no comando para aumentar a probabilidade de obter o resultado correto.

Mesmo quando um comando parece claro para a pessoa que o escreveu, o comando pode ser insuficientemente especificado. Para personalizar o comportamento do modelo, considere como o seu comando pode ser interpretado e certifique-se de que as instruções que dá são específicas e claras.

Se incluiu a imagem de um painel de informações de um aeroporto abaixo como parte do seu comando, pedir ao modelo apenas para "descrever esta imagem" pode gerar uma descrição geral. Se precisar que o modelo analise a hora e a cidade a partir da imagem, inclua esse pedido diretamente no comando.

Comando Resposta do modelo
Um painel de horários do aeroporto com horas e cidades.

Descreva esta imagem.

A imagem mostra um quadro de chegadas e partidas de um aeroporto.

Comando atualizado Resposta melhorada
Um painel de horários do aeroporto com horas e cidades.

Analisa a hora e a cidade do painel do aeroporto apresentado nesta imagem e cria uma lista.

  • 10:50 Moscovo
  • 11:05 Edimburgo
  • 11:05 Londres
  • 11:10 Bucareste
  • 11:30 Kiev
  • 11:35 Dublin
  • 11:45 East Midlands
  • 12:15 Sófia
  • 12:30 Londres
  • 12:30 Newcastle
  • 12:40 São Petersburgo
  • 12:40 Londres
  • 12:45 Manchester

Adicione exemplos

O modelo pode aceitar várias entradas para usar como exemplos para compreender o resultado pretendido. A adição destes exemplos pode ajudar o modelo a identificar os padrões e aplicar a relação entre as imagens e as respostas fornecidas ao novo exemplo. Isto chama-se aprendizagem "few-shot".

No exemplo seguinte, o resultado inicial é uma frase completa que também contém o país (Brasil). Se o resultado preferido for apenas a cidade e não o país, pode adicionar alguns exemplos de poucos disparos ao comando para orientar o modelo a responder nesse formato.

Comando Resposta do modelo
A estátua do Cristo Redentor no Rio de Janeiro, Brasil.

Determine a cidade juntamente com o ponto de referência.

O ponto de referência é a estátua do Cristo Redentor no Rio de Janeiro, Brasil.

Comando atualizado Resposta melhorada

Determine a cidade juntamente com o ponto de referência.

O Coliseu em Roma, Itália.

cidade: Roma, ponto de referência: o Coliseu.

A Cidade Proibida em Pequim, China.

city: Beijing, landmark: Forbidden City

A estátua do Cristo Redentor no Rio de Janeiro, Brasil.

city: Rio de Janeiro, landmark: Estátua de Cristo Redentor

Divida tarefas complexas em tarefas mais pequenas

Para tarefas complexas, como as que requerem compreensão visual e raciocínio, divida a tarefa em passos mais pequenos e simples ou peça diretamente ao modelo para pensar passo a passo no comando.

Comando Resposta do modelo
Uma imagem de três rolos de papel higiénico.

Quando é que vou ficar sem papel higiénico?

Em breve, só lhe restam 3 lançamentos.

Comando atualizado Resposta melhorada
Uma imagem de três rolos de papel higiénico.
  1. Primeiro, conte quantos rolos de papel higiénico estão nesta imagem.
  2. Em seguida, determine a quantidade de papel higiénico que uma pessoa normal usa por dia.
  3. Calcula quanto tempo duram estes rolos de papel higiénico.
  1. Existem 3 rolos de papel higiénico nesta imagem.
  2. Uma pessoa comum usa cerca de 20 folhas de papel higiénico por dia.
  3. Se cada rolo contiver 200 folhas, cada rolo dura cerca de 10 dias. Por isso, os 3 rolos duram cerca de um mês.

Os problemas de matemática ou outros tipos de problemas de texto também podem ser divididos em tarefas mais pequenas.

Comando Resposta
Uma imagem de uma sequência matemática b. b(1) = 15 e b(n) = b(n-1) * (-3).

Qual é o 4.º termo na sequência?

-135

A resposta do modelo está incorreta. Experimente pedir ao modelo para analisar o problema antes de responder ao comando.

Comando Resposta
Uma imagem de uma sequência matemática b. b(1) = 15 e b(n) = b(n-1) * (-3).

Analise primeiro a fórmula na imagem.

Em seguida, com base na fórmula, responda "qual é o 4.º termo na sequência?".

Clique para expandir o resultado $$b(n) = b(n-1) * (-3)$$ $$b(1) = 15$$
  1. Substitua n = 4 na fórmula:

    $$b(4) = b(4-1) * (-3)$$

    $$b(4) = b(3) * (-3)$$

  2. Não sabemos o valor de b(3), por isso, substitua n = 3 na fórmula:

    $$b(3) = b(3-1) * (-3)$$

    $$b(3) = b(2) * (-3)$$

  3. Não sabemos o valor de b(2), por isso, substitua n = 2 na fórmula:

    $$b(2) = b(2-1) * (-3)$$

    $$b(2) = b(1) * (-3)$$

  4. Sabemos que o valor de b(1) é 15, por isso, substitua-o na fórmula:

    $$b(2) = 15 * (-3)$$

    $$b(2) = -45$$

  5. Agora que sabemos o valor de b(2), substitua-o na fórmula de b(3):

    $$b(3) = b(2) * (-3)$$

    $$b(3) = -45 * (-3)$$

    $$b(3) = 135$$

  6. Agora que sabemos o valor de b(3), substitua-o na fórmula de b(4):

    $$b(4) = b(3) * (-3)$$

    $$b(4) = 135 * (-3)$$

    $$b(4) = -405$$

Portanto, o 4.º termo na sequência é -405.

Para simplificar ainda mais a resposta, pode pedir ao modelo que analise o comando passo a passo.

Comando atualizado Resposta melhorada
Uma imagem de uma sequência matemática b. b(1) = 15 e b(n) = b(n-1) * (-3).

Qual é o 4.º termo na sequência? Pense passo a passo.

O primeiro termo é 15.

O segundo termo é b(1) * (-3) = 15 * (-3) = -45.

O terceiro termo é b(2) * (-3) = -45 * (-3) = 135.

O quarto termo é b(3) * (-3) = 135 * (-3) = -405.

Especifique o formato de saída

Quando é necessário um determinado formato, pode indicar ao modelo que use esse formato para a respetiva saída.

Comando Resposta do modelo
Uma imagem de uma folha de cálculo no Excel.

Analisa a tabela nesta imagem para o formato Markdown

| Subject   | Status      | Time    | Start date | Due on     |
|-----------|-------------|---------|------------|------------|
| Math      | Done        | 1.5 hrs | 11/29/2023 | 12/1/2023  |
| Geography | Done        | 30 min  | 12/2/2023  | 12/4/2023  |
| Physics   | In progress | 2 hrs   | 12/3/2023  | 12/5/2023  |
| Biology   | Not started | 6 hrs   | 11/2/2016  | 12/6/2023  |
        
Comando Resposta do modelo
Uma imagem de uma refeição com camarões, amêijoas e outros ingredientes.

Faculte uma lista de todos os seguintes atributos:

Ingredientes, tipo de cozinha, vegetariano ou não, no formato JSON


        {
          "ingredients": [
            "rice",
            "shrimp",
            "clams",
            "mussels",
            "peas",
            "tomatoes",
            "onions",
            "garlic",
            "olive oil",
            "paprika",
            "salt",
            "pepper"
          ],
          "type of cuisine": "Spanish",
          "vegetarian": false
        }
        

Resolva problemas com um comando multimodal

A resolução de problemas de um comando pode envolver a melhoria da linguagem do comando, a direção do foco do comando ou o ajuste dos parâmetros. Estas diferentes abordagens podem levar a melhores resultados, especialmente depois de determinar a causa principal do problema.

Focar a parte relevante de uma imagem

Para melhorar a resposta, indique que partes da imagem são mais relevantes para o comando.

Comando Resposta do modelo
Uma imagem da lateral de uma caixa de fraldas; o número 198 está escrito na caixa.

Quantos dias duram estas fraldas para um bebé?

As fraldas duram 198 dias antes de se esgotarem.

Comando atualizado Resposta melhorada
Uma imagem da lateral de uma caixa de fraldas; o número 198 está escrito na caixa.

Quanto tempo vai durar este pacote de fraldas antes de acabar?

Use o peso indicado na caixa para determinar a idade da criança e o número total de fraldas na caixa.

Divida o número total pelo número de fraldas que a criança usa por dia.

A caixa contém 198 fraldas. A caixa indica que as fraldas são para uma criança com um peso entre 10 e 16,8 kg.

É provável que a criança média nesta gama de peso tenha entre 1 e 2 anos.

Normalmente, uma criança de 2 anos usa 6 fraldas por dia. Por isso, as fraldas duram cerca de 33 dias (198/6).

Personalizar a resposta do modelo à entrada

Pedir ao modelo para descrever as imagens antes de realizar a tarefa no comando.

Comando Resposta do modelo
Uma imagem de uma pessoa a fazer uma mala. Uma imagem de um corredor vazio num centro comercial. Uma imagem de três rolos de papel higiénico. Uma imagem de nuvens escuras a dissiparem-se sobre o mar.

O que é que estas imagens têm em comum?

Todas as quatro imagens são exemplos de fotografia de paisagens.

Comando atualizado Resposta melhorada
Uma imagem de uma pessoa a fazer uma mala. Uma imagem de um corredor vazio num centro comercial. Uma imagem de três rolos de papel higiénico. Uma imagem de nuvens escuras a dissiparem-se sobre o mar.

Primeiro, descreva detalhadamente o que está em cada imagem. O que é que estas imagens têm em comum?

A primeira imagem mostra uma pessoa a fazer uma mala. A segunda imagem mostra um corredor vazio num centro comercial. A terceira imagem mostra um rolo de papel higiénico. A quarta imagem mostra um mar escuro e tempestuoso.

O que estas imagens têm em comum é que são todas exemplos de espaços liminares. Os espaços liminares são locais ou situações que se encontram entre outros dois locais ou situações. São frequentemente caracterizados por um sentimento de incerteza ou ambiguidade.

A primeira imagem mostra a pessoa entre estar em casa e estar numa viagem. A segunda imagem mostra o corredor entre duas lojas. A terceira imagem é de papel higiénico, que pode representar uma casa de banho. Uma casa de banho é um espaço de transição entre os domínios privado e público. É um lugar onde nos preparamos para entrar ou sair do mundo exterior.

A quarta imagem mostra o mar entre estar calmo e estar tempestuoso.

Os espaços liminares podem ser entusiasmantes e inquietantes. Podem ser um lugar de novos começos ou um lugar de finais. Podem ser um local de reflexão ou um local de ação.

Pode pedir explicitamente ao modelo para fazer referência ao conteúdo da imagem.

Comando atualizado Resposta melhorada
Uma imagem de uma pessoa a fazer uma mala. Uma imagem de um corredor vazio num centro comercial. Uma imagem de três rolos de papel higiénico. Uma imagem de nuvens escuras a dissiparem-se sobre o mar.

O que é que estas imagens têm em comum? Referir-se ao conteúdo das imagens na sua resposta.

Todas as imagens estão relacionadas com viagens. A primeira imagem mostra uma pessoa a fazer uma mala, a segunda imagem mostra um corredor vazio num centro comercial, a terceira imagem mostra uma pilha de papel higiénico e a quarta imagem mostra um mar escuro e tempestuoso.

Estas imagens estão todas relacionadas com viagens porque são todas coisas que as pessoas precisam ou usam quando viajam. A primeira imagem mostra uma pessoa a fazer a mala, algo que as pessoas fazem quando vão viajar. A segunda imagem mostra um corredor vazio num centro comercial, que é um local onde as pessoas costumam ir para comprar artigos para as suas viagens. A terceira imagem mostra um rolo de papel higiénico, algo que as pessoas usam frequentemente quando estão em viagem. A quarta imagem mostra um mar escuro e tempestuoso, algo que as pessoas encontram frequentemente quando estão a viajar.

As mesmas dicas funcionam para a saída criativa. Pedir explicitamente ao modelo para incluir aspetos da imagem. Isto pode melhorar o resultado.

Comando Resposta do modelo
Uma imagem de um coelho castanho.

Podes escrever um poema sobre esta imagem?

Little bunny, so soft and brown,
        Hopping through the field, up and down.
        Your ears so long, your tail so small,
        You're the cutest creature of them all.
You nibble on the grass, so green and sweet,
        And hop away when you see me.
        But I'll always be your friend,
        Little bunny, until the very end.
Comando atualizado Resposta melhorada
Uma imagem de um coelho castanho.

Podes escrever um poema descritivo e dramático sobre esta imagem e incluir a localização?

Little bunny on the green,
        Ears so long, so keen.
        What do you see out there,
        In the distance, where you stare?
Is it the ocean blue,
        Sparkling in the sun's hue?
        Or the waves that crash and roar,
        A rhythm that you adore?
Little bunny, tell me true,
        What captures your attention so?
        Is it the salty breeze,
        Or the seagulls' cries that please?
Perhaps it's the vastness of it all,
        A world so big and small.
        A place where dreams can roam,
        And adventures can be sown.
Little bunny, I wonder what you dream,
        As you sit on the grass, so serene.
        Do you yearn to explore the deep,
        Or stay on land, where you can leap?
Whatever it may be, little bunny,
        Keep that spark of wonder burning brightly.
        For in your dreams and aspirations,
        Lies a world waiting for your creation.

Determine como o comando falhou

Um comando pode falhar porque o modelo não compreendeu a imagem ou porque não executou os passos de raciocínio corretos posteriormente. Para desambiguar entre esses motivos, peça ao modelo para descrever o que está na imagem.

Neste exemplo, se o modelo responder com um snack que pareça surpreendente quando combinado com chá (como pipocas), determine primeiro se o modelo reconheceu que a imagem contém chá.

Comando Comando para resolução de problemas
Uma imagem de um conjunto de chá.

Que snack posso fazer em 1 minuto que combine bem com isto?

Uma imagem de um conjunto de chá.

Descreva o que está nesta imagem.

Pedir ao modelo para explicar o seu raciocínio pode ajudar a restringir a parte do raciocínio que falhou, se existir.

Comando Comando para resolução de problemas
Uma imagem de um conjunto de chá.

Que snack posso fazer em 1 minuto que combine bem com isto?

Uma imagem de um conjunto de chá.

Que snack posso fazer em 1 minuto que combine bem com isto? Explique o motivo.

Aperfeiçoe os parâmetros de amostragem

Em cada pedido, envia não só o comando multimodal, mas também um conjunto de parâmetros de amostragem ao modelo. O modelo pode gerar resultados diferentes para diferentes valores de parâmetros. Experimente os diferentes parâmetros para obter os melhores valores para a tarefa. Os parâmetros ajustados com maior frequência são os seguintes:

Temperatura

A temperatura é usada para a amostragem durante a geração de respostas, que ocorre quando o top-P e o top-K são aplicados. A temperatura controla o grau de aleatoriedade na seleção de tokens. As temperaturas mais baixas são adequadas para comandos que requerem uma resposta mais determinística e menos aberta ou criativa, enquanto as temperaturas mais altas podem gerar resultados mais diversos ou criativos. Uma temperatura de 0 é determinística, o que significa que a resposta com a probabilidade mais elevada tem maior probabilidade de ser selecionada.

Para a maioria dos exemplos de utilização, comece com uma temperatura de 0,4. Se precisar de resultados mais criativos, aumente a temperatura. Se observar alucinações claras, reduza a temperatura.

Top-P

O Top-P altera a forma como o modelo seleciona tokens para a saída. Os tokens são selecionados do mais para o menos provável até que a soma das respetivas probabilidades seja igual ao valor top-P. Por exemplo, se os tokens A, B e C tiverem uma probabilidade de 0,6, 0,3 e 0,1, e o valor top-P for 0,9, o modelo seleciona A ou B como o token seguinte através da temperatura e exclui C como candidato.

Especifique um valor inferior para respostas menos aleatórias e um valor superior para respostas mais aleatórias. O valor predefinido de top-P é 1,0.

O que se segue?