A API Gemini na Vertex AI permite-lhe enviar entradas multimodais, como texto, imagens e vídeo, como parte do seu comando para os modelos Gemini. Esta página fornece práticas recomendadas para criar comandos multimodais e como resolver problemas se os seus comandos não estiverem a funcionar como esperado. Para orientações gerais sobre a conceção de comandos, consulte as nossas estratégias de conceção de comandos recomendadas ou consulte a seguinte lista de práticas recomendadas específicas para o modo multimodal.
Princípios básicos do design de comandos
Use instruções específicas
Os comandos claros e detalhados oferecem os melhores resultados. Se tiver um resultado específico em mente, inclua esse requisito no comando para aumentar a probabilidade de obter o resultado correto.
Mesmo quando um comando parece claro para a pessoa que o escreveu, o comando pode ser insuficientemente especificado. Para personalizar o comportamento do modelo, considere como o seu comando pode ser interpretado e certifique-se de que as instruções que dá são específicas e claras.
Se incluiu a imagem de um painel de informações de um aeroporto abaixo como parte do seu comando, pedir ao modelo apenas para "descrever esta imagem" pode gerar uma descrição geral. Se precisar que o modelo analise a hora e a cidade a partir da imagem, inclua esse pedido diretamente no comando.
Comando | Resposta do modelo |
---|---|
![]() Descreva esta imagem. |
A imagem mostra um quadro de chegadas e partidas de um aeroporto. |
Comando atualizado | Resposta melhorada |
---|---|
![]() Analisa a hora e a cidade do painel do aeroporto apresentado nesta imagem e cria uma lista. |
|
Adicione exemplos
O modelo pode aceitar várias entradas para usar como exemplos para compreender o resultado pretendido. A adição destes exemplos pode ajudar o modelo a identificar os padrões e aplicar a relação entre as imagens e as respostas fornecidas ao novo exemplo. Isto chama-se aprendizagem "few-shot".
No exemplo seguinte, o resultado inicial é uma frase completa que também contém o país (Brasil). Se o resultado preferido for apenas a cidade e não o país, pode adicionar alguns exemplos de poucos disparos ao comando para orientar o modelo a responder nesse formato.
Comando | Resposta do modelo |
---|---|
![]() Determine a cidade juntamente com o ponto de referência. |
O ponto de referência é a estátua do Cristo Redentor no Rio de Janeiro, Brasil. |
Comando atualizado | Resposta melhorada |
---|---|
Determine a cidade juntamente com o ponto de referência. ![]() |
cidade: Roma, ponto de referência: o Coliseu. |
![]() |
city: Beijing, landmark: Forbidden City |
![]() |
city: Rio de Janeiro, landmark: Estátua de Cristo Redentor |
Divida tarefas complexas em tarefas mais pequenas
Para tarefas complexas, como as que requerem compreensão visual e raciocínio, divida a tarefa em passos mais pequenos e simples ou peça diretamente ao modelo para pensar passo a passo no comando.
Comando | Resposta do modelo |
---|---|
![]() Quando é que vou ficar sem papel higiénico? |
Em breve, só lhe restam 3 lançamentos. |
Comando atualizado | Resposta melhorada |
---|---|
![]()
|
|
Os problemas de matemática ou outros tipos de problemas de texto também podem ser divididos em tarefas mais pequenas.
Comando | Resposta |
---|---|
![]() Qual é o 4.º termo na sequência? |
-135 |
A resposta do modelo está incorreta. Experimente pedir ao modelo para analisar o problema antes de responder ao comando.
Comando | Resposta |
---|---|
![]() Analise primeiro a fórmula na imagem. Em seguida, com base na fórmula, responda "qual é o 4.º termo na sequência?". |
Clique para expandir o resultado$$b(n) = b(n-1) * (-3)$$ $$b(1) = 15$$
Portanto, o 4.º termo na sequência é -405. |
Para simplificar ainda mais a resposta, pode pedir ao modelo que analise o comando passo a passo.
Comando atualizado | Resposta melhorada |
---|---|
![]() Qual é o 4.º termo na sequência? Pense passo a passo. |
O primeiro termo é 15. O segundo termo é b(1) * (-3) = 15 * (-3) = -45. O terceiro termo é b(2) * (-3) = -45 * (-3) = 135. O quarto termo é b(3) * (-3) = 135 * (-3) = -405. |
Especifique o formato de saída
Quando é necessário um determinado formato, pode indicar ao modelo que use esse formato para a respetiva saída.
Comando | Resposta do modelo |
---|---|
![]() Analisa a tabela nesta imagem para o formato Markdown |
| Subject | Status | Time | Start date | Due on | |-----------|-------------|---------|------------|------------| | Math | Done | 1.5 hrs | 11/29/2023 | 12/1/2023 | | Geography | Done | 30 min | 12/2/2023 | 12/4/2023 | | Physics | In progress | 2 hrs | 12/3/2023 | 12/5/2023 | | Biology | Not started | 6 hrs | 11/2/2016 | 12/6/2023 | |
Comando | Resposta do modelo |
---|---|
![]() Faculte uma lista de todos os seguintes atributos: Ingredientes, tipo de cozinha, vegetariano ou não, no formato JSON |
|
Resolva problemas com um comando multimodal
A resolução de problemas de um comando pode envolver a melhoria da linguagem do comando, a direção do foco do comando ou o ajuste dos parâmetros. Estas diferentes abordagens podem levar a melhores resultados, especialmente depois de determinar a causa principal do problema.
Focar a parte relevante de uma imagem
Para melhorar a resposta, indique que partes da imagem são mais relevantes para o comando.
Comando | Resposta do modelo |
---|---|
![]() Quantos dias duram estas fraldas para um bebé? |
As fraldas duram 198 dias antes de se esgotarem. |
Comando atualizado | Resposta melhorada |
---|---|
![]() Quanto tempo vai durar este pacote de fraldas antes de acabar? Use o peso indicado na caixa para determinar a idade da criança e o número total de fraldas na caixa. Divida o número total pelo número de fraldas que a criança usa por dia. |
A caixa contém 198 fraldas. A caixa indica que as fraldas são para uma criança com um peso entre 10 e 16,8 kg. É provável que a criança média nesta gama de peso tenha entre 1 e 2 anos. Normalmente, uma criança de 2 anos usa 6 fraldas por dia. Por isso, as fraldas duram cerca de 33 dias (198/6). |
Personalizar a resposta do modelo à entrada
Pedir ao modelo para descrever as imagens antes de realizar a tarefa no comando.
Comando | Resposta do modelo |
---|---|
![]() ![]() ![]() ![]() O que é que estas imagens têm em comum? |
Todas as quatro imagens são exemplos de fotografia de paisagens. |
Comando atualizado | Resposta melhorada |
---|---|
![]() ![]() ![]() ![]() Primeiro, descreva detalhadamente o que está em cada imagem. O que é que estas imagens têm em comum? |
A primeira imagem mostra uma pessoa a fazer uma mala. A segunda imagem mostra um corredor vazio num centro comercial. A terceira imagem mostra um rolo de papel higiénico. A quarta imagem mostra um mar escuro e tempestuoso. O que estas imagens têm em comum é que são todas exemplos de espaços liminares. Os espaços liminares são locais ou situações que se encontram entre outros dois locais ou situações. São frequentemente caracterizados por um sentimento de incerteza ou ambiguidade. A primeira imagem mostra a pessoa entre estar em casa e estar numa viagem. A segunda imagem mostra o corredor entre duas lojas. A terceira imagem é de papel higiénico, que pode representar uma casa de banho. Uma casa de banho é um espaço de transição entre os domínios privado e público. É um lugar onde nos preparamos para entrar ou sair do mundo exterior. A quarta imagem mostra o mar entre estar calmo e estar tempestuoso. Os espaços liminares podem ser entusiasmantes e inquietantes. Podem ser um lugar de novos começos ou um lugar de finais. Podem ser um local de reflexão ou um local de ação. |
Pode pedir explicitamente ao modelo para fazer referência ao conteúdo da imagem.
Comando atualizado | Resposta melhorada |
---|---|
![]() ![]() ![]() ![]() O que é que estas imagens têm em comum? Referir-se ao conteúdo das imagens na sua resposta. |
Todas as imagens estão relacionadas com viagens. A primeira imagem mostra uma pessoa a fazer uma mala, a segunda imagem mostra um corredor vazio num centro comercial, a terceira imagem mostra uma pilha de papel higiénico e a quarta imagem mostra um mar escuro e tempestuoso. Estas imagens estão todas relacionadas com viagens porque são todas coisas que as pessoas precisam ou usam quando viajam. A primeira imagem mostra uma pessoa a fazer a mala, algo que as pessoas fazem quando vão viajar. A segunda imagem mostra um corredor vazio num centro comercial, que é um local onde as pessoas costumam ir para comprar artigos para as suas viagens. A terceira imagem mostra um rolo de papel higiénico, algo que as pessoas usam frequentemente quando estão em viagem. A quarta imagem mostra um mar escuro e tempestuoso, algo que as pessoas encontram frequentemente quando estão a viajar. |
As mesmas dicas funcionam para a saída criativa. Pedir explicitamente ao modelo para incluir aspetos da imagem. Isto pode melhorar o resultado.
Comando | Resposta do modelo |
---|---|
![]() Podes escrever um poema sobre esta imagem? |
Little bunny, so soft and brown, Hopping through the field, up and down. Your ears so long, your tail so small, You're the cutest creature of them all. You nibble on the grass, so green and sweet, And hop away when you see me. But I'll always be your friend, Little bunny, until the very end. |
Comando atualizado | Resposta melhorada |
---|---|
![]() Podes escrever um poema descritivo e dramático sobre esta imagem e incluir a localização? |
Little bunny on the green, Ears so long, so keen. What do you see out there, In the distance, where you stare? Is it the ocean blue, Sparkling in the sun's hue? Or the waves that crash and roar, A rhythm that you adore? Little bunny, tell me true, What captures your attention so? Is it the salty breeze, Or the seagulls' cries that please? Perhaps it's the vastness of it all, A world so big and small. A place where dreams can roam, And adventures can be sown. Little bunny, I wonder what you dream, As you sit on the grass, so serene. Do you yearn to explore the deep, Or stay on land, where you can leap? Whatever it may be, little bunny, Keep that spark of wonder burning brightly. For in your dreams and aspirations, Lies a world waiting for your creation. |
Determine como o comando falhou
Um comando pode falhar porque o modelo não compreendeu a imagem ou porque não executou os passos de raciocínio corretos posteriormente. Para desambiguar entre esses motivos, peça ao modelo para descrever o que está na imagem.
Neste exemplo, se o modelo responder com um snack que pareça surpreendente quando combinado com chá (como pipocas), determine primeiro se o modelo reconheceu que a imagem contém chá.
Comando | Comando para resolução de problemas |
---|---|
![]() Que snack posso fazer em 1 minuto que combine bem com isto? |
![]() Descreva o que está nesta imagem. |
Pedir ao modelo para explicar o seu raciocínio pode ajudar a restringir a parte do raciocínio que falhou, se existir.
Comando | Comando para resolução de problemas |
---|---|
![]() Que snack posso fazer em 1 minuto que combine bem com isto? |
![]() Que snack posso fazer em 1 minuto que combine bem com isto? Explique o motivo. |
Aperfeiçoe os parâmetros de amostragem
Em cada pedido, envia não só o comando multimodal, mas também um conjunto de parâmetros de amostragem ao modelo. O modelo pode gerar resultados diferentes para diferentes valores de parâmetros. Experimente os diferentes parâmetros para obter os melhores valores para a tarefa. Os parâmetros ajustados com maior frequência são os seguintes:
Temperatura
A temperatura é usada para a amostragem durante a geração de respostas, que ocorre quando o top-P e o top-K são aplicados. A temperatura controla o grau de aleatoriedade na seleção de tokens. As temperaturas mais baixas são adequadas para comandos que requerem uma resposta mais determinística e menos aberta ou criativa, enquanto as temperaturas mais altas podem gerar resultados mais diversos ou criativos. Uma temperatura de 0 é determinística, o que significa que a resposta com a probabilidade mais elevada tem maior probabilidade de ser selecionada.
Para a maioria dos exemplos de utilização, comece com uma temperatura de 0,4. Se precisar de resultados mais criativos, aumente a temperatura. Se observar alucinações claras, reduza a temperatura.
Top-P
O Top-P altera a forma como o modelo seleciona tokens para a saída. Os tokens são selecionados do mais para o menos provável até que a soma das respetivas probabilidades seja igual ao valor top-P. Por exemplo, se os tokens A, B e C tiverem uma probabilidade de 0,6, 0,3 e 0,1, e o valor top-P for 0,9, o modelo seleciona A ou B como o token seguinte através da temperatura e exclui C como candidato.
Especifique um valor inferior para respostas menos aleatórias e um valor superior para respostas mais aleatórias. O valor predefinido de top-P é 1,0.
O que se segue?
- Experimente um tutorial de início rápido com o Vertex AI Studio ou a API Vertex AI.
- Para começar a usar a API Gemini no Vertex AI, consulte o guia de início rápido da API Gemini no Vertex AI.