Nesta página, você encontra uma lista completa de métricas gerenciadas baseadas em rubricas oferecidas pelo serviço de avaliação de IA generativa, que podem ser usadas no cliente GenAI no SDK da Vertex AI.
Para mais informações sobre a avaliação orientada por testes, consulte Definir métricas de avaliação.
Visão geral
O serviço de avaliação de IA generativa oferece uma lista de métricas gerenciadas baseadas em rubricas para o framework de avaliação orientada a testes:
Para métricas com rubricas adaptativas, a maioria inclui o fluxo de trabalho de geração de rubricas para cada comando e a validação delas. É possível executá-los separadamente, se necessário. Consulte Realizar uma avaliação para mais detalhes.
Para métricas com rubricas estáticas, nenhuma rubrica por solicitação é gerada. Para detalhes sobre as saídas pretendidas, consulte Detalhes da métrica.
Cada métrica gerenciada baseada em rubrica tem um número de controle de versão. Por padrão, a métrica usa a versão mais recente, mas é possível fixar uma versão específica, se necessário:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
Compatibilidade com versões anteriores
Para métricas oferecidas como modelos de solicitação de métrica, ainda é possível acessar as métricas pontuais usando o cliente GenAI no SDK da Vertex AI da mesma forma. As métricas aos pares não são compatíveis com o cliente de IA generativa no SDK da Vertex AI. Consulte Executar uma avaliação para comparar dois modelos na mesma avaliação.
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
Detalhes das métricas gerenciadas
Esta seção lista as métricas gerenciadas com detalhes como tipo, entradas obrigatórias e saída esperada:
Qualidade geral
| Versão mais recente |
general_quality_v1 |
| Tipo |
Rubricas adaptativas |
| Descrição |
Uma métrica de rubricas adaptativas abrangente que avalia a qualidade geral da resposta de um modelo. Ele gera e avalia automaticamente uma ampla variedade de critérios com base no conteúdo do comando. Esse é o ponto de partida recomendado para a maioria das avaliações. |
| Como acessar no SDK |
types.RubricMetric.GENERAL_QUALITY |
| Entrada |
prompt
response
- (Opcional)
rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
|
| Saída |
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
|
| Número de chamadas de LLM |
6 chamadas para o Gemini 2.5 Flash |
Qualidade do texto
| Versão mais recente |
text_quality_v1 |
| Tipo |
Rubricas adaptativas |
| Descrição |
Uma métrica de rubricas adaptativas segmentada que avalia especificamente a qualidade linguística da resposta. Ela avalia aspectos como fluidez, coerência e gramática. |
| Como acessar no SDK |
types.RubricMetric.TEXT_QUALITY |
| Entrada |
prompt
response
- (Opcional)
rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
|
| Saída |
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
|
| Número de chamadas de LLM |
6 chamadas para o Gemini 2.5 Flash |
Seguir a instrução
| Versão mais recente |
instruction_following_v1 |
| Tipo |
Rubricas adaptativas |
| Descrição |
Uma métrica de rubricas adaptativas segmentada que mede a adequação da resposta às restrições e instruções específicas fornecidas no comando. |
| Como acessar no SDK |
types.RubricMetric.INSTRUCTION_FOLLOWING |
| Entrada |
prompt
response
- (Opcional)
rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
|
| Saída |
score (taxa de aprovação)
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
|
| Número de chamadas de LLM |
6 chamadas para o Gemini 2.5 Flash |
Embasamento
| Versão mais recente |
grounding_v1 |
| Tipo |
Indicadores estáticos |
| Descrição |
Uma métrica baseada em pontuação que verifica a veracidade e a consistência. Ele verifica se a resposta do modelo é embasada no contexto. |
| Como acessar no SDK |
types.RubricMetric.GROUNDING |
| Entrada |
|
| Saída |
A pontuação tem um intervalo de 0-1 e representa a taxa de declarações rotuladas como supported ou no_rad (que não exigem atribuições factuais, como saudações, perguntas ou exonerações de responsabilidade) para o comando de entrada.
A explicação contém agrupamentos de frase, marcador, raciocínio e trecho do contexto.
|
| Número de chamadas de LLM |
1 chamada para o Gemini 2.5 Flash |
Segurança
| Versão mais recente |
safety_v1 |
| Tipo |
Indicadores estáticos |
| Descrição |
Uma métrica baseada em pontuação que avalia se a resposta do modelo violou uma ou mais das seguintes políticas:
- Dados demográficos e PII
- Discurso de ódio
- Conteúdo perigoso
- Assédio
- Sexualmente explícito
|
| Como acessar no SDK |
types.RubricMetric.SAFETY |
| Entrada |
|
| Saída |
Para a pontuação, 0 não é seguro e 1 é seguro.
O campo de explicação inclui as políticas violadas.
|
| Número de chamadas de LLM |
10 chamadas para o Gemini 2.5 Flash |
Qualidade geral multiturno
| Versão mais recente |
multi_turn_general_quality_v1 |
| Tipo |
Rubricas adaptativas |
| Descrição |
Uma métrica de rubricas adaptáveis que avalia a qualidade geral da resposta de um modelo no contexto de um diálogo com vários turnos. |
| Como acessar no SDK |
types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
| Entrada |
prompt com conversas multiturno
response
- (Opcional)
rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
|
| Saída |
score
- rubricas e veredictos correspondentes
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
|
| Número de chamadas de LLM |
6 chamadas para o Gemini 2.5 Flash |
Qualidade do texto multiturno
| Versão mais recente |
multi_turn_text_quality_v1 |
| Tipo |
Rubricas adaptativas |
| Descrição |
Uma métrica de rubricas adaptáveis que avalia a qualidade do texto de uma resposta do modelo no contexto de um diálogo com vários turnos. |
| Como acessar no SDK |
types.RubricMetric.TEXT_QUALITY |
| Entrada |
prompt com conversas multiturno
response
- (Opcional)
rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
|
| Saída |
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
|
| Número de chamadas de LLM |
6 chamadas para o Gemini 2.5 Flash |
Correspondência da resposta final do agente
| Versão mais recente |
final_response_match_v2 |
| Tipo |
Indicadores estáticos |
| Descrição |
Uma métrica que avalia a qualidade da resposta final de um agente de IA comparando-a a uma resposta de referência fornecida (informação empírica). |
| Como acessar no SDK |
types.RubricMetric.FINAL_RESPONSE_MATCH |
| Entrada |
prompt
response
reference
|
| Saída |
Pontuação
- 1: resposta válida que corresponde à referência.
- 0: resposta inválida que não corresponde à referência.
Explicação
|
| Número de chamadas de LLM |
5 chamadas para o Gemini 2.5 Flash |
Referência de resposta final do agente sem custo financeiro
| Versão mais recente |
final_response_reference_free_v1 |
| Tipo |
Rubricas adaptativas |
| Descrição |
Uma métrica de rubricas adaptativa que avalia a qualidade da resposta final de um agente de IA sem precisar de uma resposta de referência.
Você precisa fornecer rubricas para essa métrica, já que ela não é compatível com rubricas geradas automaticamente. |
| Como acessar no SDK |
types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
| Entrada |
prompt
response
rubric_groups
|
| Saída |
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
|
| Número de chamadas de LLM |
5 chamadas para o Gemini 2.5 Flash |
Qualidade da resposta final do agente
| Versão mais recente |
final_response_quality_v1 |
| Tipo |
Rubricas adaptativas |
| Descrição |
Uma métrica abrangente de rubricas adaptáveis que avalia a qualidade geral da resposta de um agente. Ele gera automaticamente uma ampla variedade de critérios com base na configuração do agente (instruções e declarações do desenvolvedor para ferramentas disponíveis ao agente) e no comando do usuário. Em seguida, ele avalia os critérios gerados com base no uso da ferramenta em eventos intermediários e na resposta final do agente. |
| Como acessar no SDK |
types.RubricMetric.FINAL_RESPONSE_QUALITY |
| Entrada |
prompt
response
developer_instruction
tool_declarations (pode ser uma lista vazia)
intermediate_events (contém chamadas e respostas de função, pode ser uma lista vazia)
- (Opcional)
rubric_groups (se você já tiver rubricas geradas, poderá fornecê-las diretamente para avaliação)
|
| Saída |
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
|
| Número de chamadas de LLM |
5 chamadas para o Gemini 2.5 Flash e 1 chamada para o Gemini 2.5 Pro |
Alucinação do agente
| Versão mais recente |
hallucination_v1 |
| Tipo |
Rubricas estáticas |
| Descrição |
Uma métrica baseada em pontuação que verifica a veracidade e a consistência das respostas de texto segmentando-as em declarações atômicas. Ela verifica se cada declaração é fundamentada ou não com base no uso da ferramenta nos eventos intermediários.
Também é possível usar esse recurso para avaliar respostas de texto intermediárias definindo a flag evaluate_intermediate_nl_responses como "true".
|
| Como acessar no SDK |
types.RubricMetric.HALLUCINATION |
| Entrada |
response
developer_instruction
tool_declarations (pode ser uma lista vazia)
intermediate_events (contém chamadas e respostas de função, pode ser uma lista vazia)
evaluate_intermediate_nl_responses (o padrão é False)
|
| Saída |
score
explanation e verdicts correspondente
A pontuação varia de 0 a 1 e representa a taxa de declarações rotuladas como supported ou no_rad (que não exigem atribuições factuais, como saudações, perguntas ou exonerações de responsabilidade) em relação ao comando de entrada. A explicação contém uma análise estruturada da declaração, do rótulo, do raciocínio e de trechos que apoiam o contexto.
|
| Número de chamadas de LLM |
2 chamadas para o Gemini 2.5 Flash |
| Versão mais recente |
tool_use_quality_v1 |
| Tipo |
Rubricas adaptativas |
| Descrição |
Uma métrica de rubricas adaptativas segmentada que avalia a seleção de ferramentas adequadas, o uso correto de parâmetros e a adesão à sequência de operações especificada. |
| Como acessar no SDK |
types.RubricMetric.TOOL_USE_QUALITY |
| Entrada |
prompt
developer_instruction
tool_declarations (pode ser uma lista vazia)
intermediate_events (contém chamadas e respostas de função, pode ser uma lista vazia)
- (Opcional)
rubric_groups (se você já tiver rubricas geradas, poderá fornecê-las diretamente para avaliação)
|
| Saída |
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
|
| Número de chamadas de LLM |
5 chamadas para o Gemini 2.5 Flash e 1 chamada para o Gemini 2.5 Pro |
Qualidade da conversão de texto em imagem do Gecko
| Versão mais recente |
gecko_text2image_v1 |
| Tipo |
Rubricas adaptativas |
| Descrição |
A métrica de texto para imagem Gecko é um método adaptativo baseado em instruções para avaliar a qualidade de uma imagem gerada em relação ao comando de texto correspondente. Ele funciona gerando um conjunto de perguntas com base no comando, que servem como uma rubrica detalhada e específica para o comando. Em seguida, um modelo responde a essas perguntas com base na imagem gerada. |
| Como acessar no SDK |
types.RubricMetric.GECKO_TEXT2IMAGE |
| Entrada |
prompt
response: precisa ser dados de arquivo com tipo MIME de imagem
|
| Saída |
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
|
| Número de chamadas de LLM |
2 chamadas para o Gemini 2.5 Flash |
Qualidade de texto para vídeo do Gecko
| Versão mais recente |
gecko_text2video_v1 |
| Tipo |
Rubricas adaptativas |
| Descrição |
A métrica de texto para vídeo Gecko é um método adaptável com base em instruções para avaliar a qualidade de um vídeo gerado em relação ao comando de texto correspondente. Ele funciona gerando um conjunto de perguntas com base no comando, que servem como uma rubrica detalhada e específica para o comando. Em seguida, um modelo responde a essas perguntas com base no vídeo gerado. |
| Como acessar no SDK |
types.RubricMetric.GECKO_TEXT2VIDEO |
| Entrada |
prompt
response: precisa ser dados de arquivo com tipo MIME de vídeo.
|
| Saída |
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
|
| Número de chamadas de LLM |
2 chamadas para o Gemini 2.5 Flash |
A seguir