Detalhes das métricas gerenciadas com base em rubricas

Nesta página, você encontra uma lista completa de métricas gerenciadas baseadas em rubricas oferecidas pelo serviço de avaliação de IA generativa, que podem ser usadas no cliente GenAI no SDK da Vertex AI.

Para mais informações sobre a avaliação orientada por testes, consulte Definir métricas de avaliação.

Visão geral

O serviço de avaliação de IA generativa oferece uma lista de métricas gerenciadas baseadas em rubricas para o framework de avaliação orientada a testes:

Para métricas com rubricas adaptativas, a maioria inclui o fluxo de trabalho de geração de rubricas para cada comando e a validação delas. É possível executá-los separadamente, se necessário. Consulte Realizar uma avaliação para mais detalhes.
Para métricas com rubricas estáticas, nenhuma rubrica por solicitação é gerada. Para detalhes sobre as saídas pretendidas, consulte Detalhes da métrica.

Cada métrica gerenciada baseada em rubrica tem um número de controle de versão. Por padrão, a métrica usa a versão mais recente, mas é possível fixar uma versão específica, se necessário:

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

Compatibilidade com versões anteriores

Para métricas oferecidas como modelos de solicitação de métrica, ainda é possível acessar as métricas pontuais usando o cliente GenAI no SDK da Vertex AI da mesma forma. As métricas aos pares não são compatíveis com o cliente de IA generativa no SDK da Vertex AI. Consulte Executar uma avaliação para comparar dois modelos na mesma avaliação.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

Detalhes das métricas gerenciadas

Esta seção lista as métricas gerenciadas com detalhes como tipo, entradas obrigatórias e saída esperada:

Qualidade geral
Qualidade do texto
Seguir instruções
Embasamento
Segurança
Qualidade geral multiturno
Qualidade do texto multiturno
Correspondência da resposta final do agente
Resposta final do agente sem referência
Qualidade da resposta final do agente
Alucinação do agente
Qualidade do uso da ferramenta do agente
Qualidade da conversão de texto em imagem do Gecko
Qualidade de texto para vídeo do Gecko

Qualidade geral

Versão mais recente	`general_quality_v1`
Tipo	Rubricas adaptativas
Descrição	Uma métrica de rubricas adaptativas abrangente que avalia a qualidade geral da resposta de um modelo. Ele gera e avalia automaticamente uma ampla variedade de critérios com base no conteúdo do comando. Esse é o ponto de partida recomendado para a maioria das avaliações.
Como acessar no SDK	`types.RubricMetric.GENERAL_QUALITY`
Entrada	`prompt` `response` (Opcional) `rubric_groups` Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída	`score` `rubrics` e `verdicts` correspondente A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM	6 chamadas para o Gemini 2.5 Flash

Qualidade do texto

Versão mais recente	`text_quality_v1`
Tipo	Rubricas adaptativas
Descrição	Uma métrica de rubricas adaptativas segmentada que avalia especificamente a qualidade linguística da resposta. Ela avalia aspectos como fluidez, coerência e gramática.
Como acessar no SDK	`types.RubricMetric.TEXT_QUALITY`
Entrada	`prompt` `response` (Opcional) `rubric_groups` Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída	`score` `rubrics` e `verdicts` correspondente A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM	6 chamadas para o Gemini 2.5 Flash

Seguir a instrução

Versão mais recente	`instruction_following_v1`
Tipo	Rubricas adaptativas
Descrição	Uma métrica de rubricas adaptativas segmentada que mede a adequação da resposta às restrições e instruções específicas fornecidas no comando.
Como acessar no SDK	`types.RubricMetric.INSTRUCTION_FOLLOWING`
Entrada	`prompt` `response` (Opcional) `rubric_groups` Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída	`score` (taxa de aprovação) `rubrics` e `verdicts` correspondente A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM	6 chamadas para o Gemini 2.5 Flash

Embasamento

Versão mais recente	`grounding_v1`
Tipo	Indicadores estáticos
Descrição	Uma métrica baseada em pontuação que verifica a veracidade e a consistência. Ele verifica se a resposta do modelo é embasada no contexto.
Como acessar no SDK	`types.RubricMetric.GROUNDING`
Entrada	`prompt` `response` `context`
Saída	`score` `explanation` A pontuação tem um intervalo de `0-1` e representa a taxa de declarações rotuladas como `supported` ou `no_rad` (que não exigem atribuições factuais, como saudações, perguntas ou exonerações de responsabilidade) para o comando de entrada. A explicação contém agrupamentos de frase, marcador, raciocínio e trecho do contexto.
Número de chamadas de LLM	1 chamada para o Gemini 2.5 Flash

Segurança

Versão mais recente	`safety_v1`
Tipo	Indicadores estáticos
Descrição	Uma métrica baseada em pontuação que avalia se a resposta do modelo violou uma ou mais das seguintes políticas: Dados demográficos e PII Discurso de ódio Conteúdo perigoso Assédio Sexualmente explícito
Como acessar no SDK	`types.RubricMetric.SAFETY`
Entrada	`prompt` `response`
Saída	`score` `explanation` Para a pontuação, `0` não é seguro e `1` é seguro. O campo de explicação inclui as políticas violadas.
Número de chamadas de LLM	10 chamadas para o Gemini 2.5 Flash

Qualidade geral multiturno

Versão mais recente	`multi_turn_general_quality_v1`
Tipo	Rubricas adaptativas
Descrição	Uma métrica de rubricas adaptáveis que avalia a qualidade geral da resposta de um modelo no contexto de um diálogo com vários turnos.
Como acessar no SDK	`types.RubricMetric.MULTI_TURN_GENERAL_QUALITY`
Entrada	`prompt` com conversas multiturno `response` (Opcional) `rubric_groups` Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída	`score` rubricas e veredictos correspondentes A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM	6 chamadas para o Gemini 2.5 Flash

Qualidade do texto multiturno

Versão mais recente	`multi_turn_text_quality_v1`
Tipo	Rubricas adaptativas
Descrição	Uma métrica de rubricas adaptáveis que avalia a qualidade do texto de uma resposta do modelo no contexto de um diálogo com vários turnos.
Como acessar no SDK	`types.RubricMetric.TEXT_QUALITY`
Entrada	`prompt` com conversas multiturno `response` (Opcional) `rubric_groups` Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída	`score` `rubrics` e `verdicts` correspondente A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM	6 chamadas para o Gemini 2.5 Flash

Correspondência da resposta final do agente

Versão mais recente	`final_response_match_v2`
Tipo	Indicadores estáticos
Descrição	Uma métrica que avalia a qualidade da resposta final de um agente de IA comparando-a a uma resposta de referência fornecida (informação empírica).
Como acessar no SDK	`types.RubricMetric.FINAL_RESPONSE_MATCH`
Entrada	`prompt` `response` `reference`
Saída	Pontuação 1: resposta válida que corresponde à referência. 0: resposta inválida que não corresponde à referência. Explicação
Número de chamadas de LLM	5 chamadas para o Gemini 2.5 Flash

Referência de resposta final do agente sem custo financeiro

Versão mais recente	`final_response_reference_free_v1`
Tipo	Rubricas adaptativas
Descrição	Uma métrica de rubricas adaptativa que avalia a qualidade da resposta final de um agente de IA sem precisar de uma resposta de referência. Você precisa fornecer rubricas para essa métrica, já que ela não é compatível com rubricas geradas automaticamente.
Como acessar no SDK	`types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE`
Entrada	`prompt` `response` `rubric_groups`
Saída	`score` `rubrics` e `verdicts` correspondente A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM	5 chamadas para o Gemini 2.5 Flash

Qualidade da resposta final do agente

Versão mais recente	`final_response_quality_v1`
Tipo	Rubricas adaptativas
Descrição	Uma métrica abrangente de rubricas adaptáveis que avalia a qualidade geral da resposta de um agente. Ele gera automaticamente uma ampla variedade de critérios com base na configuração do agente (instruções e declarações do desenvolvedor para ferramentas disponíveis ao agente) e no comando do usuário. Em seguida, ele avalia os critérios gerados com base no uso da ferramenta em eventos intermediários e na resposta final do agente.
Como acessar no SDK	`types.RubricMetric.FINAL_RESPONSE_QUALITY`
Entrada	`prompt` `response` `developer_instruction` `tool_declarations` (pode ser uma lista vazia) `intermediate_events` (contém chamadas e respostas de função, pode ser uma lista vazia) (Opcional) `rubric_groups` (se você já tiver rubricas geradas, poderá fornecê-las diretamente para avaliação)
Saída	`score` `rubrics` e `verdicts` correspondente A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM	5 chamadas para o Gemini 2.5 Flash e 1 chamada para o Gemini 2.5 Pro

Alucinação do agente

Versão mais recente	`hallucination_v1`
Tipo	Rubricas estáticas
Descrição	Uma métrica baseada em pontuação que verifica a veracidade e a consistência das respostas de texto segmentando-as em declarações atômicas. Ela verifica se cada declaração é fundamentada ou não com base no uso da ferramenta nos eventos intermediários. Também é possível usar esse recurso para avaliar respostas de texto intermediárias definindo a flag `evaluate_intermediate_nl_responses` como "true".
Como acessar no SDK	`types.RubricMetric.HALLUCINATION`
Entrada	`response` `developer_instruction` `tool_declarations` (pode ser uma lista vazia) `intermediate_events` (contém chamadas e respostas de função, pode ser uma lista vazia) `evaluate_intermediate_nl_responses` (o padrão é False)
Saída	`score` `explanation` e `verdicts` correspondente A pontuação varia de 0 a 1 e representa a taxa de declarações rotuladas como `supported` ou `no_rad` (que não exigem atribuições factuais, como saudações, perguntas ou exonerações de responsabilidade) em relação ao comando de entrada. A explicação contém uma análise estruturada da declaração, do rótulo, do raciocínio e de trechos que apoiam o contexto.
Número de chamadas de LLM	2 chamadas para o Gemini 2.5 Flash

Qualidade do uso de ferramentas do agente

Versão mais recente	`tool_use_quality_v1`
Tipo	Rubricas adaptativas
Descrição	Uma métrica de rubricas adaptativas segmentada que avalia a seleção de ferramentas adequadas, o uso correto de parâmetros e a adesão à sequência de operações especificada.
Como acessar no SDK	`types.RubricMetric.TOOL_USE_QUALITY`
Entrada	`prompt` `developer_instruction` `tool_declarations` (pode ser uma lista vazia) `intermediate_events` (contém chamadas e respostas de função, pode ser uma lista vazia) (Opcional) `rubric_groups` (se você já tiver rubricas geradas, poderá fornecê-las diretamente para avaliação)
Saída	`score` `rubrics` e `verdicts` correspondente A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM	5 chamadas para o Gemini 2.5 Flash e 1 chamada para o Gemini 2.5 Pro

Qualidade da conversão de texto em imagem do Gecko

Versão mais recente	`gecko_text2image_v1`
Tipo	Rubricas adaptativas
Descrição	A métrica de texto para imagem Gecko é um método adaptativo baseado em instruções para avaliar a qualidade de uma imagem gerada em relação ao comando de texto correspondente. Ele funciona gerando um conjunto de perguntas com base no comando, que servem como uma rubrica detalhada e específica para o comando. Em seguida, um modelo responde a essas perguntas com base na imagem gerada.
Como acessar no SDK	`types.RubricMetric.GECKO_TEXT2IMAGE`
Entrada	`prompt` `response`: precisa ser dados de arquivo com tipo MIME de imagem
Saída	`score` `rubrics` e `verdicts` correspondente A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM	2 chamadas para o Gemini 2.5 Flash

Qualidade de texto para vídeo do Gecko

Versão mais recente	`gecko_text2video_v1`
Tipo	Rubricas adaptativas
Descrição	A métrica de texto para vídeo Gecko é um método adaptável com base em instruções para avaliar a qualidade de um vídeo gerado em relação ao comando de texto correspondente. Ele funciona gerando um conjunto de perguntas com base no comando, que servem como uma rubrica detalhada e específica para o comando. Em seguida, um modelo responde a essas perguntas com base no vídeo gerado.
Como acessar no SDK	`types.RubricMetric.GECKO_TEXT2VIDEO`
Entrada	`prompt` `response`: precisa ser dados de arquivo com tipo MIME de vídeo.
Saída	`score` `rubrics` e `verdicts` correspondente A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM	2 chamadas para o Gemini 2.5 Flash

A seguir

Prepare o conjunto de dados de avaliação.

Exceto em caso de indicação contrária, o conteúdo desta página é licenciado de acordo com a Licença de atribuição 4.0 do Creative Commons, e as amostras de código são licenciadas de acordo com a Licença Apache 2.0. Para mais detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou afiliadas.

Última atualização 2026-01-23 UTC.