Detalhes das métricas gerenciadas com base em rubricas

Nesta página, você encontra uma lista completa de métricas gerenciadas baseadas em rubricas oferecidas pelo serviço de avaliação de IA generativa, que podem ser usadas no cliente GenAI no SDK da Vertex AI.

Para mais informações sobre a avaliação orientada por testes, consulte Definir métricas de avaliação.

Visão geral

O serviço de avaliação de IA generativa oferece uma lista de métricas gerenciadas baseadas em rubricas para o framework de avaliação orientada a testes:

  • Para métricas com rubricas adaptativas, a maioria inclui o fluxo de trabalho de geração de rubricas para cada comando e a validação delas. É possível executá-los separadamente, se necessário. Consulte Realizar uma avaliação para mais detalhes.

  • Para métricas com rubricas estáticas, nenhuma rubrica por solicitação é gerada. Para detalhes sobre as saídas pretendidas, consulte Detalhes da métrica.

Cada métrica gerenciada baseada em rubrica tem um número de controle de versão. Por padrão, a métrica usa a versão mais recente, mas é possível fixar uma versão específica, se necessário:

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

Compatibilidade com versões anteriores

Para métricas oferecidas como modelos de solicitação de métrica, ainda é possível acessar as métricas pontuais usando o cliente GenAI no SDK da Vertex AI da mesma forma. As métricas aos pares não são compatíveis com o cliente de IA generativa no SDK da Vertex AI. Consulte Executar uma avaliação para comparar dois modelos na mesma avaliação.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

Detalhes das métricas gerenciadas

Esta seção lista as métricas gerenciadas com detalhes como tipo, entradas obrigatórias e saída esperada:

Qualidade geral

Versão mais recente general_quality_v1
Tipo Rubricas adaptativas
Descrição Uma métrica de rubricas adaptativas abrangente que avalia a qualidade geral da resposta de um modelo. Ele gera e avalia automaticamente uma ampla variedade de critérios com base no conteúdo do comando. Esse é o ponto de partida recomendado para a maioria das avaliações.
Como acessar no SDK types.RubricMetric.GENERAL_QUALITY
Entrada
  • prompt
  • response
  • (Opcional) rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída
  • score
  • rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 6 chamadas para o Gemini 2.5 Flash

Qualidade do texto

Versão mais recente text_quality_v1
Tipo Rubricas adaptativas
Descrição Uma métrica de rubricas adaptativas segmentada que avalia especificamente a qualidade linguística da resposta. Ela avalia aspectos como fluidez, coerência e gramática.
Como acessar no SDK types.RubricMetric.TEXT_QUALITY
Entrada
  • prompt
  • response
  • (Opcional) rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída
  • score
  • rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 6 chamadas para o Gemini 2.5 Flash

Seguir a instrução

Versão mais recente instruction_following_v1
Tipo Rubricas adaptativas
Descrição Uma métrica de rubricas adaptativas segmentada que mede a adequação da resposta às restrições e instruções específicas fornecidas no comando.
Como acessar no SDK types.RubricMetric.INSTRUCTION_FOLLOWING
Entrada
  • prompt
  • response
  • (Opcional) rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída
  • score (taxa de aprovação)
  • rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 6 chamadas para o Gemini 2.5 Flash

Embasamento

Versão mais recente grounding_v1
Tipo Indicadores estáticos
Descrição Uma métrica baseada em pontuação que verifica a veracidade e a consistência. Ele verifica se a resposta do modelo é embasada no contexto.
Como acessar no SDK types.RubricMetric.GROUNDING
Entrada
  • prompt
  • response
  • context
Saída
  • score
  • explanation
A pontuação tem um intervalo de 0-1 e representa a taxa de declarações rotuladas como supported ou no_rad (que não exigem atribuições factuais, como saudações, perguntas ou exonerações de responsabilidade) para o comando de entrada.
A explicação contém agrupamentos de frase, marcador, raciocínio e trecho do contexto.
Número de chamadas de LLM 1 chamada para o Gemini 2.5 Flash

Segurança

Versão mais recente safety_v1
Tipo Indicadores estáticos
Descrição Uma métrica baseada em pontuação que avalia se a resposta do modelo violou uma ou mais das seguintes políticas:
  • Dados demográficos e PII
  • Discurso de ódio
  • Conteúdo perigoso
  • Assédio
  • Sexualmente explícito
Como acessar no SDK types.RubricMetric.SAFETY
Entrada
  • prompt
  • response
Saída
  • score
  • explanation
Para a pontuação, 0 não é seguro e 1 é seguro.
O campo de explicação inclui as políticas violadas.
Número de chamadas de LLM 10 chamadas para o Gemini 2.5 Flash

Qualidade geral multiturno

Versão mais recente multi_turn_general_quality_v1
Tipo Rubricas adaptativas
Descrição Uma métrica de rubricas adaptáveis que avalia a qualidade geral da resposta de um modelo no contexto de um diálogo com vários turnos.
Como acessar no SDK types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Entrada
  • prompt com conversas multiturno
  • response
  • (Opcional) rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída
  • score
  • rubricas e veredictos correspondentes
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 6 chamadas para o Gemini 2.5 Flash

Qualidade do texto multiturno

Versão mais recente multi_turn_text_quality_v1
Tipo Rubricas adaptativas
Descrição Uma métrica de rubricas adaptáveis que avalia a qualidade do texto de uma resposta do modelo no contexto de um diálogo com vários turnos.
Como acessar no SDK types.RubricMetric.TEXT_QUALITY
Entrada
  • prompt com conversas multiturno
  • response
  • (Opcional) rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída
  • score
  • rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 6 chamadas para o Gemini 2.5 Flash

Correspondência da resposta final do agente

Versão mais recente final_response_match_v2
Tipo Indicadores estáticos
Descrição Uma métrica que avalia a qualidade da resposta final de um agente de IA comparando-a a uma resposta de referência fornecida (informação empírica).
Como acessar no SDK types.RubricMetric.FINAL_RESPONSE_MATCH
Entrada
  • prompt
  • response
  • reference
Saída Pontuação
  • 1: resposta válida que corresponde à referência.
  • 0: resposta inválida que não corresponde à referência.
Explicação
Número de chamadas de LLM 5 chamadas para o Gemini 2.5 Flash

Referência de resposta final do agente sem custo financeiro

Versão mais recente final_response_reference_free_v1
Tipo Rubricas adaptativas
Descrição Uma métrica de rubricas adaptativa que avalia a qualidade da resposta final de um agente de IA sem precisar de uma resposta de referência.
Você precisa fornecer rubricas para essa métrica, já que ela não é compatível com rubricas geradas automaticamente.
Como acessar no SDK types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Entrada
  • prompt
  • response
  • rubric_groups
Saída
  • score
  • rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 5 chamadas para o Gemini 2.5 Flash

Qualidade da resposta final do agente

Versão mais recente final_response_quality_v1
Tipo Rubricas adaptativas
Descrição Uma métrica abrangente de rubricas adaptáveis que avalia a qualidade geral da resposta de um agente. Ele gera automaticamente uma ampla variedade de critérios com base na configuração do agente (instruções e declarações do desenvolvedor para ferramentas disponíveis ao agente) e no comando do usuário. Em seguida, ele avalia os critérios gerados com base no uso da ferramenta em eventos intermediários e na resposta final do agente.
Como acessar no SDK types.RubricMetric.FINAL_RESPONSE_QUALITY
Entrada
  • prompt
  • response
  • developer_instruction
  • tool_declarations (pode ser uma lista vazia)
  • intermediate_events (contém chamadas e respostas de função, pode ser uma lista vazia)
  • (Opcional) rubric_groups (se você já tiver rubricas geradas, poderá fornecê-las diretamente para avaliação)
Saída
  • score
  • rubrics e verdicts correspondente

A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 5 chamadas para o Gemini 2.5 Flash e 1 chamada para o Gemini 2.5 Pro

Alucinação do agente

Versão mais recente hallucination_v1
Tipo Rubricas estáticas
Descrição Uma métrica baseada em pontuação que verifica a veracidade e a consistência das respostas de texto segmentando-as em declarações atômicas. Ela verifica se cada declaração é fundamentada ou não com base no uso da ferramenta nos eventos intermediários. Também é possível usar esse recurso para avaliar respostas de texto intermediárias definindo a flag evaluate_intermediate_nl_responses como "true".
Como acessar no SDK types.RubricMetric.HALLUCINATION
Entrada
  • response
  • developer_instruction
  • tool_declarations (pode ser uma lista vazia)
  • intermediate_events (contém chamadas e respostas de função, pode ser uma lista vazia)
  • evaluate_intermediate_nl_responses (o padrão é False)
Saída
  • score
  • explanation e verdicts correspondente
A pontuação varia de 0 a 1 e representa a taxa de declarações rotuladas como supported ou no_rad (que não exigem atribuições factuais, como saudações, perguntas ou exonerações de responsabilidade) em relação ao comando de entrada. A explicação contém uma análise estruturada da declaração, do rótulo, do raciocínio e de trechos que apoiam o contexto.
Número de chamadas de LLM 2 chamadas para o Gemini 2.5 Flash

Qualidade do uso de ferramentas do agente

Versão mais recente tool_use_quality_v1
Tipo Rubricas adaptativas
Descrição Uma métrica de rubricas adaptativas segmentada que avalia a seleção de ferramentas adequadas, o uso correto de parâmetros e a adesão à sequência de operações especificada.
Como acessar no SDK types.RubricMetric.TOOL_USE_QUALITY
Entrada
  • prompt
  • developer_instruction
  • tool_declarations (pode ser uma lista vazia)
  • intermediate_events (contém chamadas e respostas de função, pode ser uma lista vazia)
  • (Opcional) rubric_groups (se você já tiver rubricas geradas, poderá fornecê-las diretamente para avaliação)
Saída
  • score
  • rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 5 chamadas para o Gemini 2.5 Flash e 1 chamada para o Gemini 2.5 Pro

Qualidade da conversão de texto em imagem do Gecko

Versão mais recente gecko_text2image_v1
Tipo Rubricas adaptativas
Descrição A métrica de texto para imagem Gecko é um método adaptativo baseado em instruções para avaliar a qualidade de uma imagem gerada em relação ao comando de texto correspondente. Ele funciona gerando um conjunto de perguntas com base no comando, que servem como uma rubrica detalhada e específica para o comando. Em seguida, um modelo responde a essas perguntas com base na imagem gerada.
Como acessar no SDK types.RubricMetric.GECKO_TEXT2IMAGE
Entrada
  • prompt
  • response: precisa ser dados de arquivo com tipo MIME de imagem
Saída
  • score
  • rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 2 chamadas para o Gemini 2.5 Flash

Qualidade de texto para vídeo do Gecko

Versão mais recente gecko_text2video_v1
Tipo Rubricas adaptativas
Descrição A métrica de texto para vídeo Gecko é um método adaptável com base em instruções para avaliar a qualidade de um vídeo gerado em relação ao comando de texto correspondente. Ele funciona gerando um conjunto de perguntas com base no comando, que servem como uma rubrica detalhada e específica para o comando. Em seguida, um modelo responde a essas perguntas com base no vídeo gerado.
Como acessar no SDK types.RubricMetric.GECKO_TEXT2VIDEO
Entrada
  • prompt
  • response: precisa ser dados de arquivo com tipo MIME de vídeo.
Saída
  • score
  • rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 2 chamadas para o Gemini 2.5 Flash

A seguir