Detalhes das métricas baseadas em rubricas geridas
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Esta página fornece uma lista completa de métricas baseadas em rubricas geridas oferecidas pelo serviço de avaliação de IA gen, que pode usar no cliente de IA gen no SDK da Vertex AI.
O serviço de avaliação de IA gen oferece uma lista de métricas geridas baseadas em rubricas para a estrutura de avaliação orientada por testes:
Para métricas com rubricas adaptativas, a maioria inclui o fluxo de trabalho para a geração de rubricas para cada comando e a validação de rubricas. Pode executá-los separadamente, se necessário. Consulte o artigo Execute uma avaliação para ver detalhes.
Para métricas com rubricas estáticas, não são geradas rubricas por comando. Para ver detalhes sobre os resultados pretendidos, consulte Detalhes das métricas.
Cada métrica gerida baseada em rubricas tem um número de controlo de versões. A métrica usa a versão mais recente por predefinição, mas pode fixá-la a uma versão específica, se necessário:
Para as métricas oferecidas como modelos de comandos de métricas, pode continuar a aceder às métricas ao nível do ponto através do cliente de IA gen no SDK Vertex AI através da mesma abordagem. As métricas aos pares não são suportadas pelo cliente da IA gen no SDK da Vertex AI, mas consulte o artigo Executar uma avaliação para comparar dois modelos na mesma avaliação.
fromvertexaiimporttypes# Access metrics represented by metric prompt template examplescoherence=types.RubricMetric.COHERENCEfluency=types.RubricMetric.FLUENCY
Detalhes das métricas geridas
Esta secção apresenta as métricas geridas com detalhes como o respetivo tipo, entradas obrigatórias e resultado esperado:
Uma métrica de rubricas adaptativas abrangente que avalia a qualidade geral da resposta de um modelo. Gera e avalia automaticamente uma vasta gama de critérios com base no conteúdo do comando. Este é o ponto de partida recomendado para a maioria das avaliações.
Como aceder no SDK
types.RubricMetric.GENERAL_QUALITY
Entrada
prompt
response
(Opcional) rubric_groups
Se já tiver rubricas geradas, pode fornecê-las diretamente para avaliação.
Saída
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de MDIs
6 chamadas para o Gemini 2.5 Flash
Qualidade do texto
Versão mais recente
text_quality_v1
Tipo
Rubricas adaptáveis
Descrição
Uma métrica de rubricas adaptáveis segmentada que avalia especificamente a qualidade linguística da resposta. Avalia aspetos como a fluidez, a coerência e a gramática.
Como aceder no SDK
types.RubricMetric.TEXT_QUALITY
Entrada
prompt
response
(Opcional) rubric_groups
Se já tiver rubricas geradas, pode fornecê-las diretamente para avaliação.
Saída
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de MDIs
6 chamadas para o Gemini 2.5 Flash
Seguir instruções
Versão mais recente
instruction_following_v1
Tipo
Rubricas adaptáveis
Descrição
Uma métrica de rubricas adaptáveis segmentada que mede o grau de conformidade da resposta com as restrições e as instruções específicas fornecidas no comando.
Como aceder no SDK
types.RubricMetric.INSTRUCTION_FOLLOWING
Entrada
prompt
response
(Opcional) rubric_groups
Se já tiver rubricas geradas, pode fornecê-las diretamente para avaliação.
Saída
score (taxa de aprovação)
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de MDIs
6 chamadas para o Gemini 2.5 Flash
Fundamentação
Versão mais recente
grounding_v1
Tipo
Rubricas estáticas
Descrição
Uma métrica baseada em pontuação que verifica a factualidade e a consistência. Valida se a resposta do modelo se baseia no contexto.
Como aceder no SDK
types.RubricMetric.GROUNDING
Entrada
prompt
response
context
Saída
score
explanation
A pontuação tem um intervalo de 0-1 e representa a taxa de afirmações etiquetadas como supported ou no_rad (que não requerem atribuições factuais, como saudações, perguntas ou exclusões de responsabilidade) para o comando de entrada.
A explicação contém agrupamentos de frases, etiquetas, raciocínio e excertos do contexto.
Número de chamadas de MDIs
1 chamada para o Gemini 2.5 Flash
Segurança
Versão mais recente
safety_v1
Tipo
Rubricas estáticas
Descrição
Uma métrica baseada em pontuação que avalia se a resposta do modelo violou uma ou mais das seguintes políticas:
PII e dados demográficos
Incitação ao ódio
Conteúdo perigoso
Assédio
Conteúdo sexualmente explícito
Como aceder no SDK
types.RubricMetric.SAFETY
Entrada
prompt
response
Saída
score
explanation
Para a pontuação, 0 é inseguro e 1 é seguro.
O campo de explicação inclui as políticas violadas.
Número de chamadas de MDIs
10 chamadas para o Gemini 2.5 Flash
Qualidade geral de várias interações
Versão mais recente
multi_turn_general_quality_v1
Tipo
Rubricas adaptáveis
Descrição
Uma métrica de rubricas adaptativas que avalia a qualidade geral da resposta de um modelo no contexto de um diálogo de várias interações.
Como aceder no SDK
types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Entrada
prompt com conversas com várias interações
response
(Opcional) rubric_groups
Se já tiver rubricas geradas, pode fornecê-las diretamente para avaliação.
Saída
score
rubricas e vereditos correspondentes
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de MDIs
6 chamadas para o Gemini 2.5 Flash
Qualidade do texto de várias interações
Versão mais recente
multi_turn_text_quality_v1
Tipo
Rubricas adaptáveis
Descrição
Uma métrica de rubricas adaptativas que avalia a qualidade do texto da resposta de um modelo no contexto de um diálogo de várias interações.
Como aceder no SDK
types.RubricMetric.TEXT_QUALITY
Entrada
prompt com conversas com várias interações
response
(Opcional) rubric_groups
Se já tiver rubricas geradas, pode fornecê-las diretamente para avaliação.
Saída
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de MDIs
6 chamadas para o Gemini 2.5 Flash
Correspondência da resposta final do agente
Versão mais recente
final_response_match_v2
Tipo
Rubricas estáticas
Descrição
Uma métrica que avalia a qualidade da resposta final de um agente de IA comparando-a com uma resposta de referência fornecida (dados reais).
Como aceder no SDK
types.RubricMetric.FINAL_RESPONSE_MATCH
Entrada
prompt
response
reference
Saída
Pontuação
1: Resposta válida que corresponde à referência.
0: Resposta inválida que não corresponde à referência.
Explicação
Número de chamadas de MDIs
5 chamadas ao Gemini 2.5 Flash
Agente final response reference free
Versão mais recente
final_response_reference_free_v1
Tipo
Rubricas adaptáveis
Descrição
Uma métrica de rubricas adaptativa que avalia a qualidade da resposta final de um agente de IA sem precisar de uma resposta de referência.
Tem de fornecer rubricas para esta métrica, uma vez que não suporta rubricas geradas automaticamente.
Como aceder no SDK
types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Entrada
prompt
response
rubric_groups
Saída
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de MDIs
5 chamadas ao Gemini 2.5 Flash
Qualidade da resposta final do agente
Versão mais recente
final_response_quality_v1
Tipo
Rubricas adaptáveis
Descrição
Uma métrica de rubricas adaptativas abrangente que avalia a qualidade geral da resposta de um agente. Gera automaticamente uma vasta gama de critérios com base na configuração do agente (instruções e declarações do programador para ferramentas disponíveis para o agente) e no comando do utilizador. Em seguida, avalia os critérios gerados com base na utilização de ferramentas em eventos intermédios e na resposta final do agente.
Como aceder no SDK
types.RubricMetric.FINAL_RESPONSE_QUALITY
Entrada
prompt
response
developer_instruction
tool_declarations (pode ser uma lista vazia)
intermediate_events (contendo chamadas de funções e respostas, pode ser uma lista vazia)
(Opcional) rubric_groups (Se já tiver rubricas geradas, pode fornecê-las diretamente para avaliação)
Saída
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de MDIs
5 chamadas para o Gemini 2.5 Flash e 1 chamada para o Gemini 2.5 Pro
Alucinação do agente
Versão mais recente
hallucination_v1
Tipo
Rubricas estáticas
Descrição
Uma métrica baseada em pontuação que verifica a factualidade e a consistência das respostas de texto segmentando a resposta em afirmações atómicas. Verifica se cada reivindicação é fundamentada ou não com base na utilização de ferramentas nos eventos intermédios.
Também pode ser usada para avaliar quaisquer respostas de texto intermédias definindo a flag evaluate_intermediate_nl_responses como verdadeira.
Como aceder no SDK
types.RubricMetric.HALLUCINATION
Entrada
response
developer_instruction
tool_declarations (pode ser uma lista vazia)
intermediate_events (contendo chamadas de funções e respostas, pode ser uma lista vazia)
evaluate_intermediate_nl_responses (o valor predefinido é False)
Saída
score
explanation e verdicts correspondente
A classificação tem um intervalo de 0 a 1 e representa a taxa de reivindicações etiquetadas como supported ou no_rad (que não requerem atribuições factuais, como saudações, perguntas ou exclusões de responsabilidade) relativamente ao comando de entrada. A explicação contém uma discriminação estruturada da reivindicação, da etiqueta, do raciocínio e de excertos que suportam o contexto.
Número de chamadas de MDIs
2 chamadas para o Gemini 2.5 Flash
Qualidade de utilização das ferramentas do agente
Versão mais recente
tool_use_quality_v1
Tipo
Rubricas adaptáveis
Descrição
Uma métrica de rubricas adaptativas segmentada que avalia a seleção de ferramentas adequadas, a utilização correta de parâmetros e a adesão à sequência de operações especificada.
Como aceder no SDK
types.RubricMetric.TOOL_USE_QUALITY
Entrada
prompt
developer_instruction
tool_declarations (pode ser uma lista vazia)
intermediate_events (contendo chamadas de funções e respostas, pode ser uma lista vazia)
(Opcional) rubric_groups (Se já tiver rubricas geradas, pode fornecê-las diretamente para avaliação)
Saída
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de MDIs
5 chamadas para o Gemini 2.5 Flash e 1 chamada para o Gemini 2.5 Pro
Qualidade da transformação de texto em imagem do Gecko
Versão mais recente
gecko_text2image_v1
Tipo
Rubricas adaptáveis
Descrição
A métrica de texto para imagem Gecko é um método adaptativo baseado em rubricas para avaliar a qualidade de uma imagem gerada em função do comando de texto correspondente. Funciona gerando primeiro um conjunto de perguntas a partir do comando, que servem como uma rubrica detalhada e específica do comando. Em seguida, um modelo responde a estas perguntas com base na imagem gerada.
Como aceder no SDK
types.RubricMetric.GECKO_TEXT2IMAGE
Entrada
prompt
response: deve ser um ficheiro de dados com o tipo MIME de imagem
Saída
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de MDIs
2 chamadas para o Gemini 2.5 Flash
Qualidade da funcionalidade de texto para vídeo do Gecko
Versão mais recente
gecko_text2video_v1
Tipo
Rubricas adaptáveis
Descrição
A métrica de texto para vídeo Gecko é um método adaptável baseado em rubricas para avaliar a qualidade de um vídeo gerado em comparação com o comando de texto correspondente. Funciona gerando primeiro um conjunto de perguntas a partir do comando, que servem como uma rubrica detalhada e específica do comando. Em seguida, um modelo responde a estas perguntas com base no vídeo gerado.
Como aceder no SDK
types.RubricMetric.GECKO_TEXT2VIDEO
Entrada
prompt
response: deve ser um ficheiro de dados com o tipo MIME de vídeo
Saída
score
rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-12-04 UTC."],[],[]]