Detalles de las métricas administradas basadas en rúbricas
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
En esta página, se proporciona una lista completa de las métricas administradas basadas en rúbricas que ofrece el servicio de evaluación de IA generativa, que puedes usar en el cliente de GenAI en el SDK de Vertex AI.
El servicio de evaluación de IA generativa ofrece una lista de métricas administradas basadas en rúbricas para el framework de evaluación basada en pruebas:
En el caso de las métricas con rúbricas adaptativas, la mayoría de ellas incluyen el flujo de trabajo para la generación de rúbricas para cada instrucción y la validación de rúbricas. Puedes ejecutarlos por separado si es necesario. Consulta Ejecuta una evaluación para obtener más detalles.
Para las métricas con rúbricas estáticas, no se generan rúbricas por instrucción. Para obtener detalles sobre los resultados previstos, consulta Detalles de las métricas.
Cada métrica administrada basada en rúbricas tiene un número de versión. La métrica usa la versión más reciente de forma predeterminada, pero puedes fijar una versión específica si es necesario:
En el caso de las métricas que se ofrecen como plantillas de instrucciones de métricas, aún puedes acceder a las métricas puntuales a través del cliente de GenAI en el SDK de Vertex AI con el mismo enfoque. El cliente de IA generativa en el SDK de Vertex AI no admite métricas por pares, pero consulta Cómo ejecutar una evaluación para comparar dos modelos en la misma evaluación.
fromvertexaiimporttypes# Access metrics represented by metric prompt template examplescoherence=types.RubricMetric.COHERENCEfluency=types.RubricMetric.FLUENCY
Detalles de las métricas administradas
En esta sección, se enumeran las métricas administradas con detalles como su tipo, las entradas requeridas y el resultado esperado:
Es una métrica integral de rúbricas adaptables que evalúa la calidad general de la respuesta de un modelo. Genera y evalúa automáticamente una amplia variedad de criterios en función del contenido de la instrucción. Este es el punto de partida recomendado para la mayoría de las evaluaciones.
Cómo acceder en el SDK
types.RubricMetric.GENERAL_QUALITY
Entrada
prompt
response
(Opcional) rubric_groups
Si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación.
Resultado
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
Cantidad de llamadas al LLM
6 llamadas a Gemini 2.5 Flash
Calidad del texto
Versión más reciente
text_quality_v1
Tipo
Rúbricas adaptables
Descripción
Es una métrica de rúbricas adaptables segmentada que evalúa específicamente la calidad lingüística de la respuesta. Evalúa aspectos como la fluidez, la coherencia y la gramática.
Cómo acceder en el SDK
types.RubricMetric.TEXT_QUALITY
Entrada
prompt
response
(Opcional) rubric_groups
Si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación.
Resultado
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
Cantidad de llamadas al LLM
6 llamadas a Gemini 2.5 Flash
Seguimiento de las instrucciones
Versión más reciente
instruction_following_v1
Tipo
Rúbricas adaptables
Descripción
Es una métrica de rúbricas adaptativas segmentada que mide qué tan bien se ajusta la respuesta a las instrucciones y restricciones específicas que se indican en la instrucción.
Cómo acceder en el SDK
types.RubricMetric.INSTRUCTION_FOLLOWING
Entrada
prompt
response
(Opcional) rubric_groups
Si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación.
Resultado
score (tasa de aprobación)
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
Cantidad de llamadas al LLM
6 llamadas a Gemini 2.5 Flash
Fundamentos
Versión más reciente
grounding_v1
Tipo
Rúbricas estáticas
Descripción
Es una métrica basada en la puntuación que verifica la facticidad y la coherencia. Verifica que la respuesta del modelo se base en el contexto.
Cómo acceder en el SDK
types.RubricMetric.GROUNDING
Entrada
prompt
response
context
Resultado
score
explanation
La puntuación tiene un rango de 0-1 y representa la proporción de afirmaciones etiquetadas como supported o no_rad (que no requieren atribuciones fácticas, como saludos, preguntas o renuncias de responsabilidad) en la instrucción de entrada.
La explicación contiene agrupaciones de oraciones, etiquetas, razonamientos y extractos del contexto.
Cantidad de llamadas al LLM
1 llamada a Gemini 2.5 Flash
Seguridad
Versión más reciente
safety_v1
Tipo
Rúbricas estáticas
Descripción
Es una métrica basada en la puntuación que evalúa si la respuesta del modelo incumplió una o más de las siguientes políticas:
Datos demográficos y de identificación personal
Incitación al odio o a la violencia
Contenido peligroso
Acoso
Sexualmente explícito
Cómo acceder en el SDK
types.RubricMetric.SAFETY
Entrada
prompt
response
Resultado
score
explanation
Para la puntuación, 0 es inseguro y 1 es seguro.
El campo de explicación incluye las políticas incumplidas.
Cantidad de llamadas al LLM
10 llamadas a Gemini 2.5 Flash
Calidad general de varios turnos
Versión más reciente
multi_turn_general_quality_v1
Tipo
Rúbricas adaptables
Descripción
Es una métrica de rúbricas adaptables que evalúa la calidad general de la respuesta de un modelo en el contexto de un diálogo de varios turnos.
Cómo acceder en el SDK
types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Entrada
prompt con conversaciones de varios turnos
response
(Opcional) rubric_groups
Si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación.
Resultado
score
Rúbricas y veredictos correspondientes
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
Cantidad de llamadas al LLM
6 llamadas a Gemini 2.5 Flash
Calidad del texto de varios turnos
Versión más reciente
multi_turn_text_quality_v1
Tipo
Rúbricas adaptables
Descripción
Es una métrica de rúbricas adaptables que evalúa la calidad del texto de la respuesta de un modelo en el contexto de un diálogo de varios turnos.
Cómo acceder en el SDK
types.RubricMetric.TEXT_QUALITY
Entrada
prompt con conversaciones de varios turnos
response
(Opcional) rubric_groups
Si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación.
Resultado
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
Cantidad de llamadas al LLM
6 llamadas a Gemini 2.5 Flash
Coincidencia de la respuesta final del agente
Versión más reciente
final_response_match_v2
Tipo
Rúbricas estáticas
Descripción
Es una métrica que evalúa la calidad de la respuesta final de un agente de IA comparándola con una respuesta de referencia proporcionada (verdad fundamental).
Cómo acceder en el SDK
types.RubricMetric.FINAL_RESPONSE_MATCH
Entrada
prompt
response
reference
Resultado
Puntuación
1: Respuesta válida que coincide con la referencia.
0: Respuesta no válida que no coincide con la referencia.
Explicación
Cantidad de llamadas al LLM
5 llamadas a Gemini 2.5 Flash
Referencia de respuesta final del agente
Versión más reciente
final_response_reference_free_v1
Tipo
Rúbricas adaptables
Descripción
Es una métrica de rúbricas adaptativas que evalúa la calidad de la respuesta final de un agente de IA sin necesidad de una respuesta de referencia.
Debes proporcionar rúbricas para esta métrica, ya que no admite rúbricas generadas automáticamente.
Cómo acceder en el SDK
types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Entrada
prompt
response
rubric_groups
Resultado
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
Cantidad de llamadas al LLM
5 llamadas a Gemini 2.5 Flash
Calidad de la respuesta final del agente
Versión más reciente
final_response_quality_v1
Tipo
Rúbricas adaptables
Descripción
Es una métrica integral de rúbricas adaptables que evalúa la calidad general de la respuesta de un agente. Genera automáticamente una amplia variedad de criterios en función de la configuración del agente (instrucciones del desarrollador y declaraciones de las herramientas disponibles para el agente) y la instrucción del usuario. Luego, evalúa los criterios generados en función del uso de herramientas en los eventos intermedios y la respuesta final del agente.
Cómo acceder en el SDK
types.RubricMetric.FINAL_RESPONSE_QUALITY
Entrada
prompt
response
developer_instruction
tool_declarations (puede ser una lista vacía)
intermediate_events (contiene llamadas a funciones y respuestas, puede ser una lista vacía)
(Opcional) rubric_groups (si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación)
Resultado
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
Cantidad de llamadas al LLM
5 llamadas a Gemini 2.5 Flash y 1 llamada a Gemini 2.5 Pro
Alucinación del agente
Versión más reciente
hallucination_v1
Tipo
Rúbricas estáticas
Descripción
Es una métrica basada en la puntuación que verifica la facticidad y la coherencia de las respuestas de texto segmentando la respuesta en afirmaciones atómicas. Verifica si cada afirmación está fundamentada o no según el uso de herramientas en los eventos intermedios.
También se puede aprovechar para evaluar cualquier respuesta de texto intermedia configurando la marca evaluate_intermediate_nl_responses como verdadera.
Cómo acceder en el SDK
types.RubricMetric.HALLUCINATION
Entrada
response
developer_instruction
tool_declarations (puede ser una lista vacía)
intermediate_events (contiene llamadas a funciones y respuestas, puede ser una lista vacía)
evaluate_intermediate_nl_responses (el valor predeterminado es False)
Resultado
score
explanation y el verdicts correspondiente
La puntuación tiene un rango de 0 a 1 y representa la proporción de afirmaciones etiquetadas como supported o no_rad (que no requieren atribuciones fácticas, como saludos, preguntas o renuncias de responsabilidad) en relación con la instrucción de entrada. La explicación contiene un desglose estructurado del reclamo, la etiqueta, el razonamiento y los fragmentos que respaldan el contexto.
Cantidad de llamadas al LLM
2 llamadas a Gemini 2.5 Flash
Calidad del uso de herramientas de agentes
Versión más reciente
tool_use_quality_v1
Tipo
Rúbricas adaptables
Descripción
Es una métrica de rúbricas adaptables segmentada que evalúa la selección de herramientas adecuadas, el uso correcto de los parámetros y el cumplimiento de la secuencia de operaciones especificada.
Cómo acceder en el SDK
types.RubricMetric.TOOL_USE_QUALITY
Entrada
prompt
developer_instruction
tool_declarations (puede ser una lista vacía)
intermediate_events (contiene llamadas a funciones y respuestas, puede ser una lista vacía)
(Opcional) rubric_groups (si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación)
Resultado
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
Cantidad de llamadas al LLM
5 llamadas a Gemini 2.5 Flash y 1 llamada a Gemini 2.5 Pro
Calidad de texto a imagen de Gecko
Versión más reciente
gecko_text2image_v1
Tipo
Rúbricas adaptables
Descripción
La métrica de texto a imagen Gecko es un método adaptable basado en rúbricas para evaluar la calidad de una imagen generada en comparación con su instrucción de texto correspondiente. Primero, genera un conjunto de preguntas a partir de la instrucción, que sirven como una rúbrica detallada y específica de la instrucción. Luego, un modelo responde estas preguntas en función de la imagen generada.
Cómo acceder en el SDK
types.RubricMetric.GECKO_TEXT2IMAGE
Entrada
prompt
response: Debe ser datos de archivo con el tipo de MIME de imagen.
Resultado
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
Cantidad de llamadas al LLM
2 llamadas a Gemini 2.5 Flash
Calidad de texto a video de Gecko
Versión más reciente
gecko_text2video_v1
Tipo
Rúbricas adaptables
Descripción
La métrica de texto a video Gecko es un método adaptable basado en rúbricas para evaluar la calidad de un video generado en comparación con su instrucción de texto correspondiente. Primero, genera un conjunto de preguntas a partir de la instrucción, que sirven como una rúbrica detallada y específica de la instrucción. Luego, un modelo responde estas preguntas en función del video generado.
Cómo acceder en el SDK
types.RubricMetric.GECKO_TEXT2VIDEO
Entrada
prompt
response: Debe ser datos de archivo con el tipo de MIME de video.
Resultado
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-12-04 (UTC)"],[],[]]