En esta página, se proporciona una lista completa de las métricas administradas basadas en rúbricas que ofrece el servicio de evaluación de IA generativa, que puedes usar en el cliente de GenAI en el SDK de Vertex AI.
Para obtener más información sobre la evaluación basada en pruebas, consulta Define tus métricas de evaluación.
Descripción general
El Gen AI Evaluation Service ofrece una lista de métricas administradas basadas en rúbricas para el framework de evaluación basado en pruebas:
En el caso de las métricas con rúbricas adaptativas, la mayoría de ellas incluyen el flujo de trabajo para la generación de rúbricas para cada instrucción y la validación de rúbricas. Puedes ejecutarlos por separado si es necesario. Consulta Ejecuta una evaluación para obtener más detalles.
Para las métricas con rúbricas estáticas, no se generan rúbricas por instrucción. Para obtener detalles sobre los resultados previstos, consulta Detalles de las métricas.
Cada métrica administrada basada en rúbricas tiene un número de versión. La métrica usa la versión más reciente de forma predeterminada, pero puedes fijar una versión específica si es necesario:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
Retrocompatibilidad
En el caso de las métricas que se ofrecen como plantillas de instrucciones de métricas, aún puedes acceder a las métricas puntuales a través del cliente de GenAI en el SDK de Vertex AI con el mismo enfoque. El cliente de IA generativa en el SDK de Vertex AI no admite métricas por pares, pero consulta Cómo ejecutar una evaluación para comparar dos modelos en la misma evaluación.
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
Detalles de las métricas administradas
En esta sección, se enumeran las métricas administradas con detalles como su tipo, las entradas requeridas y el resultado esperado:
Calidad general
| Versión más reciente |
general_quality_v1 |
| Tipo |
Rúbricas adaptables |
| Descripción |
Es una métrica de rúbricas adaptables integral que evalúa la calidad general de la respuesta de un modelo. Genera y evalúa automáticamente una amplia gama de criterios en función del contenido de la instrucción. Este es el punto de partida recomendado para la mayoría de las evaluaciones. |
| Cómo acceder en el SDK |
types.RubricMetric.GENERAL_QUALITY |
| Entrada |
prompt
response
- (Opcional)
rubric_groups
Si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación.
|
| Resultado |
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
|
| Cantidad de llamadas al LLM |
6 llamadas a Gemini 2.5 Flash |
Calidad del texto
| Versión más reciente |
text_quality_v1 |
| Tipo |
Rúbricas adaptables |
| Descripción |
Una métrica de rúbricas adaptables orientada que evalúa específicamente la calidad lingüística de la respuesta. Evalúa aspectos como la fluidez, la coherencia y la gramática. |
| Cómo acceder en el SDK |
types.RubricMetric.TEXT_QUALITY |
| Entrada |
prompt
response
- (Opcional)
rubric_groups
Si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación.
|
| Resultado |
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
|
| Cantidad de llamadas al LLM |
6 llamadas a Gemini 2.5 Flash |
Seguimiento de las instrucciones
| Versión más reciente |
instruction_following_v1 |
| Tipo |
Rúbricas adaptables |
| Descripción |
Es una métrica de rúbricas adaptables orientada que mide qué tan bien la respuesta se ajusta a las instrucciones y restricciones específicas proporcionadas en la instrucción. |
| Cómo acceder en el SDK |
types.RubricMetric.INSTRUCTION_FOLLOWING |
| Entrada |
prompt
response
- (Opcional)
rubric_groups
Si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación.
|
| Resultado |
score (porcentaje de aprobación)
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
|
| Cantidad de llamadas al LLM |
6 llamadas a Gemini 2.5 Flash |
Fundamentación
| Versión más reciente |
grounding_v1 |
| Tipo |
Rúbricas estáticas |
| Descripción |
Es una métrica basada en puntuación que verifica la veracidad y la coherencia. Verifica que la respuesta del modelo se base en el contexto. |
| Cómo acceder en el SDK |
types.RubricMetric.GROUNDING |
| Entrada |
|
| Resultado |
La puntuación tiene un rango de 0-1. Si alguna oración se etiqueta como unsupported o contradictory, la puntuación es 0. De lo contrario, la puntuación representa la proporción de oraciones etiquetadas como supported o no_rad en relación con la cantidad total de oraciones.
El campo explanation es una cadena JSON que contiene una lista de objetos por oración con el siguiente esquema:
[
{
"sentence": "string",
"label": "supported | unsupported | contradictory | no_rad",
"rationale": "string",
"excerpt": "string or null"
}
]
Cada objeto contiene los siguientes campos:
sentence: Es la oración que se analiza de la respuesta.
label: Es la clasificación de la oración. Puede ser uno de los siguientes valores:
supported: La oración está implicada por el contexto.
unsupported: La oración no está implicada por el contexto.
contradictory: El contexto falsifica la oración.
no_rad: La oración no requiere atribución fáctica (por ejemplo, opiniones, saludos, preguntas o renuncias de responsabilidad).
rationale: Es una breve explicación de la asignación de la etiqueta.
excerpt (presente para las etiquetas supported y contradictory): Es un fragmento pertinente del contexto que respalda o contradice la oración.
|
| Cantidad de llamadas al LLM |
1 llamada a Gemini 2.5 Flash |
Seguridad
| Versión más reciente |
safety_v1 |
| Tipo |
Rúbricas estáticas |
| Descripción |
Es una métrica basada en la puntuación que evalúa si la respuesta del modelo incumplió una o más de las siguientes políticas:
- PII y datos demográficos
- Incitación al odio o a la violencia
- Contenido peligroso
- Hostigamiento
- Sexualmente explícito
|
| Cómo acceder en el SDK |
types.RubricMetric.SAFETY |
| Entrada |
|
| Resultado |
Para la puntuación, 0 es inseguro y 1 es seguro.
El campo de explicación incluye las políticas incumplidas.
|
| Cantidad de llamadas al LLM |
10 llamadas a Gemini 2.5 Flash |
Calidad general de varios turnos
| Versión más reciente |
multi_turn_general_quality_v1 |
| Tipo |
Rúbricas adaptables |
| Descripción |
Es una métrica de rúbricas adaptables que evalúa la calidad general de la respuesta de un modelo en el contexto de un diálogo de varios turnos. |
| Cómo acceder en el SDK |
types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
| Entrada |
prompt con conversaciones de varios turnos
response
- (Opcional)
rubric_groups
Si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación.
|
| Resultado |
score
- Rúbricas y veredictos correspondientes
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
|
| Cantidad de llamadas al LLM |
6 llamadas a Gemini 2.5 Flash |
Calidad del texto en varios turnos
| Versión más reciente |
multi_turn_text_quality_v1 |
| Tipo |
Rúbricas adaptables |
| Descripción |
Es una métrica de rúbricas adaptables que evalúa la calidad del texto de la respuesta de un modelo en el contexto de un diálogo de varios turnos. |
| Cómo acceder en el SDK |
types.RubricMetric.TEXT_QUALITY |
| Entrada |
prompt con conversaciones de varios turnos
response
- (Opcional)
rubric_groups
Si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación.
|
| Resultado |
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
|
| Cantidad de llamadas al LLM |
6 llamadas a Gemini 2.5 Flash |
Coincidencia de la respuesta final del agente
| Versión más reciente |
final_response_match_v2 |
| Tipo |
Rúbricas estáticas |
| Descripción |
Es una métrica que evalúa la calidad de la respuesta final de un agente de IA comparándola con una respuesta de referencia proporcionada (verdad fundamental). |
| Cómo acceder en el SDK |
types.RubricMetric.FINAL_RESPONSE_MATCH |
| Entrada |
prompt
response
reference
|
| Resultado |
Puntuación
- 1: Respuesta válida que coincide con la referencia.
- 0: Respuesta no válida que no coincide con la referencia.
Explicación
|
| Cantidad de llamadas al LLM |
5 llamadas a Gemini 2.5 Flash |
La respuesta final del agente no tiene referencias
| Versión más reciente |
final_response_reference_free_v1 |
| Tipo |
Rúbricas adaptables |
| Descripción |
Es una métrica de rúbricas adaptables que evalúa la calidad de la respuesta final de un agente de IA sin necesidad de una respuesta de referencia.
Debes proporcionar rúbricas para esta métrica, ya que no admite rúbricas generadas automáticamente. |
| Cómo acceder en el SDK |
types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
| Entrada |
prompt
response
rubric_groups
|
| Resultado |
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
|
| Cantidad de llamadas al LLM |
5 llamadas a Gemini 2.5 Flash |
Calidad de la respuesta final del agente
| Versión más reciente |
final_response_quality_v1 |
| Tipo |
Rúbricas adaptables |
| Descripción |
Una métrica de rúbricas adaptables integral que evalúa la calidad general de la respuesta de un agente. Genera automáticamente una amplia gama de criterios en función de la configuración del agente (instrucciones y declaraciones del desarrollador para las herramientas disponibles para el agente) y la instrucción del usuario y, luego, evalúa los criterios generados en función del uso de la herramienta en eventos intermedios y la respuesta final del agente. |
| Cómo acceder en el SDK |
types.RubricMetric.FINAL_RESPONSE_QUALITY |
| Entrada |
prompt
response
developer_instruction
tool_declarations (puede ser una lista vacía)
intermediate_events (contiene llamadas a funciones y respuestas, puede ser una lista vacía)
- (Opcional)
rubric_groups (si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación)
|
| Resultado |
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
|
| Cantidad de llamadas al LLM |
5 llamadas a Gemini 2.5 Flash y 1 llamada a Gemini 2.5 Pro |
Alucinación del agente
| Versión más reciente |
hallucination_v1 |
| Tipo |
Rúbricas estáticas |
| Descripción |
Una métrica basada en puntuación que verifica la veracidad y la coherencia de las respuestas de texto segmentando la respuesta en afirmaciones atómicas. Verifica si cada afirmación está fundamentada o no en función del uso de la herramienta en los eventos intermedios.
También se puede usar para evaluar cualquier respuesta de texto intermedia si se establece la marca evaluate_intermediate_nl_responses como verdadera.
|
| Cómo acceder en el SDK |
types.RubricMetric.HALLUCINATION |
| Entrada |
response
developer_instruction
tool_declarations (puede ser una lista vacía)
intermediate_events (contiene llamadas a funciones y respuestas, puede ser una lista vacía)
evaluate_intermediate_nl_responses (el valor predeterminado es False)
|
| Resultado |
score
explanation y el verdicts correspondiente
La puntuación tiene un rango de 0-1 y representa la proporción de oraciones etiquetadas como supported o no_rad en relación con la cantidad total de oraciones.
El campo explanation es una cadena JSON que contiene una lista de objetos por evento con el siguiente esquema:
[
{
"response": "string",
"score": "double",
"explanation": [
{
"sentence": "string",
"label": "supported | unsupported | contradictory | disputed | no_rad",
"rationale": "string",
"supporting_excerpt": "string or null",
"contradicting_excerpt": "string or null"
}
]
}
]
Cada entrada de explanation contiene un objeto por oración segmentada con los siguientes campos:
sentence: Es la oración exacta que se extrajo durante el paso de segmentación de oraciones.
label: Es la clasificación de la oración. Puede ser uno de los siguientes valores:
supported: La oración está implicada por el contexto.
unsupported: La oración no está implicada por el contexto.
contradictory: El contexto falsifica la oración.
disputed: El contexto contiene información que respalda y contradice la afirmación.
no_rad: La oración no requiere atribución fáctica (por ejemplo, opiniones, saludos, preguntas o renuncias de responsabilidad).
rationale: Es una breve explicación de la asignación de la etiqueta.
supporting_excerpt (presente para las etiquetas supported y disputed): Es un fragmento pertinente del contexto que respalda la oración.
contradicting_excerpt (presente para las etiquetas contradictory y disputed): Es un fragmento pertinente del contexto que contradice la oración.
|
| Cantidad de llamadas al LLM |
2 llamadas a Gemini 2.5 Flash |
| Versión más reciente |
tool_use_quality_v1 |
| Tipo |
Rúbricas adaptables |
| Descripción |
Una métrica de rúbricas adaptables orientada que evalúa la selección de herramientas adecuadas, el uso correcto de los parámetros y el cumplimiento de la secuencia de operaciones especificada. |
| Cómo acceder en el SDK |
types.RubricMetric.TOOL_USE_QUALITY |
| Entrada |
prompt
developer_instruction
tool_declarations (puede ser una lista vacía)
intermediate_events (contiene llamadas a funciones y respuestas, puede ser una lista vacía)
- (Opcional)
rubric_groups (si ya generaste rúbricas, puedes proporcionarlas directamente para la evaluación)
|
| Resultado |
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
|
| Cantidad de llamadas al LLM |
5 llamadas a Gemini 2.5 Flash y 1 llamada a Gemini 2.5 Pro |
Éxito de la tarea en varios turnos del agente
| Versión más reciente |
multi_turn_task_success_v1 |
| Tipo |
Rúbricas adaptables |
| Descripción |
Es una métrica de rúbricas adaptables que evalúa si el agente cumplió con éxito los objetivos del usuario a lo largo de toda una conversación de varios turnos. Se enfoca en los resultados y las confirmaciones observables en las respuestas del agente, en lugar de los procesos intermedios, como las llamadas a herramientas específicas o los pasos de razonamiento.
La métrica funciona en tres pasos:
- Extracción de intención: Identifica los objetivos y las intenciones del usuario a partir de la conversación.
- Generación de rúbricas: Crea criterios basados en los intents extraídos, las instrucciones del agente y las definiciones de herramientas.
- Validación de rúbricas: Valida las respuestas generales del agente en función de las rúbricas generadas.
|
| Cómo acceder en el SDK |
types.RubricMetric.MULTI_TURN_TASK_SUCCESS |
| Entrada |
agent_eval_data (registro de conversación de varios turnos que incluye entradas, respuestas y llamadas a herramientas del modelo)
|
| Resultado |
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
|
| Cantidad de llamadas al LLM |
2 llamadas a Gemini 3.1 Pro y 5 llamadas a Gemini 3 Flash |
| Versión más reciente |
multi_turn_tool_use_quality_v1 |
| Tipo |
Rúbricas adaptables |
| Descripción |
Es una métrica de rúbricas adaptables que evalúa la corrección técnica y semántica de las llamadas a herramientas del agente a lo largo de toda una conversación de varios turnos. Verifica que el agente haya seleccionado las herramientas correctas, haya completado los argumentos de forma adecuada y haya cumplido con los esquemas de herramientas para cada objetivo del usuario.
La métrica funciona en tres pasos:
- Extracción de intención: Identifica los objetivos y las intenciones del usuario a partir de la conversación.
- Generación de rúbricas: Asigna cada intención a los criterios esperados de selección de herramientas, corrección de argumentos y cumplimiento del esquema.
- Validación de rúbricas: Valida las llamadas a herramientas reales del agente en función de las rúbricas generadas.
|
| Cómo acceder en el SDK |
types.RubricMetric.MULTI_TURN_TOOL_USE_QUALITY |
| Entrada |
agent_eval_data (registro de conversación de varios turnos que incluye entradas, respuestas y llamadas a herramientas del modelo)
|
| Resultado |
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
|
| Cantidad de llamadas al LLM |
2 llamadas a Gemini 3.1 Pro y 5 llamadas a Gemini 3 Flash |
Calidad de la trayectoria de varios turnos del agente
| Versión más reciente |
multi_turn_trajectory_quality_v1 |
| Tipo |
Rúbricas adaptables |
| Descripción |
Es una métrica de rúbricas adaptables que evalúa la calidad de la trayectoria de ejecución paso a paso del agente a lo largo de toda una conversación de varios turnos. Se enfoca en la estructura lógica y la validez técnica de la ruta del agente, no solo en la respuesta final.
La métrica funciona en tres pasos:
- Extracción de intención: Identifica los objetivos y las intenciones del usuario a partir de la conversación.
- Generación de rúbricas: Produce criterios en tres dimensiones: validez causal (secuencia correcta de enrutamiento de herramientas, seguimiento de estados y transferencia de datos), eficiencia (minimización de pasos innecesarios) y robustez adaptativa (manejo de casos extremos y errores).
- Validación de rúbricas: Valida la ruta de ejecución real del agente en función de las rúbricas generadas.
|
| Cómo acceder en el SDK |
types.RubricMetric.MULTI_TURN_TRAJECTORY_QUALITY |
| Entrada |
agent_eval_data (registro de conversación de varios turnos que incluye entradas, respuestas y llamadas a herramientas del modelo)
|
| Resultado |
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
|
| Cantidad de llamadas al LLM |
2 llamadas a Gemini 3.1 Pro y 5 llamadas a Gemini 3 Flash |
Calidad de texto a imagen de Gecko
| Versión más reciente |
gecko_text2image_v1 |
| Tipo |
Rúbricas adaptables |
| Descripción |
La métrica de texto a imagen Gecko es un método adaptativo basado en rúbricas para evaluar la calidad de una imagen generada en comparación con su instrucción de texto correspondiente. Primero, genera un conjunto de preguntas a partir de la instrucción, que sirven como una rúbrica detallada y específica de la instrucción. Luego, un modelo responde estas preguntas en función de la imagen generada. |
| Cómo acceder en el SDK |
types.RubricMetric.GECKO_TEXT2IMAGE |
| Entrada |
prompt
response: Debe ser datos de archivo con el tipo de MIME de imagen.
|
| Resultado |
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
|
| Cantidad de llamadas al LLM |
2 llamadas a Gemini 2.5 Flash |
Calidad de texto a video de Gecko
| Versión más reciente |
gecko_text2video_v1 |
| Tipo |
Rúbricas adaptables |
| Descripción |
La métrica de texto a video Gecko es un método adaptativo basado en rúbricas para evaluar la calidad de un video generado en comparación con su instrucción de texto correspondiente. Primero, genera un conjunto de preguntas a partir de la instrucción, que sirven como una rúbrica detallada y específica de la instrucción. Luego, un modelo responde estas preguntas en función del video generado. |
| Cómo acceder en el SDK |
types.RubricMetric.GECKO_TEXT2VIDEO |
| Entrada |
prompt
response: Debe ser datos de archivo con el tipo de MIME de video.
|
| Resultado |
score
rubrics y el verdicts correspondiente
La puntuación representa el porcentaje de aprobación de la respuesta según las rúbricas.
|
| Cantidad de llamadas al LLM |
2 llamadas a Gemini 2.5 Flash |
¿Qué sigue?