Detalles de las métricas basadas en rúbricas gestionadas
Organízate con las colecciones
Guarda y clasifica el contenido según tus preferencias.
En esta página se ofrece una lista completa de las métricas gestionadas basadas en rúbricas que ofrece el servicio de evaluación de IA generativa, que puedes usar en el cliente de IA generativa del SDK de Vertex AI.
El servicio de evaluación de la IA generativa ofrece una lista de métricas gestionadas basadas en rúbricas para el marco de evaluación basado en pruebas:
En el caso de las métricas con rúbricas adaptativas, la mayoría incluyen tanto el flujo de trabajo para generar rúbricas para cada petición como la validación de rúbricas. Puedes ejecutarlas por separado si es necesario. Consulta Realizar una evaluación para obtener más información.
En el caso de las métricas con rúbricas estáticas, no se generan rúbricas por petición. Para obtener más información sobre los resultados previstos, consulta Detalles de las métricas.
Cada métrica gestionada basada en rúbricas tiene un número de versión. La métrica usa la versión más reciente de forma predeterminada, pero puedes fijar una versión específica si lo necesitas:
En el caso de las métricas que se ofrecen como plantillas de peticiones de métricas, puedes seguir accediendo a las métricas puntuales a través del cliente de IA generativa en el SDK de Vertex AI con el mismo método. El cliente de IA generativa del SDK de Vertex AI no admite métricas por pares, pero puedes consultar Realizar una evaluación para comparar dos modelos en la misma evaluación.
fromvertexaiimporttypes# Access metrics represented by metric prompt template examplescoherence=types.RubricMetric.COHERENCEfluency=types.RubricMetric.FLUENCY
Detalles de las métricas gestionadas
En esta sección se enumeran las métricas gestionadas con detalles como su tipo, las entradas obligatorias y la salida esperada:
Métrica de rúbricas adaptativas completa que evalúa la calidad general de la respuesta de un modelo. Genera y evalúa automáticamente una amplia gama de criterios en función del contenido de la petición. Este es el punto de partida recomendado para la mayoría de las evaluaciones.
Cómo acceder en el SDK
types.RubricMetric.GENERAL_QUALITY
Entrada
prompt
response
(Opcional) rubric_groups
Si ya has generado rúbricas, puedes proporcionarlas directamente para que se evalúen.
Salida
score
rubrics y el correspondiente verdicts
La puntuación representa la tasa de aprobación de la respuesta en función de las rúbricas.
Número de llamadas a LLMs
6 llamadas a Gemini 2.5 Flash
Calidad del texto
Última versión
text_quality_v1
Tipo
Rúbricas adaptativas
Descripción
Una métrica de rúbricas adaptativas segmentada que evalúa específicamente la calidad lingüística de la respuesta. Evalúa aspectos como la fluidez, la coherencia y la gramática.
Cómo acceder en el SDK
types.RubricMetric.TEXT_QUALITY
Entrada
prompt
response
(Opcional) rubric_groups
Si ya has generado rúbricas, puedes proporcionarlas directamente para que se evalúen.
Salida
score
rubrics y el verdicts correspondiente
La puntuación representa la tasa de aprobados de la respuesta en función de las rúbricas.
Número de llamadas a LLMs
6 llamadas a Gemini 2.5 Flash
Seguir instrucciones
Última versión
instruction_following_v1
Tipo
Rúbricas adaptativas
Descripción
Métrica de rúbricas adaptativas orientada que mide el grado de cumplimiento de la respuesta con respecto a las restricciones e instrucciones específicas proporcionadas en la petición.
Cómo acceder en el SDK
types.RubricMetric.INSTRUCTION_FOLLOWING
Entrada
prompt
response
(Opcional) rubric_groups
Si ya has generado rúbricas, puedes proporcionarlas directamente para que se evalúen.
Salida
score (porcentaje de aprobados)
rubrics y el verdicts correspondiente
La puntuación representa la tasa de aprobados de la respuesta en función de las rúbricas.
Número de llamadas a LLMs
6 llamadas a Gemini 2.5 Flash
Fundamentación
Última versión
grounding_v1
Tipo
Rúbricas estáticas
Descripción
Métrica basada en puntuación que comprueba la veracidad y la coherencia. Verifica que la respuesta del modelo se basa en el contexto.
Cómo acceder en el SDK
types.RubricMetric.GROUNDING
Entrada
prompt
response
context
Salida
score
explanation
La puntuación tiene un intervalo de 0-1 y representa la proporción de reclamaciones etiquetadas como supported o no_rad (que no requieren atribuciones de hechos, como saludos, preguntas o avisos) en la petición.
La explicación contiene agrupaciones de frases, etiquetas, razonamientos y fragmentos del contexto.
Número de llamadas a LLMs
1 llamada a Gemini 2.5 Flash
Seguridad
Última versión
safety_v1
Tipo
Rúbricas estáticas
Descripción
Métrica basada en puntuaciones que evalúa si la respuesta del modelo ha infringido una o varias de las siguientes políticas:
Información personal y datos demográficos
Incitación al odio
Contenido peligroso
Acoso
Contenido sexual explícito
Cómo acceder en el SDK
types.RubricMetric.SAFETY
Entrada
prompt
response
Salida
score
explanation
En cuanto a la puntuación, 0 no es seguro y 1 sí lo es.
En el campo de explicación se incluyen las políticas infringidas.
Número de llamadas a LLMs
10 llamadas a Gemini 2.5 Flash
Calidad general de varios turnos
Última versión
multi_turn_general_quality_v1
Tipo
Rúbricas adaptativas
Descripción
Una métrica de rúbricas adaptativas que evalúa la calidad general de la respuesta de un modelo en el contexto de un diálogo de varias interacciones.
Cómo acceder en el SDK
types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Entrada
prompt con conversaciones multiturno
response
(Opcional) rubric_groups
Si ya has generado rúbricas, puedes proporcionarlas directamente para que se evalúen.
Salida
score
rúbricas y veredictos correspondientes
La puntuación representa la tasa de aprobaciones de la respuesta en función de las rúbricas.
Número de llamadas a LLMs
6 llamadas a Gemini 2.5 Flash
Calidad del texto en conversaciones de varios turnos
Última versión
multi_turn_text_quality_v1
Tipo
Rúbricas adaptativas
Descripción
Métrica de rúbricas adaptativas que evalúa la calidad del texto de la respuesta de un modelo en el contexto de un diálogo de varias interacciones.
Cómo acceder en el SDK
types.RubricMetric.TEXT_QUALITY
Entrada
prompt con conversaciones multiturno
response
(Opcional) rubric_groups
Si ya has generado rúbricas, puedes proporcionarlas directamente para que se evalúen.
Salida
score
rubrics y el verdicts correspondiente
La puntuación representa la tasa de aprobados de la respuesta en función de las rúbricas.
Número de llamadas a LLMs
6 llamadas a Gemini 2.5 Flash
Agent final response match
Última versión
final_response_match_v2
Tipo
Rúbricas estáticas
Descripción
Métrica que evalúa la calidad de la respuesta final de un agente de IA comparándola con una respuesta de referencia proporcionada (validada en el terreno).
Cómo acceder en el SDK
types.RubricMetric.FINAL_RESPONSE_MATCH
Entrada
prompt
response
reference
Salida
Puntuación
1: Respuesta válida que coincide con la referencia.
0: respuesta no válida que no coincide con la referencia.
Explicación
Número de llamadas a LLMs
5 llamadas a Gemini 2.5 Flash
Referencia de respuesta final del agente (gratuita)
Última versión
final_response_reference_free_v1
Tipo
Rúbricas adaptativas
Descripción
Una métrica de rúbricas adaptativas que evalúa la calidad de la respuesta final de un agente de IA sin necesidad de una respuesta de referencia.
Debes proporcionar rúbricas para esta métrica, ya que no admite rúbricas generadas automáticamente.
Cómo acceder en el SDK
types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Entrada
prompt
response
rubric_groups
Salida
score
rubrics y el verdicts correspondiente
La puntuación representa la tasa de aprobados de la respuesta en función de las rúbricas.
Número de llamadas a LLMs
5 llamadas a Gemini 2.5 Flash
Calidad de la respuesta final del agente
Última versión
final_response_quality_v1
Tipo
Rúbricas adaptativas
Descripción
Métrica de rúbricas adaptativas completa que evalúa la calidad general de la respuesta de un agente. Genera automáticamente una amplia gama de criterios en función de la configuración del agente (instrucciones del desarrollador y declaraciones de las herramientas disponibles para el agente) y de la petición del usuario. A continuación, evalúa los criterios generados en función del uso de las herramientas en los eventos intermedios y en la respuesta final del agente.
Cómo acceder en el SDK
types.RubricMetric.FINAL_RESPONSE_QUALITY
Entrada
prompt
response
developer_instruction
tool_declarations (puede ser una lista vacía)
intermediate_events (que contiene llamadas a funciones y respuestas, puede ser una lista vacía)
(Opcional) rubric_groups (Si ya has generado rúbricas, puedes proporcionarlas directamente para que se evalúen)
Salida
score
rubrics y el verdicts correspondiente
La puntuación representa la tasa de aprobación de la respuesta en función de las rúbricas.
Número de llamadas a LLMs
5 llamadas a Gemini 2.5 Flash y 1 llamada a Gemini 2.5 Pro
Alucinaciones de los agentes
Última versión
hallucination_v1
Tipo
Rúbricas estáticas
Descripción
Métrica basada en puntuación que comprueba la veracidad y la coherencia de las respuestas de texto segmentando la respuesta en afirmaciones atómicas. Verifica si cada afirmación está fundamentada o no en función del uso de la herramienta en los eventos intermedios.
También se puede usar para evaluar cualquier respuesta de texto intermedia configurando la marca evaluate_intermediate_nl_responses como true.
Cómo acceder en el SDK
types.RubricMetric.HALLUCINATION
Entrada
response
developer_instruction
tool_declarations (puede ser una lista vacía)
intermediate_events (que contiene llamadas a funciones y respuestas, puede ser una lista vacía)
evaluate_intermediate_nl_responses (el valor predeterminado es False)
Salida
score
explanation y el correspondiente verdicts
La puntuación tiene un intervalo de 0 a 1 y representa la tasa de reclamaciones etiquetadas como supported o no_rad (que no requieren atribuciones objetivas, como saludos, preguntas o renuncias de responsabilidad) en relación con la petición de entrada. La explicación contiene un desglose estructurado de la reclamación, la etiqueta, el razonamiento y los fragmentos que respaldan el contexto.
Número de llamadas a LLMs
2 llamadas a Gemini 2.5 Flash
Calidad del uso de las herramientas de los agentes
Última versión
tool_use_quality_v1
Tipo
Rúbricas adaptativas
Descripción
Una métrica de guía de evaluación adaptativa específica que evalúa la selección de las herramientas adecuadas, el uso correcto de los parámetros y el cumplimiento de la secuencia de operaciones especificada.
Cómo acceder en el SDK
types.RubricMetric.TOOL_USE_QUALITY
Entrada
prompt
developer_instruction
tool_declarations (puede ser una lista vacía)
intermediate_events (que contiene llamadas a funciones y respuestas, puede ser una lista vacía)
(Opcional) rubric_groups (Si ya has generado rúbricas, puedes proporcionarlas directamente para que se evalúen)
Salida
score
rubrics y el verdicts correspondiente
La puntuación representa la tasa de aprobados de la respuesta en función de las rúbricas.
Número de llamadas a LLMs
5 llamadas a Gemini 2.5 Flash y 1 llamada a Gemini 2.5 Pro
Calidad de texto a imagen de Gecko
Última versión
gecko_text2image_v1
Tipo
Rúbricas adaptativas
Descripción
La métrica de conversión de texto a imagen Gecko es un método adaptativo basado en rúbricas para evaluar la calidad de una imagen generada en comparación con su petición de texto correspondiente. Para ello, primero genera un conjunto de preguntas a partir de la petición, que sirven como rúbrica detallada y específica de la petición. A continuación, un modelo responde a estas preguntas basándose en la imagen generada.
Cómo acceder en el SDK
types.RubricMetric.GECKO_TEXT2IMAGE
Entrada
prompt
response: deben ser datos de archivo con el tipo MIME de imagen
Salida
score
rubrics y el correspondiente verdicts
La puntuación representa la tasa de aprobación de la respuesta en función de las rúbricas.
Número de llamadas a LLMs
2 llamadas a Gemini 2.5 Flash
Calidad de texto a vídeo de Gecko
Última versión
gecko_text2video_v1
Tipo
Rúbricas adaptativas
Descripción
La métrica de texto a vídeo Gecko es un método adaptativo basado en rúbricas para evaluar la calidad de un vídeo generado en comparación con la petición de texto correspondiente. Para ello, primero genera un conjunto de preguntas a partir de la petición, que sirven como rúbrica detallada y específica de la petición. A continuación, un modelo responde a estas preguntas basándose en el vídeo generado.
Cómo acceder en el SDK
types.RubricMetric.GECKO_TEXT2VIDEO
Entrada
prompt
response: deben ser datos de archivo con el tipo MIME de vídeo
Salida
score
rubrics y el correspondiente verdicts
La puntuación representa la tasa de aprobación de la respuesta en función de las rúbricas.
[[["Es fácil de entender","easyToUnderstand","thumb-up"],["Me ofreció una solución al problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Es difícil de entender","hardToUnderstand","thumb-down"],["La información o el código de muestra no son correctos","incorrectInformationOrSampleCode","thumb-down"],["Me faltan las muestras o la información que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-12-04 (UTC)."],[],[]]