Descripción general del servicio de evaluación de IA generativa

El servicio de evaluación de IA generativa proporciona herramientas de nivel empresarial para la evaluación objetiva y basada en datos de los modelos de IA generativa. Brinda asistencia e información para varias tareas de desarrollo, como migraciones de modelos, edición de instrucciones y ajuste.

Funciones de Gen AI Evaluation Service

La característica distintiva del servicio de evaluación de IA generativa es la capacidad de usar rúbricas adaptables, un conjunto de pruebas personalizadas de aprobación o rechazo para cada instrucción individual. Las rúbricas de evaluación son similares a las pruebas de unidades en el desarrollo de software y tienen como objetivo mejorar el rendimiento del modelo en una variedad de tareas.

Funciones de Gen AI Evaluation Service

El servicio de evaluación de IA generativa admite los siguientes métodos de evaluación comunes:

  • Rúbricas adaptativas (recomendado): Genera un conjunto único de rúbricas de aprobación o rechazo para cada instrucción individual de tu conjunto de datos.

  • Rúbricas estáticas: Aplican un conjunto fijo de criterios de puntuación en todas las instrucciones.

  • Métricas basadas en cálculos: Usa algoritmos determinísticos como ROUGE o BLEU cuando haya una verdad fundamental disponible.

  • Funciones personalizadas: Define tu propia lógica de evaluación en Python para requisitos especializados.

Generación del conjunto de datos de evaluación

Puedes crear un conjunto de datos de evaluación con los siguientes métodos:

  • Sube un archivo que contenga instancias de instrucciones completas o proporciona una plantilla de instrucciones junto con un archivo correspondiente de valores de variables para completar las instrucciones.

  • Toma muestras directamente de los registros de producción para evaluar el uso real de tu modelo.

  • Usa la generación de datos sintéticos para generar una gran cantidad de ejemplos coherentes para cualquier plantilla de instrucciones.

Interfaces compatibles

Puedes definir y ejecutar tus evaluaciones con las siguientes interfaces:

Casos de uso

Gen AI Evaluation Service te permite ver el rendimiento de un modelo en tus tareas específicas y en función de tus criterios únicos, lo que proporciona estadísticas valiosas que no se pueden obtener de las tablas de clasificación públicas ni de las comparativas generales. Esto admite tareas de desarrollo críticas, como las siguientes:

  • Migraciones de modelos: Compara versiones de modelos para comprender las diferencias de comportamiento y ajustar tus instrucciones y parámetros de configuración según corresponda.

  • Encuentra el mejor modelo: Ejecuta comparaciones directas de los modelos de Google y de terceros en tus datos para establecer un valor de referencia del rendimiento y determinar el que mejor se adapte a tu caso de uso.

  • Mejora de instrucciones: Usa los resultados de la evaluación para guiar tus esfuerzos de personalización. Volver a ejecutar una evaluación crea un ciclo de retroalimentación ajustado que proporciona comentarios inmediatos y cuantificables sobre tus cambios.

  • Ajuste del modelo: Evalúa la calidad de un modelo ajustado aplicando criterios de evaluación coherentes a cada ejecución.

Evaluaciones con rúbricas adaptables

Las rúbricas adaptativas son el método recomendado para la mayoría de los casos de uso de evaluación y, por lo general, son la forma más rápida de comenzar a realizar evaluaciones.

En lugar de usar un conjunto general de rúbricas de calificación como la mayoría de los sistemas de LLM como juez, el marco de evaluación basado en pruebas genera de forma adaptativa un conjunto único de rúbricas de aprobación o rechazo para cada instrucción individual de tu conjunto de datos. Este enfoque garantiza que cada evaluación sea pertinente para la tarea específica que se evalúa.

El proceso de evaluación de cada instrucción utiliza un sistema de dos pasos:

  1. Generación de rúbricas: Primero, el servicio analiza tu instrucción y genera una lista de pruebas específicas y verificables (las rúbricas) que debe cumplir una buena respuesta.

  2. Validación de la rúbrica: Después de que el modelo genera una respuesta, el servicio la evalúa según cada rúbrica y entrega un veredicto claro de Pass o Fail, y una justificación.

Generación y validación de rúbricas

El resultado final es un porcentaje de aprobación agregado y un desglose detallado de las rúbricas que aprobó el modelo, lo que te brinda estadísticas prácticas para diagnosticar problemas y medir mejoras.

Si pasas de calificaciones subjetivas y de alto nivel a resultados de pruebas objetivos y detallados, puedes adoptar un ciclo de desarrollo basado en la evaluación y aplicar las prácticas recomendadas de ingeniería de software al proceso de creación de aplicaciones de IA generativa.

Ejemplo de evaluación de rúbricas

Para comprender cómo el servicio de evaluación de IA generativa genera y usa rúbricas, considera este ejemplo:

Instrucción del usuario: Write a four-sentence summary of the provided article about renewable energy, maintaining an optimistic tone.

Para esta instrucción, el paso de generación de rúbricas podría producir las siguientes rúbricas:

  • Rúbrica 1: La respuesta es un resumen del artículo proporcionado.

  • Rúbrica 2: La respuesta contiene exactamente cuatro oraciones.

  • Rúbrica 3: La respuesta mantiene un tono optimista.

Tu modelo puede producir la siguiente respuesta: The article highlights significant growth in solar and wind power. These advancements are making clean energy more affordable. The future looks bright for renewables. However, the report also notes challenges with grid infrastructure.

Durante la validación de la rúbrica, el servicio de evaluación de IA generativa evalúa la respuesta según cada rúbrica:

  • Rúbrica 1: La respuesta es un resumen del artículo proporcionado.

    • Veredicto: Pass

    • Motivo: La respuesta resume con precisión los puntos principales.

  • Rúbrica 2: La respuesta contiene exactamente cuatro oraciones.

    • Veredicto: Pass

    • Motivo: La respuesta se compone de cuatro oraciones distintas.

  • Rúbrica 3: La respuesta mantiene un tono optimista.

    • Veredicto: Fail

    • Motivo: La oración final introduce un punto negativo, lo que resta valor al tono optimista.

El porcentaje de aprobación final para esta respuesta es del 66.7%. Para comparar dos modelos, puedes evaluar sus respuestas con este mismo conjunto de pruebas generadas y comparar sus tasas de aprobación generales.

Flujo de trabajo de evaluación

Por lo general, para completar una evaluación, debes seguir estos pasos:

  • Crea un conjunto de datos de evaluación: Reúne un conjunto de datos de instancias de instrucciones que reflejen tu caso de uso específico. Puedes incluir respuestas de referencia (verdad fundamental) si planeas usar métricas basadas en cálculos.

  • Define las métricas de evaluación: Elige las métricas que deseas usar para medir el rendimiento del modelo. El SDK admite todos los tipos de métricas, mientras que la consola admite rúbricas adaptativas.

  • Generar respuestas del modelo: Selecciona uno o más modelos para generar respuestas para tu conjunto de datos. El SDK admite cualquier modelo al que se pueda llamar a través deLiteLLM, mientras que la consola admite los modelos de Google Gemini.

  • Ejecuta la evaluación: Ejecuta el trabajo de evaluación, que evalúa las respuestas de cada modelo en función de las métricas seleccionadas.

  • Interpreta los resultados: Revisa las puntuaciones agregadas y las respuestas individuales para analizar el rendimiento del modelo.

Comienza a usar las evaluaciones

Puedes comenzar a realizar evaluaciones con la consola.

Como alternativa, el siguiente código muestra cómo completar una evaluación con el cliente de GenAI en el SDK de Vertex AI:

from vertexai import Client
from vertexai import types
import pandas as pd

client = Client(project=PROJECT_ID, location=LOCATION)

# Create an evaluation dataset
prompts_df = pd.DataFrame({
    "prompt": [
        "Write a simple story about a dinosaur",
        "Generate a poem about Vertex AI",
    ],
})

# Get responses from one or multiple models
eval_dataset = client.evals.run_inference(model="gemini-2.5-flash", src=prompts_df)

# Define the evaluation metrics and run the evaluation job
eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[types.RubricMetric.GENERAL_QUALITY]
)

# View the evaluation results
eval_result.show()

El servicio de evaluación de IA generativa ofrece dos interfaces de SDK:

  • Cliente de GenAI en el SDK de Vertex AI (recomendado) (vista previa)

    from vertexai import client

    El cliente de IA generativa es la interfaz más reciente y recomendada para la evaluación, a la que se accede a través de la clase Client unificada. Es compatible con todos los métodos de evaluación y está diseñado para flujos de trabajo que incluyen la comparación de modelos, la visualización en el notebook y estadísticas para la personalización de modelos.

  • Módulo de evaluación en el SDK de Vertex AI (GA)

    from vertexai.evaluation import EvalTask

    El módulo de evaluación es la interfaz anterior, que se mantiene para garantizar la retrocompatibilidad con los flujos de trabajo existentes, pero ya no está en desarrollo activo. Se accede a ella a través de la clase EvalTask. Este método admite métricas estándar basadas en LLM como juez y en cálculos, pero no admite métodos de evaluación más nuevos, como las rúbricas adaptativas.

Regiones admitidas

Las siguientes regiones son compatibles con el servicio de evaluación de IA generativa:

  • Iowa (us-central1)

  • Virginia del Norte (us-east4)

  • Oregón (us-west1)

  • Las Vegas, Nevada - (us-west4)

  • Bélgica (europe-west1)

  • Países Bajos (europe-west4)

  • París, Francia (europe-west9)

¿Qué sigue?