Evaluar modelos de traducción

La mejor forma de evaluar un modelo de traducción es usar el servicio de evaluación de IA generativa. Sin embargo, en el caso de los modelos NMT personalizados, también puedes usar AutoML Translation para generar una puntuación BLEU que te ayude a evaluar el modo, aunque con algunas limitaciones.

Usar el servicio de evaluación de la IA generativa

El servicio de evaluación de IA generativa ofrece las siguientes métricas de evaluación de tareas de traducción:

MetricX y COMET son métricas basadas en modelos puntuales que se han entrenado para tareas de traducción. Puedes evaluar la calidad y la precisión de los resultados de los modelos de traducción de tu contenido, tanto si son resultados de modelos de traducción automática neuronal (NMT), TranslationLLM o Gemini.

También puedes usar Gemini como modelo de juez para evaluar la fluidez, la coherencia, la verbosidad y la calidad del texto de tu modelo en combinación con MetricX, COMET o BLEU.

  • MetricX es una métrica basada en errores desarrollada por Google que predice una puntuación de punto flotante entre 0 y 25 para representar la calidad de una traducción. MetricX está disponible tanto como método basado en referencias como método sin referencias (QE). Cuando usas esta métrica, cuanto más baja sea la puntuación, mejor, ya que significa que hay menos errores.

  • COMET utiliza un enfoque de regresión basado en referencias que proporciona puntuaciones que van de 0 a 1, donde 1 significa una traducción perfecta.

  • BLEU (Bilingual Evaluation Understudy) es una métrica basada en cálculos. Una puntuación BLEU indica el grado de similitud entre el texto candidato y el texto de referencia. Cuanto más se acerque el valor de la puntuación BLEU a uno, más se acercará la traducción al texto de referencia.

    Las puntuaciones BLEU son las más adecuadas para hacer comparaciones en un idioma o en un conjunto de datos. Por ejemplo, una puntuación BLEU de 50 para la traducción del inglés al alemán no es comparable con una puntuación BLEU de 50 para la traducción del japonés al inglés. Muchos expertos en traducción utilizan enfoques de métricas basados en modelos, que tienen una mayor correlación con las valoraciones humanas y son más granulares a la hora de identificar escenarios de error.

Para saber cómo realizar evaluaciones de modelos de traducción con el servicio de evaluación de IA generativa, consulta el artículo Evaluar un modelo de traducción.

Usar AutoML Translation para evaluar un modelo de NMT personalizado

Una vez que hayas entrenado un nuevo modelo de NMT personalizado, AutoML Translation podrá usar tu TEST para evaluar la calidad y la precisión del modelo. AutoML Translation expresa la calidad del modelo mediante una puntuación BLEU, que indica el grado de similitud entre el texto candidato y el texto de referencia. Si la puntuación es baja, te recomendamos que añadas más pares de segmentos de entrenamiento (y que sean más diversos). Después de ajustar el conjunto de datos, entrena un nuevo modelo con el conjunto de datos mejorado.

AutoML Translation solo admite puntuaciones BLEU para la evaluación de modelos. Para evaluar tu modelo de traducción con métricas basadas en modelos, debes usar el servicio de evaluación de IA generativa.

Obtener la puntuación BLEU del modelo

  1. Ve a la consola de AutoML Translation.

    Ir a la página Traducción

  2. En el menú de navegación, haga clic en Modelos para ver una lista de sus modelos.

  3. Haz clic en el modelo que quieras evaluar.

  4. Haz clic en la pestaña Entrenar para ver las métricas de evaluación del modelo, como su puntuación BLEU.

Probar las predicciones del modelo

Con la Google Cloud consola, puedes comparar los resultados de traducción de tu modelo personalizado con los del modelo de NMT predeterminado.

  1. Ve a la consola de AutoML Translation.

    Ir a la página Traducción

  2. En el menú de navegación, haga clic en Modelos para ver una lista de sus modelos.

  3. Haz clic en el modelo que quieras probar.

  4. Haga clic en la pestaña Predecir.

  5. Añade el texto de entrada en el campo del idioma de origen.

  6. Haz clic en Traducir.

    AutoML Translation muestra los resultados de traducción del modelo personalizado y del modelo de NMT.

Evaluar y comparar modelos con un nuevo conjunto de prueba

Desde la Google Cloud consola, puedes volver a evaluar los modelos que ya tienes usando un nuevo conjunto de datos de prueba. En una sola evaluación, puede incluir hasta cinco modelos diferentes y, a continuación, comparar sus resultados. Sube tus datos de prueba a Cloud Storage en formato de valores separados por tabulaciones (TSV) o como archivo Translation Memory eXchange (TMX). AutoML Translation evalúa tus modelos con el conjunto de prueba y, a continuación, genera puntuaciones de evaluación.

También puede guardar los resultados de cada modelo como un archivo TSV en un segmento de Cloud Storage, donde cada fila tiene el siguiente formato:

Source segment tab Model candidate translation tab Reference translation
  1. Ve a la consola de AutoML Translation.

    Ir a la página Traducción

  2. En el menú de navegación, haga clic en Modelos para ver una lista de sus modelos.

  3. Haz clic en el modelo que quieras evaluar.

  4. Haga clic en la pestaña Evaluar.

  5. En la pestaña Evaluar, haz clic en Nueva evaluación.

  6. Selecciona los modelos que quieras evaluar y comparar y, a continuación, haz clic en Siguiente.

    Debes seleccionar el modelo actual. El modelo de traducción automática neuronal de Google está seleccionado de forma predeterminada, pero puedes desmarcarlo.

  7. Especifique un nombre para el Nombre del conjunto de pruebas para distinguirlo de otras evaluaciones y, a continuación, seleccione el nuevo conjunto de pruebas en Cloud Storage.

  8. Haz clic en Siguiente.

  9. Para exportar las predicciones, especifica una carpeta de destino de Cloud Storage.

  10. Haz clic en Iniciar evaluación.

    AutoML Translation muestra las puntuaciones de evaluación en formato de tabla en la consola una vez finalizada la evaluación. Solo puedes realizar una evaluación a la vez. Si ha especificado una carpeta para almacenar los resultados de las predicciones, AutoML Translation escribirá archivos TSV en esa ubicación con el ID del modelo asociado y el nombre del conjunto de prueba.