Personaliza el modelo de TLLM
Usa la API de Cloud Translation - Advanced para personalizar el modelo del LLM de Traducción (TLLM) de Google sin escribir código. Adapta un modelo personalizado a tu contenido específico del dominio para producir traducciones más precisas que con el modelo de LLM de Google predeterminado. El modelo de TLLM abarca una gran cantidad de pares de idiomas y funciona bien con texto de uso general. Un modelo personalizado se destaca por manejar vocabularios específicos y especializados. Si ejecutas un servicio de informes especializado que tiene la oportunidad de expandirse a nuevos países, en lugar de contratar especialistas, crea y perfecciona un modelo personalizado para que haga el trabajo en tiempo real.
Preparación de datos
Para entrenar un modelo personalizado, proporciona pares de segmentos coincidentes en los idiomas de origen y destino. Son pares de palabras o frases que significan lo mismo en los idiomas entre los que traduces. Cuanto más se parezca el significado de los pares de segmentos, mejor funcionará el modelo. Para crear el conjunto de datos de pares de segmentos coincidentes, comienza con el caso de uso:
¿Qué resultado quieres lograr?
¿Qué tipos de segmentos son importantes para traducir correctamente y lograr ese resultado? ¿El modelo de LLM puede lograrlo de forma predeterminada?
¿Podrían los traductores humanos traducir estos segmentos clave de manera satisfactoria? Si la tarea de traducción es lo suficientemente ambigua como para que una persona que domine ambos idiomas tenga dificultades para hacer un trabajo satisfactorio, es posible que el modelo de LLM de tareas se desempeñe tan bien como un modelo personalizado.
¿Qué tipos de ejemplos reflejan mejor el tipo y el rango de pares de segmentos que tu sistema deberá traducir?
Haz corresponder tus datos con el dominio del problema
Entrena un modelo de traducción personalizado para que se ajuste a un dominio lingüístico particular. Asegúrate de que tus pares de segmentos logren abarcar de la mejor manera posible el vocabulario, el uso y las peculiaridades gramáticas de tu industria o área de enfoque. Busca documentos con usos típicos para las tareas de traducción que deseas hacer, y asegúrate de que tus frases paralelas tengan un significado lo más similar posible. Los idiomas no se corresponden perfectamente en vocabulario o sintaxis, pero intenta capturar toda la diversidad de la semántica que esperas encontrar. Estás compilando un modelo que ya realiza un buen trabajo con la traducción de uso general. Tus ejemplos son el último paso para ajustar los modelos personalizados, así que asegúrate de que sean pertinentes y representativos.
Captura la diversidad de tu espacio lingüístico
No supongas que la forma en que las personas escriben sobre un dominio específico es lo suficientemente uniforme como para que una pequeña cantidad de muestras de texto traducidas por unos pocos traductores entrenen un modelo que funcione para cualquier otra persona que escriba sobre ese dominio. Cada uno de nosotros aporta una personalidad a las palabras que escribimos, por lo que es más probable que un conjunto de datos de entrenamiento con pares de segmentos de muchos autores y traductores te proporcione un modelo útil para traducir los escritos de una organización diversa. También considera la variedad de estructuras y longitudes de los segmentos: Un conjunto de datos en el que todos los segmentos tienen el mismo tamaño o comparten una estructura gramatical no generará un modelo que capture todas las posibilidades.
Obtén tus datos
Después de establecer qué datos necesitas, busca una manera de obtenerlos. Ten en cuenta todos los datos que recopila tu organización. Puede que descubras que ya estás recopilando lo que necesitas para entrenar un modelo de traducción. Si no tienes los datos que necesitas, obténlos de forma manual o subcontrata a un tercero.
Mantén informadas a las personas
Intenta asegurarte de que una persona que entienda bien ambos idiomas valide que los pares de segmentos coincidan y representen traducciones comprensibles y precisas. Un error común, como alinear las filas de tu hoja de cálculo para los datos de entrenamiento de forma incorrecta, puede dar como resultado traducciones sin sentido. La API de Cloud Translation Advanced necesita datos de alta calidad para obtener un modelo utilizable.
Ten en cuenta la equidad con los pares de segmentos
Un principio fundamental en el que se basan los productos de AA de Google es el aprendizaje automático centrado en las personas, un enfoque que promueve las prácticas de IA responsables, incluida la equidad. El objetivo de la equidad en el AA es comprender y prevenir el trato injusto o perjudicial de las personas en relación con la raza, los ingresos, la orientación sexual, la religión, el género y otras características históricamente asociadas con la discriminación y la marginación, cuando y donde se manifiestan en los sistemas algorítmicos o en la toma de decisiones asistida por algoritmos.
Limpia los datos desordenados
Es posible que cometas errores al realizar el procesamiento previo de los datos, lo que puede confundir a un modelo personalizado. Busca los siguientes problemas de datos que puedes corregir:
- Quita los segmentos de origen duplicados, en especial si tienen traducciones de destino diferentes, para asegurarte de que la API de Cloud Translation avanzado use tu traducción preferida.
- Alinea los segmentos de origen con los segmentos de destino correctos.
- Haz coincidir los segmentos con el idioma especificado. (Ejemplo: Incluye solo segmentos en chino en un conjunto de datos en ese idioma).
- En el caso de los segmentos de destino con idiomas mixtos, comprueba que las palabras no traducidas estén sin traducir de manera intencional. Los segmentos de destino que incluyen palabras no traducidas agregan ruido a tus datos, lo que puede reducir la calidad del modelo.
- Corrige los segmentos con errores tipográficos o gramaticales.
- Quita el contenido que no se puede traducir, como las etiquetas HTML y los marcadores de posición. El contenido que no se puede traducir puede generar errores de puntuación.
- No incluyas pares de segmentos que reemplacen cosas generales por sustantivos específicos. Por ejemplo, traducir un término general como presidente a JFK. En su lugar, quita estas traducciones o cambia los sustantivos específicos por sustantivos generales.
- Quita los segmentos duplicados en los conjuntos de entrenamiento y prueba.
- Usa un uso de mayúsculas y minúsculas coherente, lo que afecta la forma en que un modelo aprende, como distinguir el título del texto del cuerpo.
Procesamiento de datos
Se aplica la siguiente limitación:
- Cantidad máxima de tokens de entrada y salida:
- Entrega: 1,000 (alrededor de 4,000 caracteres)
- Tamaño del conjunto de datos de validación: 1,024 ejemplos
- Tamaño del archivo del conjunto de datos de entrenamiento: Hasta 1 GB para JSONL
- Longitud del ejemplo de entrenamiento: 1,000 (alrededor de 4,000 caracteres)
- Tamaño del adaptador:
Translation LLM V2: El único valor admitido es 4. Si se usan otros valores (p.ej., 1 u 8), se producirá un error.
Depuración
La depuración de un modelo personalizado consiste más en depurar los datos que el modelo en sí. Si tu modelo no traduce de la manera que esperas, verifica tus datos para ver dónde se pueden realizar mejoras.
Prueba
Incluso si las puntuaciones de evaluación parecen buenas, verifica el modelo para asegurarte de que su rendimiento coincide con tus expectativas. Si tus datos de entrenamiento y prueba se extraen del mismo conjunto de pruebas incorrecto, las puntuaciones podrían ser excelentes incluso si la traducción no tiene sentido. Prepara algunos ejemplos que no estén en el conjunto de entrenamiento. Compara los resultados del modelo personalizado con el modelo base de TLLM de Google.
Es posible que tu modelo presente las mismas predicciones que el modelo base, en especial en oraciones cortas o si tienes un conjunto de entrenamiento más pequeño, ya que el modelo base ya es bueno. Si es así, prueba con segmentos más largos o complejos. Si tus segmentos resultan idénticos a las predicciones del modelo base, podría ser una indicación de un problema con los datos.
Si hay un error que te preocupa que cometa tu modelo, asegúrate de que tu conjunto de datos o procedimiento de prueba cubra ese caso de manera adecuada para que te sientas seguro de usar tu modelo.
¿Qué sigue?
- Para obtener detalles sobre cómo crear tu propio conjunto de datos y modelo personalizado, consulta Prepara datos de entrenamiento.