Personalizar o modelo TLLM

Use a API Cloud Translation Advanced para personalizar o modelo TLLM (Translation LLM) do Google sem escrever código. Adapte um modelo personalizado ao seu conteúdo específico do domínio, produzindo traduções mais precisas do que com o modelo padrão do Google TLLM. O modelo TLLM abrange um grande número de pares de idiomas e funciona bem com textos de uso geral. Um modelo personalizado é excelente para lidar com vocabulários específicos e de nicho. Se você administra um serviço especializado de relatórios que tem a oportunidade de se expandir para novos países, em vez de contratar especialistas, crie e refine um modelo personalizado para fazer o trabalho em tempo real.

Preparação de dados

Para treinar um modelo personalizado, forneça pares correspondentes de segmentos nos idiomas de origem e de destino. São pares de palavras ou frases que têm o mesmo significado nos idiomas de origem e de destino. Quanto mais próximo de seus pares de segmentos estiverem, melhor será o funcionamento do modelo. Ao criar o conjunto de dados de pares de segmentos correspondentes, comece pelo caso de uso:

  • Que resultado você está tentando alcançar?

  • Que tipos de segmentos são importantes para traduzir corretamente e alcançar esse resultado? O modelo TLLM pode fazer isso imediatamente?

  • É possível que pessoas traduzam esses segmentos principais de uma maneira mais satisfatória? Se a tarefa de tradução for ambígua o suficiente para que uma pessoa fluente em ambos os idiomas tenha dificuldade em realizar um trabalho satisfatório, o modelo TLLM poderá ter o mesmo desempenho de um modelo personalizado.

  • Que exemplos refletem com mais precisão o tipo e o intervalo de pares de segmentos que seu sistema precisará traduzir?

Relacionar os dados ao domínio do problema

Treine um modelo de tradução personalizado para se adequar a um domínio linguístico específico. Verifique se os pares de segmentos fazem o melhor trabalho possível para cobrir o vocabulário, o uso e as peculiaridades gramaticais do setor ou da área de foco. Procure documentos com exemplos de usos que seriam encontrados com frequência nos textos que você quer traduzir e confira se os significados das frases paralelas correspondem o máximo possível. Os idiomas não mapeiam perfeitamente o vocabulário ou a sintaxe, mas tentam capturar toda a diversidade de semântica que você espera encontrar. Você está criando com base em um modelo que já faz um bom trabalho com a tradução de uso geral. Seus exemplos são a última etapa para ajustar modelos personalizados. Portanto, verifique se eles são relevantes e representativos.

Capturar a diversidade do seu espaço linguístico

Não suponha que a maneira como as pessoas escrevem sobre um campo de conhecimento específico seja uniforme o bastante para que uma pequena quantidade de amostras de texto, traduzidas por poucas pessoas, treine um modelo que funcione para qualquer um que escreva sobre esse campo. Cada um de nós traz uma personalidade para as palavras que escrevemos. Por isso, um conjunto de dados de treinamento com pares de segmentos de muitos autores e tradutores tem mais chances de oferecer um modelo útil para traduzir textos de uma organização diversificada. Além disso, pense na variedade de tamanhos e estruturas das frases. Um conjunto de dados em que todas as frases tenham o mesmo tamanho ou uma estrutura gramatical semelhante não vai criar um modelo capaz de capturar todas as possibilidades.

Fonte dos dados

Depois de determinar quais dados são necessários, encontre uma maneira de extraí-los. Considere todos os dados que sua organização coleta. Pode ser que ela já esteja coletando os dados necessários para o treinamento de um modelo de tradução. Se você não tiver os dados de que precisa, reúna-os manualmente ou terceirize essa tarefa.

Manter as pessoas informadas

Se possível, peça para uma pessoa que entenda bem ambos os idiomas revisar os pares de segmentos e confirmar que as traduções são precisas e compreensíveis. Um erro comum, como desalinhar as linhas da planilha de dados de treinamento, pode resultar em traduções sem sentido. Dados de alta qualidade são necessários para que a API Cloud Translation - Advanced crie um modelo útil.

Considere a justiça com pares de segmentos

Um princípio fundamental que sustenta os produtos de ML do Google é o machine learning centrado na pessoa, uma abordagem que promove práticas de IA responsáveis, incluindo a imparcialidade. O objetivo da justiça na ML é entender e evitar o tratamento injusto ou preconceituoso de pessoas relacionadas a raça, renda, orientação sexual, religião, gênero e outras características historicamente associadas à discriminação e marginalização, quando e onde elas se manifestam em sistemas algorítmicos ou na tomada de decisões com a ajuda de algoritmos.

Limpar dados confusos

É fácil cometer erros ao pré-processar os dados, e alguns deles podem confundir um modelo personalizado. Procure os seguintes problemas de dados que você pode corrigir:

  • Remova frases de origem duplicadas, especialmente se elas tiverem traduções de destino diferentes, garantindo que a API Cloud Translation Advanced use sua tradução preferida.
  • Alinhe os segmentos de origem aos segmentos de destino corretos.
  • Faça a correspondência de segmentos com o idioma especificado. Por exemplo, inclua apenas segmentos chineses em um conjunto de dados chinês.
  • Para segmentos de destino com idiomas mistos, verifique se as palavras não traduzidas são intencionalmente não traduzidas. As frases de destino que incluem palavras não traduzidas por engano adicionam ruído aos seus dados, o que pode reduzir a qualidade do modelo.
  • Corrija frases com erros ortográficos ou gramaticais.
  • Remova conteúdo não traduzível, como tags de marcador de posição e tags HTML. O conteúdo não traduzível pode resultar em erros de pontuação.
  • Não inclua pares de segmentos que substituem coisas gerais por substantivos específicos. Por exemplo, traduzir um termo geral como presidente para JFK. Em vez disso, remova essas traduções ou mude os substantivos específicos para gerais.
  • Remova frases duplicadas nos conjuntos de treinamento e teste.
  • Use letras maiúsculas e minúsculas de forma consistente, o que afeta o aprendizado de um modelo, como distinguir um título do corpo do texto.

Processar dados

Considere as seguintes limitações:

  • Máximo de tokens de entrada e saída:
    • Veiculação: 1.000 (cerca de 4.000 caracteres)
  • Tamanho do conjunto de dados de validação: 1.024 exemplos
  • Tamanho do arquivo do conjunto de dados de treinamento: até 1 GB para JSONL
  • Comprimento do exemplo de treinamento: 1.000 (cerca de 4.000 caracteres)
  • Tamanho do adaptador:
    • Translation LLM V2: o único valor compatível é 4. Usar outros valores (por exemplo, 1 ou 8) vai resultar em falha.

Depurar

A depuração de um modelo personalizado se concentra mais nos dados do que no modelo em si. Se o modelo não estiver traduzindo da maneira que você quer, verifique os dados para ver como eles podem ser melhorados.

Teste

Mesmo que as pontuações de avaliação pareçam boas, verifique o modelo para garantir que o desempenho dele corresponda às suas expectativas. Se os dados de treinamento e teste forem retirados do mesmo conjunto incorreto de amostras, as pontuações poderão ser excelentes mesmo que a tradução não faça sentido. Prepare alguns exemplos que não estão no conjunto de treinamento. Compare os resultados do modelo personalizado com o modelo base TLLM do Google.

Talvez seu modelo apresente as mesmas previsões do modelo base, especialmente em frases curtas ou se você tiver um conjunto de treinamento menor, porque o modelo base já é bom. Nesse caso, tente frases mais longas ou mais complexas. Se todos os segmentos forem idênticos às previsões do modelo base, isso poderá indicar um problema com os dados.

Se houver um erro que você teme que o modelo cometa, verifique se o conjunto de teste ou procedimento cobre esse caso adequadamente para que você se sinta seguro ao usar o modelo.

A seguir