Avalie modelos de tradução

A melhor forma de avaliar um modelo de tradução é usar o serviço de avaliação de IA gen. No entanto, para modelos de TMR personalizados, também pode usar o AutoML Translation para gerar uma pontuação BLEU que pode ajudar a avaliar o modo, com algumas limitações.

Use o serviço de avaliação de IA gen

O serviço de avaliação de IA gen oferece as seguintes métricas de avaliação de tarefas de tradução:

A MetricX e a COMET são métricas baseadas em modelos pontuais que foram preparadas para tarefas de tradução. Pode avaliar a qualidade e a precisão dos resultados do modelo de tradução para o seu conteúdo, quer sejam resultados da TMR, do TranslationLLM ou dos modelos do Gemini.

Também pode usar o Gemini como um modelo de avaliação para avaliar o seu modelo quanto à fluidez, coerência, prolixidade e qualidade do texto em combinação com o MetricX, o COMET ou o BLEU.

MetricX é uma métrica baseada em erros desenvolvida pela Google que prevê uma pontuação de vírgula flutuante entre 0 e 25 para representar a qualidade de uma tradução. O MetricX está disponível como método baseado em referências e sem referências (QE). Quando usa esta métrica, uma pontuação mais baixa é melhor porque significa que existem menos erros.
A COMET usa uma abordagem de regressão baseada em referências que fornece pontuações que variam de 0 a 1, em que 1 significa uma tradução perfeita.
BLEU (Bilingual Evaluation Understudy) é uma métrica baseada em cálculos. Uma pontuação BLEU indica a semelhança entre o texto candidato e o texto de referência. Quanto mais próximo de um estiver o valor da pontuação BLEU, mais próxima do texto de referência está a tradução.

As pontuações BLEU são mais adequadas para comparações num idioma ou conjunto de dados. Por exemplo, uma pontuação BLEU de 50 de inglês para alemão não é comparável a uma pontuação BLEU de 50 de japonês para inglês. Muitos especialistas em tradução usam abordagens de métricas baseadas em modelos, que têm uma correlação mais elevada com as classificações humanas e são mais detalhadas na identificação de cenários de erro.

Para saber como executar avaliações de modelos de tradução através do serviço de avaliação de IA gen., consulte o artigo Avalie um modelo de tradução.

Use o AutoML Translation para avaliar um modelo de TMR personalizado

Depois de preparar um novo modelo de TMR personalizado, o AutoML Translation pode usar o seu TEST para avaliar a qualidade e a precisão do modelo. O AutoML Translation expressa a qualidade do modelo através de uma pontuação BLEU, que indica a semelhança do texto candidato com o texto de referência. Se a pontuação for baixa, pondere adicionar mais (e mais diversificados) pares de segmentos de preparação. Depois de ajustar o conjunto de dados, prepare um novo modelo com o conjunto de dados melhorado.

O AutoML Translation só suporta pontuações BLEU para a avaliação de modelos. Para avaliar o seu modelo de tradução com métricas baseadas em modelos, tem de usar o serviço de avaliação de IA gen.

Obtenha a pontuação BLEU do modelo

Aceda à consola do AutoML Translation.

Aceder à página de tradução
No menu de navegação, clique em Modelos para ver uma lista dos seus modelos.
Clique no modelo para avaliar.
Clique no separador Preparar para ver as métricas de avaliação do modelo, como a respetiva pontuação BLEU.

Teste as previsões do modelo

Ao usar a Google Cloud consola, compara os resultados da tradução do seu modelo personalizado com o modelo de TMN predefinido.

Aceda à consola do AutoML Translation.

Aceder à página de tradução
No menu de navegação, clique em Modelos para ver uma lista dos seus modelos.
Clique no modelo para testar.
Clique no separador Prever.
Adicione texto de entrada no campo do idioma de origem.
Clique em Traduzir.

O AutoML Translation mostra os resultados da tradução para o modelo personalizado e o modelo de TNA.

Avalie e compare modelos com um novo conjunto de testes

Na Google Cloud consola, pode reavaliar os modelos existentes usando um novo conjunto de dados de teste. Numa única avaliação, pode incluir até cinco modelos diferentes e, em seguida, comparar os respetivos resultados. Carregue os dados de teste para o Cloud Storage como valores separados por tabulações (TSV) ou como um ficheiro Translation Memory eXchange (TMX). O AutoML Translation avalia os seus modelos em função do conjunto de testes e, em seguida, produz pontuações de avaliação.

Opcionalmente, pode guardar os resultados de cada modelo como um ficheiro TSV num contentor do Cloud Storage, em que cada linha tem o seguinte formato:

Source segment tab Model candidate translation tab Reference translation

Aceda à consola do AutoML Translation.

Aceder à página de tradução
No menu de navegação, clique em Modelos para ver uma lista dos seus modelos.
Clique no modelo para avaliar.
Clique no separador Avaliar.
No separador Avaliar, clique em Nova avaliação.
Selecione os modelos que quer avaliar e comparar e, de seguida, clique em Seguinte.

O modelo atual tem de estar selecionado e o NMT da Google está selecionado por predefinição, mas pode desmarcá-lo.
Especifique um nome para o Nome do conjunto de testes para ajudar a distingui-lo de outras avaliações e, em seguida, selecione o novo conjunto de testes no Cloud Storage.
Clicar em Seguinte.
Para exportar previsões, especifique uma pasta de destino do Cloud Storage.
Clique em Iniciar avaliação.

O AutoML Translation apresenta as classificações de avaliação num formato de tabela na consola após a avaliação estar concluída. Só pode executar uma avaliação de cada vez. Se especificou uma pasta para armazenar os resultados da previsão, o AutoML Translation escreve ficheiros TSV nessa localização com o ID do modelo associado, anexado ao nome do conjunto de testes.