Personalizzare il modello TLLM

Utilizza l'API Cloud Translation - Advanced per personalizzare il modello Translation LLM (TLLM) di Google senza scrivere codice. Personalizza un modello in base ai contenuti specifici del tuo dominio, producendo traduzioni più accurate rispetto al modello Google TLLM predefinito. Il modello TLLM copre un numero elevato di coppie linguistiche e funziona bene con testi di carattere generico. Un modello personalizzato eccelle nella gestione di vocabolari specifici e di nicchia. Se gestisci un servizio di reporting specializzato che ha l'opportunità di espandersi in nuovi paesi, anziché assumere specialisti, crea e perfeziona un modello personalizzato per svolgere il lavoro in tempo reale.

Preparazione dei dati

Per addestrare un modello personalizzato, fornisci coppie di segmenti corrispondenti nelle lingue di origine e di destinazione. Si tratta di coppie di parole o frasi che hanno lo stesso significato nelle lingue di origine e di destinazione. Più i significati delle coppie di segmenti sono simili, meglio funzionerà il modello. Quando crei il set di dati di coppie di segmenti corrispondenti, inizia dal caso d'uso:

  • Quale risultato stai cercando di ottenere?

  • Quali tipi di segmenti è importante tradurre correttamente per raggiungere questo risultato? Il modello TLLM può farlo immediatamente?

  • Degli esseri umani possono tradurre questi segmenti chiave in modo soddisfacente? Se l'attività di traduzione è sufficientemente ambigua da rendere difficile a una persona che parla correntemente entrambe le lingue svolgere un lavoro soddisfacente, il modello TLLM potrebbe avere un rendimento pari a quello di un modello personalizzato.

  • Quali tipi di esempi riflettono meglio il tipo e la varietà di coppie di segmenti che il tuo sistema dovrà tradurre?

Abbina i dati al dominio del tuo problema

Addestra un modello di traduzione personalizzato per adattarlo a un particolare dominio linguistico. Assicurati che le coppie di segmenti coprano al meglio il vocabolario, l'utilizzo e le peculiarità grammaticali del tuo settore o area di interesse. Trova documenti con utilizzi tipici per le attività di traduzione che vuoi portare a termine, in modo che le frasi parallele corrispondano il più possibile nel significato. Le lingue non corrispondono perfettamente nel vocabolario o nella sintassi, ma cerca di cogliere tutta la diversità semantica che ti aspetti di incontrare. Ti stai basando su un modello che esegue già un ottimo lavoro con la traduzione generica. I tuoi esempi sono l'ultimo passaggio per perfezionare i modelli personalizzati, quindi assicurati che siano pertinenti e rappresentativi.

Cattura la diversità del tuo spazio linguistico

Non presumere che il modo in cui le persone scrivono di un dominio specifico sia abbastanza uniforme da far sì che un piccolo numero di campioni di testo tradotti da pochi traduttori sia sufficiente per addestrare un modello che funzioni bene per chiunque altro si occupi di scrivere di quel dominio. Ognuno di noi porta una personalità nelle parole che scrive, quindi un set di dati di addestramento con coppie di segmenti di molti autori e traduttori ha maggiori probabilità di fornire un modello utile per tradurre testi di un'organizzazione diversificata. Considera anche la varietà di lunghezze e strutture dei segmenti: un set di dati in cui tutti i segmenti hanno le stesse dimensioni o condividono una struttura grammaticale non creerà un modello che tenga conto di tutte le possibilità.

Ottieni i dati da un'origine

Dopo aver stabilito quali dati ti servono, trova un modo per reperirli. Prendi in considerazione tutti i dati raccolti dalla tua organizzazione. Potresti scoprire che stai già raccogliendo i dati necessari per addestrare un modello di traduzione. Se non disponi dei dati necessari, ottienili manualmente o esternalizzali a una terza parte.

Mantieni l'approccio human-in-the-loop

Cerca di assicurarti che una persona che conosce bene entrambe le lingue abbia verificato che le coppie di segmenti corrispondano e rappresentino traduzioni comprensibili e accurate. Un errore comune, come il disallineamento delle righe del foglio di lavoro dei dati di addestramento, può produrre traduzioni senza senso. Per ottenere un modello utilizzabile, l'API Cloud Translation - Advanced richiede dati di alta qualità.

Tieni presente l'equità con le coppie di segmenti

Un principio fondamentale alla base dei prodotti di ML di Google è il machine learning incentrato sull'uomo, un approccio che promuove le pratiche di AI responsabile, inclusa l'equità. L'obiettivo dell'equità nel machine learning è comprendere e prevenire trattamenti ingiusti o pregiudiziali nei confronti di persone in base a etnia, reddito, orientamento sessuale, religione, genere e altre caratteristiche storicamente associate a discriminazione ed emarginazione, quando e dove si manifestano in sistemi algoritmici o processi decisionali basati su algoritmi.

Pulisci i dati disorganizzati

Potresti commettere errori durante la pre-elaborazione dei dati, il che può confondere un modello personalizzato. Cerca i seguenti problemi relativi ai dati che puoi risolvere:

  • Rimuovi i segmenti di origine duplicati, soprattutto se hanno traduzioni di destinazione diverse, assicurandoti che l'API Cloud Translation - Advanced utilizzi la traduzione che preferisci.
  • Allinea i segmenti di origine ai segmenti di destinazione corretti.
  • Fai corrispondere i segmenti alla lingua specificata. (Esempio: includi solo i segmenti in cinese in un set di dati in cinese.)
  • Per i segmenti di pubblico di destinazione con lingue miste, verifica che eventuali parole non tradotte siano intenzionali. I segmenti di destinazione che includono erroneamente parole non tradotte aggiungono rumore ai dati, il che può ridurre la qualità del modello.
  • Correggi i segmenti con errori tipografici o grammaticali.
  • Rimuovi i contenuti non traducibili, come i tag segnaposto e i tag HTML. I contenuti non traducibili possono causare errori di punteggiatura.
  • Non includere coppie di segmenti che sostituiscono elementi generici con nomi specifici. Ad esempio, la traduzione di un termine generico come presidente in JFK. Rimuovi queste traduzioni o modifica i nomi specifici con nomi generici.
  • Rimuovi i segmenti duplicati nei set di addestramento e test.
  • Utilizza una distinzione tra maiuscole e minuscole coerente, che influisce sul modo in cui un modello apprende, ad esempio distinguendo il titolo dal corpo del testo.

Elabora dati

Si applicano le seguenti limitazioni:

  • Token di input e output massimi:
    • Pubblicazione: 1000 (circa 4000 caratteri)
  • Dimensioni del set di dati di convalida: 1024 esempi
  • Dimensione del file del set di dati di addestramento: fino a 1 GB per JSONL
  • Lunghezza dell'esempio di addestramento: 1000 (circa 4000 caratteri)
  • Dimensioni adattatore:
    • Translation LLM V2: il valore supportato è solo 4. L'utilizzo di altri valori (ad es. 1 o 8) comporterà un errore.

Debug

Il debug di un modello personalizzato riguarda più il debug dei dati che del modello stesso. Se il modello non traduce come previsto, controlla i dati per vedere dove possono essere migliorati.

Test

Anche se i punteggi di valutazione sembrano buoni, controlla il modello per assicurarti che le sue prestazioni corrispondano alle tue aspettative. Se i dati di addestramento e di test provengono dallo stesso set errato di esempi, i punteggi potrebbero essere eccellenti anche se la traduzione non ha senso. Prepara alcuni esempi che non sono inclusi nel set di addestramento. Confronta i risultati del modello personalizzato con il modello di base TLLM di Google.

Potresti notare che il tuo modello produce le stesse previsioni del modello di base, soprattutto su segmenti brevi o se il set di addestramento è di piccole dimensioni, perché il modello di base è già buono. In questo caso, prova con segmenti più lunghi o complessi. Se i segmenti restituiscono risultati identici alle previsioni del modello di base, potrebbe esserci un problema con i dati.

Se temi che il modello possa commettere un errore, assicurati che il set di test o la procedura copra adeguatamente il caso per sentirti sicuro di utilizzare il modello.

Passaggi successivi