Panoramica delle traduzioni personalizzate

Il modello predefinito di traduzione automatica neurale (NMT) di Google copre un'ampia gamma di lingue e funziona bene per i testi di carattere generale. Tuttavia, se devi tradurre testo di un ambito specifico o con uno stile particolare, le traduzioni personalizzate possono aiutarti a ottenere risultati più pertinenti.

Le traduzioni personalizzate richiedono di fornire le tue traduzioni di esempio. Dopodiché, Cloud Translation può generare risultati che seguono da vicino lo stile, il tono e il vocabolario dei tuoi esempi.

Cloud Translation offre due soluzioni per richiedere traduzioni personalizzate: AutoML Translation, per l'addestramento di modelli personalizzati, o la traduzione adattiva, per sfruttare i modelli linguistici di grandi dimensioni (LLM) di Google. Ogni funzionalità ha requisiti per i dati, un set di lingue supportate e prezzi propri.

AutoML Translation

Con AutoML Translation, importi i tuoi dati per addestrare modelli personalizzati che possiedi e gestisci. Dopo aver creato un modello personalizzato, puoi richiedere traduzioni che lo utilizzino al posto del modello NMT predefinito. Rispetto alla traduzione adattiva, i modelli personalizzati funzionano bene per testi di un ambito specifico dove la priorità principale è l'uso della terminologia corretta. Inoltre, devi fornire set di dati di grandi dimensioni per l'addestramento del modello.

I costi vengono addebitati in base al tempo di addestramento del modello e al numero di caratteri di input che invii per le traduzioni.

Traduzione adattiva

Le traduzioni adattive combinano LLM con piccoli set di dati per fornire traduzioni di alta qualità, spesso allo stesso livello di quelle ottenute con i modelli personalizzati di AutoML Translation. L'utente non addestra o gestisce alcun modello. Rispetto ai modelli personalizzati, la traduzione adattiva è ideale per ottenere risposte simili all'input per stile, tono e voce.

Per la traduzione adattiva, il costo viene calcolato in base al numero di caratteri di input e output.

Prepara traduzioni di esempio

Prepara esempi di traduzioni, come coppie di segmenti costituite da una frase in una lingua di origine e una frase corrispondente tradotta nella lingua di destinazione. Salva queste coppie di segmenti in un file con valori delimitati da tabulazioni (TSV) o in un file Translation Memory eXchange (TMX).

Scegli esempi che rappresentino il dominio linguistico dei contenuti che intendi tradurre. Per ulteriori indicazioni, consulta la sezione Preparazione dei dati nella guida per principianti di AutoML Translation.

TSV

Per i file delimitati da tabulazioni, ogni riga ha il formato seguente:

Source segment tabulazione Translated segment

Non includere una riga di intestazione con i codici lingua per identificare le lingue di origine e di destinazione. Specificherai queste lingue al momento di creare un set di dati. L'esempio seguente include coppie di segmenti per le traduzioni dall'inglese al tedesco:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Tutti i contenuti di un file TSV devono essere testo normale. Se il testo comprende tag HTML o altri markup, Cloud Translation tratta il markup come testo normale.

TMX

TMX è un formato XML standard per fornire segmenti di origine e di destinazione. Cloud Translation supporta i file di input in un formato basato su TMX versione 1.4. L'esempio seguente illustra la struttura richiesta:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

L'elemento <header> di un file TMX con formato corretto deve identificare la lingua di origine utilizzando l'attributo srclang, mentre ogni elemento <tuv> deve identificare la lingua del testo contenuto utilizzando l'attributo xml:lang.

Tutti gli elementi <tu> devono contenere una coppia di elementi <tuv> con la stessa lingua di origine e di destinazione. Se un elemento <tu> contiene più di due elementi <tuv>, Cloud Translation elabora solo il primo elemento <tuv> che corrisponde alla lingua di origine e il primo che corrisponde alla lingua di destinazione, ignorando il resto. Se un elemento <tu> non ha una coppia corrispondente di elementi <tuv>, Cloud Translation salta l'elemento <tu> non valido.

Cloud Translation estrae i tag di markup da un elemento <seg> prima di elaborarlo. Se un elemento <tuv> contiene più elementi <seg>, Cloud Translation concatena i loro testi in un unico elemento separandoli con uno spazio.

Se il file contiene tag XML diversi da quelli mostrati in precedenza, Cloud Translation li ignora.

Se il file non è conforme al formato XML e TMX corretto, ad esempio se manca di un tag finale o di un elemento <tmx>, Cloud Translation ne interrompe l'elaborazione. Cloud Translation interrompe l'elaborazione anche se salta più di 1024 elementi <tu> non validi.

Il numero minimo richiesto e il numero massimo consentito di coppie di segmenti per ogni funzionalità sono diversi. Per saperne di più, consulta come preparare i dati di AutoML Translation o i requisiti dei dati per la traduzione adattiva.

Passaggi successivi

Per saperne di più su ciascuna funzionalità, consulta la panoramica di AutoML Translation o della traduzione adattiva.
Per informazioni sulle lingue supportate, consulta la sezione Lingue supportate.
Per i dettagli sui prezzi, consulta Prezzi di Cloud Translation.