Crea e gestisci set di dati
Un set di dati contiene campioni rappresentativi del tipo di contenuti che vuoi tradurre, come coppie di segmenti corrispondenti nelle lingue di origine e di destinazione. Il set di dati funge da input per l'addestramento di un modello.
Un progetto può avere più set di dati; ciascuno può essere utilizzato per addestrare un modello separato.
Crea un set di dati
Crea un set di dati che contenga i dati di addestramento per il modello. Quando crei un set di dati, specifichi le lingue di origine e di destinazione dei dati di addestramento. Per saperne di più sulle lingue e sulle varianti supportate, consulta Lingue supportate per i modelli personalizzati.
UI web
La console AutoML Translation consente di creare un nuovo set di dati e di importare elementi.Vai alla console AutoML Translation.
Nel riquadro di navigazione, fai clic su Set di dati.
Nella pagina Set di dati, fai clic su Crea set di dati.
Nella finestra di dialogo Crea set di dati, specifica i dettagli del set di dati:
- Inserisci un nome per il set di dati.
- Seleziona le lingue di origine e di destinazione dagli elenchi a discesa.
- Fai clic su Crea.
REST
L'esempio seguente mostra come inviare una richiestaPOST al metodo project.locations.datasets/create.
Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:
- PROJECT_ID: l'ID progetto Google Cloud .
- LOCATION: la regione in cui si troverà il set di dati, ad esempio
us-central1. - DATASET_NAME: un nome per il set di dati.
- SOURCE_LANG_CODE: il codice lingua che specifica la lingua di origine del set di dati.
- TARGET_LANG_CODE: il codice lingua che specifica la lingua di destinazione del set di dati.
Metodo HTTP e URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
Corpo JSON della richiesta:
{
"display_name": "DATASET_NAME",
"source_language_code": "SOURCE_LANG_CODE",
"target_language_code": "TARGET_LANG_CODE"
}
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{
"name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per .NET.
PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per Ruby.
Importa segmenti in un set di dati
Dopo aver creato un set di dati, puoi importare coppie di segmenti al suo interno. Per informazioni dettagliate sulla preparazione dei dati di origine, consulta Prepara i dati di addestramento.
Per ogni file, la console Google Cloud consente di taggare le coppie di segmenti importate con una o più coppie chiave-valore. Con i tag, risulta più facile cercare e filtrare i segmenti in base all'origine. Ad esempio, una coppia chiave-valore potrebbe essere Domain:costmetics o Year:2020.
Puoi aggiungere tag quando importi segmenti tramite la console Google Cloud ; il tagging non è supportato dall'API. Inoltre, non puoi modificare i tag o aggiungerne a segmenti già importati.
UI web
I passaggi di seguito importano gli elementi in un set di dati esistente.
Vai alla console AutoML Translation.
Nel riquadro di navigazione, fai clic su Set di dati.
Nell'elenco dei set di dati, fai clic sul nome del set di dati a cui vuoi aggiungere dati di addestramento.
Vai alla scheda Importa.
Aggiungi file per importare coppie di segmenti per l'addestramento del modello.
Carica i file dal computer locale in un bucket Cloud Storage o seleziona file esistenti da Cloud Storage.
Per impostazione predefinita, Cloud Translation suddivide automaticamente i dati in set di addestramento, convalida e test. Se vuoi caricare file separati per ogni suddivisione, seleziona Usa file separati per addestramento, convalida e test (livello avanzato). Utilizza questa opzione se il tuo set di dati contiene più di 100.000 coppie di segmenti per evitare di superare il limite massimo di 10.000 coppie di segmenti per i set di convalida e test.
Per aggiungere tag alle coppie di segmenti, espandi Tag (facoltativo).
Nell'elenco dei file, fai clic su Modifica per aggiungere uno o più tag a tutte le coppie di segmenti per un determinato file.
Nel riquadro Tag, fai clic su Aggiungi tag.
Inserisci una chiave e un valore. Potrai filtrare i segmenti in base a questa coppia chiave-valore.
Per aggiungere altri tag, fai clic su Aggiungi tag.
Quando hai finito di aggiungere tag, fai clic su Continua.
Fai clic su Continua per importare le coppie di segmenti.
Al termine dell'importazione, puoi visualizzare le coppie di frasi importate nella scheda Frasi del set di dati. Puoi filtrare i segmenti in base alla suddivisione (addestramento, convalida o test) e a uno o più tag.
REST
Utilizza il metodoprojects.locations.datasets.importData per importare elementi in un set di dati.
Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:
- PROJECT_ID: l'ID progetto Google Cloud .
- LOCATION: la regione in cui si troverà il set di dati, ad esempio
us-central1. - DATASET_ID: l'ID del set di dati a cui aggiungere i dati.
- FILE_DISPLAY_NAME: il nome del file che contiene i dati da importare.
- USAGE: specifica la suddivisione dei dati per queste coppie di segmenti (
TRAIN,VALIDATIONoTEST). - FILE_PATH: il percorso del file di dati di origine in Cloud Storage.
Metodo HTTP e URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData
Corpo JSON della richiesta:
{
"input_config": {
"input_files": [
{
"display_name": "FILE_DISPLAY_NAME",
"usage": "USAGE",
"gcs_source": {
"input_uris": "gs://FILE_PATH"
}
},
...
]
}
}
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per .NET.
PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per Ruby.
Dopo aver creato e compilato il set di dati, puoi addestrare un modello. Per saperne di più, consulta Crea e gestisci modelli.
Problemi di importazione
Quando crei un set di dati, AutoML Translation potrebbe ignorare coppie di segmenti se sono troppo lunghe, se i segmenti nelle lingue di origine e di destinazione sono identici (non tradotti) o se sono presenti duplicati (più segmenti con lo stesso testo nella lingua di origine).
Quanto alle coppie di segmenti troppo lunghe, consigliamo di suddividerle in segmenti di circa 200 parole o meno e poi di ricreare il set di dati. Il limite di 200 parole è una stima della lunghezza massima. Durante l'elaborazione dei dati, AutoML Translation utilizza un processo interno per tokenizzare i dati di input, il che può aumentare le dimensioni dei segmenti. Questi dati tokenizzati sono quelli che AutoML Translation utilizza per misurare le dimensioni dei dati.
Rimuovi dal set di dati le coppie di segmenti identiche. Se vuoi evitare che alcuni segmenti vengano tradotti, utilizza una risorsa glossario per creare un dizionario personalizzato.
Esporta i dati
Puoi esportare coppie di segmenti dai set di dati esistenti in un bucket Cloud Storage.
UI web
Vai alla console AutoML Translation.
Nel riquadro di navigazione, fai clic su Set di dati per visualizzare un elenco dei tuoi set di dati.
Fai clic sul nome del set di dati per cui vuoi esportare i dati.
Nella pagina dei dettagli del set di dati, fai clic su Esporta dati.
Seleziona una destinazione Cloud Storage in cui salvare i file TSV esportati.
Fai clic su Esporta.
AutoML Translation genera file TSV denominati in base al set di dati (addestramento, convalida e test).
REST
Utilizza il metodoprojects.locations.datasets.exportData per esportare i dati in Cloud Storage come file TSV.
Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:
- PROJECT_ID: l'ID progetto Google Cloud .
- LOCATION: la regione in cui si trova il set di dati da esportare, ad esempio
us-central1. - DATASET_ID: l'ID del set di dati da esportare.
- DESTINATION_DIRECTORY: il percorso Cloud Storage dove viene inviato l'output.
Metodo HTTP e URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData
Corpo JSON della richiesta:
{
"output_config": {
"gcs_destination": {
"output_uri_prefix": "gs://DESTINATION_DIRECTORY"
}
}
}
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per .NET.
PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per Ruby.
Elenca set di dati
Elenca i set di dati disponibili nel tuo progetto.
UI web
Per visualizzare un elenco dei set di dati disponibili utilizzando la console AutoML Translation, fai clic su Set di dati nel riquadro di navigazione.
Per visualizzare i set di dati per un altro progetto, seleziona il progetto dall'elenco a discesa in alto a destra nella barra del titolo.
REST
Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:
- PROJECT_ID: l'ID progetto Google Cloud .
- LOCATION: la regione in cui si trovano i set di dati da elencare, ad esempio
us-central1.
Metodo HTTP e URL:
GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{
"datasets": [
{
"name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
"displayName": "DATASET_NAME",
"sourceLanguageCode": "SOURCE_LANG_CODE",
"targetLanguageCode": "TARGET_LANG_CODE",
"exampleCount": 8720,
"createTime": "2022-10-19T23:24:34.734549Z",
"updateTime": "2022-10-19T23:24:35.357525Z"
},
...
]
}
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per .NET.
PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per Ruby.
Elimina un set di dati
UI web
Nella console AutoML Translation, fai clic su Set di dati nel riquadro di navigazione per visualizzare l'elenco dei set di dati disponibili.
Per il set di dati da eliminare, seleziona Altro > Elimina.
Fai clic su Conferma nella finestra di dialogo di conferma.
REST
Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:
- PROJECT_ID: l'ID progetto Google Cloud .
- LOCATION: la regione in cui si trovano i set di dati da elencare, ad esempio
us-central1. - DATASET_ID: l'ID del set di dati da eliminare.
Metodo HTTP e URL:
DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
},
"done": true
}
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per .NET.
PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud Translation per Ruby.