Datasets erstellen und verwalten

Ein Dataset enthält repräsentative Beispiele für den zu übersetzenden Inhaltstyp in Form von übereinstimmenden Segmentpaaren in den Ausgangs- und Zielsprachen. Das Dataset dient als Eingabe zum Trainieren eines Modells.

Ein Projekt kann mehrere Datasets enthalten. Jedes davon kann zum Trainieren eines separaten Modells verwendet werden.

Dataset erstellen

Erstellen Sie ein Dataset, das die Trainingsdaten für Ihr Modell enthält. Wenn Sie ein Dataset erstellen, geben Sie die Ausgangs- und Zielsprachen Ihrer Trainingsdaten an. Weitere Informationen zu den unterstützten Sprachen und Varianten finden Sie unter Sprachunterstützung für benutzerdefinierte Modelle.

Web-UI

Mit der AutoML Translation Console können Sie ein neues Dataset erstellen und Elemente darin importieren.

Rufen Sie die AutoML Translation Console auf.

Zur Seite „Übersetzung“
Klicken Sie im Navigationsbereich auf Datasets.
Klicken Sie auf der Seite Datasets auf Dataset erstellen.
Geben Sie im Dialogfeld Dataset erstellen Details zum Dataset an:
- Geben Sie einen Namen für das Dataset ein.
- Wählen Sie aus den Drop-down-Listen die Ausgangs- und Zielsprachen aus.
- Klicken Sie auf Erstellen.

REST

Im folgenden Beispiel ist zu sehen, wie eine POST-Anfrage an die Methode project.locations.datasets/create gesendet wird.

Ersetzen Sie die folgenden Werte, bevor die Anfragedaten verwendet werden:

PROJECT_ID: Ihre Google Cloud Projekt-ID
LOCATION: Die Region, in der das Dataset gespeichert sein wird, z. B. us-central1
DATASET_NAME: Ein Name für das Dataset
SOURCE_LANG_CODE: Der Sprachcode, der die Ausgangssprache des Datasets angibt
TARGET_LANG_CODE: Der Sprachcode, der die Zielsprache des Datasets angibt

HTTP-Methode und URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

JSON-Text der Anfrage:

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

Wenn Sie die Anfrage senden möchten, erweitern Sie eine der folgenden Optionen:

curl (Linux, macOS oder Cloud Shell)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt haben, die Sie automatisch bei der gcloud CLI anmeldet. Um zu prüfen, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets"

PowerShell (Windows)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt haben. Um zu prüfen, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

Weitere Sprachen

C#: Folgen Sie den Einrichtungshinweisen für C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.

PHP: Folgen Sie den Einrichtungshinweisen für PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.

Ruby: Folgen Sie den Einrichtungshinweisen für Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.

Segmente in einen Datensatz importieren

Nachdem Sie ein Dataset erstellt haben, können Sie Segmentpaare in das Dataset importieren. Details zum Vorbereiten von Quelldaten finden Sie unter Trainingsdaten vorbereiten.

In der Console von Google Cloud können Sie für jede Datei importierte Segmentpaare mit einem oder mehreren Schlüssel/Wert-Paaren taggen. Durch das Tagging lassen sich Segmente leichter nach Quelle suchen und filtern. Ein Schlüssel/Wert-Paar könnte beispielsweise Domain:costmetics oder Year:2020 sein.

Sie können Tags hinzufügen, wenn Sie Segmente über die Console von Google Cloud importieren. Das Tagging wird von der API nicht unterstützt. Außerdem können Sie keine Tags für Segmente ändern oder hinzufügen, die bereits importiert wurden.

Web-UI

In den folgenden Schritten werden Elemente in ein vorhandenes Dataset importiert.

Rufen Sie die AutoML Translation Console auf.

Zur Seite „Übersetzung“
Klicken Sie im Navigationsbereich auf Datasets.
Klicken Sie in der Dataset-Liste auf den Namen des Datasets, dem Sie Trainingsdaten hinzufügen möchten.
Rufen Sie den Tab Importieren auf.
Fügen Sie Dateien hinzu, um Segmentpaare für das Modelltraining zu importieren.

Laden Sie Dateien von Ihrem lokalen Computer in einen Cloud Storage-Bucket hoch oder wählen Sie vorhandene Dateien aus Cloud Storage aus.

Standardmäßig teilt Cloud Translation Ihre Daten automatisch in Trainings-, Validierungs- und Testdatensätze auf. Wenn Sie separate Dateien für die einzelnen Aufteilungen hochladen möchten, wählen Sie Unterschiedliche Dateien für Training, Validierung und Test (erweitert) verwenden aus. Verwenden Sie diese Option, wenn Ihr Dataset mehr als 100.000 Segmentpaare enthält, um eine Überschreitung der Begrenzung auf maximal 10.000 Segmentpaare für Validierungs- und Testdatensätze zu vermeiden.
Wenn Sie Segmentpaaren Tags hinzufügen möchten, erweitern Sie Tags (optional).
1. Klicken Sie in der Liste der Dateien auf Bearbeiten, um allen Segmentpaaren einer bestimmten Datei ein oder mehrere Tags hinzuzufügen.
2. Klicken Sie im Bereich Tags auf Tag hinzufügen.
3. Geben Sie einen Schlüssel und einen Wert ein. Sie können Segmente nach diesem Schlüssel/Wert-Paar filtern.
4. Wenn Sie weitere Tags hinzufügen möchten, klicken Sie auf Tag hinzufügen.
5. Wenn Sie alle Tags hinzugefügt haben, klicken Sie auf Weiter.
Klicken Sie auf Weiter, um Segmentpaare zu importieren.

Nachdem der Import abgeschlossen ist, können Sie die importierten Satzpaare im Tab Sätze Ihres Datasets anzeigen. Segmente können nach Aufteilung (Training, Validierung oder Test) und nach einem oder mehreren Tags gefiltert werden.

REST

Verwenden Sie die projects.locations.datasets.importData-Methode, um Elemente in ein Dataset zu importieren.

Ersetzen Sie die folgenden Werte, bevor die -Anfragedaten verwendet werden:

PROJECT_ID: Ihre Google Cloud Projekt-ID
LOCATION: Die Region, in der das Dataset gespeichert sein wird, z. B. us-central1
DATASET_ID: Die ID des Datasets, dem Daten hinzugefügt werden sollen
FILE_DISPLAY_NAME: Der Name der Datei, die die zu importierenden Daten enthält
USAGE: Gibt die Datenaufteilung für diese Segmentpaare an (TRAIN, VALIDATION oder TEST)
FILE_PATH: Der Pfad zur Quelldatendatei in Cloud Storage

HTTP-Methode und URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

JSON-Text der Anfrage:

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

Wenn Sie die Anfrage senden möchten, erweitern Sie eine der folgenden Optionen:

curl (Linux, macOS oder Cloud Shell)

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData"

PowerShell (Windows)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt haben. Um zu prüfen, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Weitere Sprachen

C#: Folgen Sie den Einrichtungshinweisen für C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.

PHP: Folgen Sie den Einrichtungshinweisen für PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.

Ruby: Folgen Sie den Einrichtungshinweisen für Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.

Nachdem Sie das Dataset erstellt und gefüllt haben, können Sie ein Modell trainieren. Weitere Informationen finden Sie unter Modelle erstellen und verwalten.

Importprobleme

Beim Erstellen eines Datasets kann AutoML Translation Segmentpaare löschen, wenn sie zu lang sind, wenn Segmente in den Ausgangs- und Zielsprachen identisch (nicht übersetzt) sind oder wenn Duplikate (mehrere Segmente mit demselben Text in der Ausgangssprache) vorhanden sind.

Bei zu langen Segmentpaaren empfehlen wir, Segmente auf etwa 200 Wörter zu begrenzen und das Dataset dann neu zu erstellen. Das Limit von 200 Wörtern ist eine Schätzung für die maximale Länge. Bei der Verarbeitung Ihrer Daten verwendet AutoML Translation einen internen Prozess, um Ihre Eingabedaten in Token umzuwandeln. Dies kann die Größe Ihrer Segmente erhöhen. Diese tokenisierten Daten werden von AutoML Translation zum Messen der Datengröße verwendet.

Entfernen Sie identische Segmentpaare aus Ihrem Dataset. Wenn bestimmte Segmente nicht übersetzt werden sollen, erstellen Sie stattdessen mithilfe einer Glossarressource ein benutzerdefiniertes Wörterbuch.

Daten exportieren

Sie können Segmentpaare aus vorhandenen Datasets in einen Cloud Storage-Bucket exportieren.

Web-UI

Rufen Sie die AutoML Translation Console auf.

Zur Seite „Übersetzung“
Klicken Sie im Navigationsbereich auf Datasets, um eine Liste Ihrer Datasets aufzurufen.
Klicken Sie auf den Namen des Datasets, für das Sie Daten exportieren möchten.
Klicken Sie auf der Seite mit Dataset-Details auf Daten exportieren.
Wählen Sie ein Cloud Storage-Ziel aus, in dem die exportierten TSV-Dateien gespeichert werden.
Klicken Sie auf Exportieren.

AutoML Translation gibt TSV-Dateien aus, die nach dem jeweiligen Dataset benannt sind („train“, „validation“ und „test“).

REST

Verwenden Sie die projects.locations.datasets.exportData-Methode, um Daten als TSV-Dateien in Cloud Storage zu exportieren.

Ersetzen Sie die folgenden Werte, bevor die Anfragedaten verwendet werden:

PROJECT_ID: Ihre Google Cloud Projekt-ID
LOCATION: Die Region, in der sich das zu exportierende Dataset befindet, z. B. us-central1
DATASET_ID: Die ID des Datasets, das exportiert werden soll
DESTINATION_DIRECTORY: Der Cloud Storage-Pfad, an den die Ausgabe gesendet wird

HTTP-Methode und URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

JSON-Text der Anfrage:

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

Wenn Sie die Anfrage senden möchten, erweitern Sie eine der folgenden Optionen:

curl (Linux, macOS oder Cloud Shell)

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData"

PowerShell (Windows)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt haben. Um zu prüfen, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Weitere Sprachen

C#: Folgen Sie den Einrichtungshinweisen für C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.

PHP: Folgen Sie den Einrichtungshinweisen für PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.

Ruby: Folgen Sie den Einrichtungshinweisen für Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.

Datasets auflisten

Listen Sie die verfügbaren Datasets in Ihrem Projekt auf.

Web-UI

Um über die AutoML Translation Console eine Liste der verfügbaren Datasets aufzurufen, klicken Sie im Navigationsbereich auf Datasets.

Wenn Sie die Datasets für ein anderes Projekt anzeigen möchten, wählen Sie das Projekt in der Drop-down-Liste oben rechts in der Titelleiste aus.

REST

Ersetzen Sie die folgenden Werte, bevor die Anfragedaten verwendet werden:

PROJECT_ID: Ihre Google Cloud Projekt-ID
LOCATION: Die Region, in der sich die aufzulistenden Datasets befinden, z. B. us-central1

HTTP-Methode und URL:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Wenn Sie die Anfrage senden möchten, erweitern Sie eine der folgenden Optionen:

curl (Linux, macOS oder Cloud Shell)

Führen Sie den folgenden Befehl aus:

curl -X GET \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets"

PowerShell (Windows)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt haben. Um zu prüfen, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

Weitere Sprachen

C#: Folgen Sie den Einrichtungshinweisen für C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.

PHP: Folgen Sie den Einrichtungshinweisen für PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.

Ruby: Folgen Sie den Einrichtungshinweisen für Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.

Dataset löschen

Web-UI

Klicken Sie in der AutoML Translation Console im Navigationsbereich auf Datasets, um die Liste der verfügbaren Datasets aufzurufen.
Wählen Sie für das Dataset, das Sie löschen möchten, Mehr > Löschen aus.
Klicken Sie im Bestätigungsdialogfeld auf Bestätigen.

REST

Ersetzen Sie die folgenden Werte, bevor die Anfragedaten verwendet werden:

PROJECT_ID: Ihre Google Cloud Projekt-ID
LOCATION: Die Region, in der sich die aufzulistenden Datasets befinden, z. B. us-central1
DATASET_ID: Die ID des Datasets, das gelöscht werden soll

HTTP-Methode und URL:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

Wenn Sie die Anfrage senden möchten, erweitern Sie eine der folgenden Optionen:

curl (Linux, macOS oder Cloud Shell)

Führen Sie den folgenden Befehl aus:

curl -X DELETE \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID"

PowerShell (Windows)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt haben. Um zu prüfen, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method DELETE `
    -Headers $headers `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

Weitere Sprachen

C#: Folgen Sie den Einrichtungshinweisen für C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.

PHP: Folgen Sie den Einrichtungshinweisen für PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.

Ruby: Folgen Sie den Einrichtungshinweisen für Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.