Datasets erstellen und verwalten
Ein Dataset enthält repräsentative Beispiele für den zu übersetzenden Inhaltstyp in Form von übereinstimmenden Segmentpaaren in den Ausgangs- und Zielsprachen. Das Dataset dient als Eingabe zum Trainieren eines Modells.
Ein Projekt kann mehrere Datasets enthalten. Jedes davon kann zum Trainieren eines separaten Modells verwendet werden.
Dataset erstellen
Erstellen Sie ein Dataset, das die Trainingsdaten für Ihr Modell enthält. Wenn Sie ein Dataset erstellen, geben Sie die Ausgangs- und Zielsprachen Ihrer Trainingsdaten an. Weitere Informationen zu den unterstützten Sprachen und Varianten finden Sie unter Sprachunterstützung für benutzerdefinierte Modelle.
Web-UI
Mit der AutoML Translation Console können Sie ein neues Dataset erstellen und Elemente darin importieren.Rufen Sie die AutoML Translation Console auf.
Klicken Sie im Navigationsbereich auf Datasets.
Klicken Sie auf der Seite Datasets auf Dataset erstellen.
Geben Sie im Dialogfeld Dataset erstellen Details zum Dataset an:
- Geben Sie einen Namen für das Dataset ein.
- Wählen Sie aus den Drop-down-Listen die Ausgangs- und Zielsprachen aus.
- Klicken Sie auf Erstellen.
REST
Im folgenden Beispiel ist zu sehen, wie einePOST
-Anfrage an die Methode project.locations.datasets/create
gesendet wird.
Ersetzen Sie die folgenden Werte, bevor die Anfragedaten verwendet werden:
- PROJECT_ID: Ihre Google Cloud Projekt-ID
- LOCATION: Die Region, in der das Dataset gespeichert sein wird, z. B.
us-central1
- DATASET_NAME: Ein Name für das Dataset
- SOURCE_LANG_CODE: Der Sprachcode, der die Ausgangssprache des Datasets angibt
- TARGET_LANG_CODE: Der Sprachcode, der die Zielsprache des Datasets angibt
HTTP-Methode und URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
JSON-Text der Anfrage:
{ "display_name": "DATASET_NAME", "source_language_code": "SOURCE_LANG_CODE", "target_language_code": "TARGET_LANG_CODE" }
Wenn Sie die Anfrage senden möchten, erweitern Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID" }
Weitere Sprachen
C#: Folgen Sie den Einrichtungshinweisen für C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie den Einrichtungshinweisen für PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie den Einrichtungshinweisen für Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.
Segmente in einen Datensatz importieren
Nachdem Sie ein Dataset erstellt haben, können Sie Segmentpaare in das Dataset importieren. Details zum Vorbereiten von Quelldaten finden Sie unter Trainingsdaten vorbereiten.
In der Console von Google Cloud können Sie für jede Datei importierte Segmentpaare mit einem oder mehreren Schlüssel/Wert-Paaren taggen. Durch das Tagging lassen sich Segmente leichter nach Quelle suchen und filtern. Ein Schlüssel/Wert-Paar könnte beispielsweise Domain:costmetics
oder Year:2020
sein.
Sie können Tags hinzufügen, wenn Sie Segmente über die Console von Google Cloud importieren. Das Tagging wird von der API nicht unterstützt. Außerdem können Sie keine Tags für Segmente ändern oder hinzufügen, die bereits importiert wurden.
Web-UI
In den folgenden Schritten werden Elemente in ein vorhandenes Dataset importiert.
Rufen Sie die AutoML Translation Console auf.
Klicken Sie im Navigationsbereich auf Datasets.
Klicken Sie in der Dataset-Liste auf den Namen des Datasets, dem Sie Trainingsdaten hinzufügen möchten.
Rufen Sie den Tab Importieren auf.
Fügen Sie Dateien hinzu, um Segmentpaare für das Modelltraining zu importieren.
Laden Sie Dateien von Ihrem lokalen Computer in einen Cloud Storage-Bucket hoch oder wählen Sie vorhandene Dateien aus Cloud Storage aus.
Standardmäßig teilt Cloud Translation Ihre Daten automatisch in Trainings-, Validierungs- und Testdatensätze auf. Wenn Sie separate Dateien für die einzelnen Aufteilungen hochladen möchten, wählen Sie Unterschiedliche Dateien für Training, Validierung und Test (erweitert) verwenden aus. Verwenden Sie diese Option, wenn Ihr Dataset mehr als 100.000 Segmentpaare enthält, um eine Überschreitung der Begrenzung auf maximal 10.000 Segmentpaare für Validierungs- und Testdatensätze zu vermeiden.
Wenn Sie Segmentpaaren Tags hinzufügen möchten, erweitern Sie Tags (optional).
Klicken Sie in der Liste der Dateien auf
Bearbeiten, um allen Segmentpaaren einer bestimmten Datei ein oder mehrere Tags hinzuzufügen.Klicken Sie im Bereich Tags auf Tag hinzufügen.
Geben Sie einen Schlüssel und einen Wert ein. Sie können Segmente nach diesem Schlüssel/Wert-Paar filtern.
Wenn Sie weitere Tags hinzufügen möchten, klicken Sie auf Tag hinzufügen.
Wenn Sie alle Tags hinzugefügt haben, klicken Sie auf Weiter.
Klicken Sie auf Weiter, um Segmentpaare zu importieren.
Nachdem der Import abgeschlossen ist, können Sie die importierten Satzpaare im Tab Sätze Ihres Datasets anzeigen. Segmente können nach Aufteilung (Training, Validierung oder Test) und nach einem oder mehreren Tags gefiltert werden.
REST
Verwenden Sie dieprojects.locations.datasets.importData
-Methode, um Elemente in ein Dataset zu importieren.
Ersetzen Sie die folgenden Werte, bevor die -Anfragedaten verwendet werden:
- PROJECT_ID: Ihre Google Cloud Projekt-ID
- LOCATION: Die Region, in der das Dataset gespeichert sein wird, z. B.
us-central1
- DATASET_ID: Die ID des Datasets, dem Daten hinzugefügt werden sollen
- FILE_DISPLAY_NAME: Der Name der Datei, die die zu importierenden Daten enthält
- USAGE: Gibt die Datenaufteilung für diese Segmentpaare an (
TRAIN
,VALIDATION
oderTEST
) - FILE_PATH: Der Pfad zur Quelldatendatei in Cloud Storage
HTTP-Methode und URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData
JSON-Text der Anfrage:
{ "input_config": { "input_files": [ { "display_name": "FILE_DISPLAY_NAME", "usage": "USAGE", "gcs_source": { "input_uris": "gs://FILE_PATH" } }, ... ] } }
Wenn Sie die Anfrage senden möchten, erweitern Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID" }
Weitere Sprachen
C#: Folgen Sie den Einrichtungshinweisen für C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie den Einrichtungshinweisen für PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie den Einrichtungshinweisen für Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.
Nachdem Sie das Dataset erstellt und gefüllt haben, können Sie ein Modell trainieren. Weitere Informationen finden Sie unter Modelle erstellen und verwalten.
Importprobleme
Beim Erstellen eines Datasets kann AutoML Translation Segmentpaare löschen, wenn sie zu lang sind, wenn Segmente in den Ausgangs- und Zielsprachen identisch (nicht übersetzt) sind oder wenn Duplikate (mehrere Segmente mit demselben Text in der Ausgangssprache) vorhanden sind.
Bei zu langen Segmentpaaren empfehlen wir, Segmente auf etwa 200 Wörter zu begrenzen und das Dataset dann neu zu erstellen. Das Limit von 200 Wörtern ist eine Schätzung für die maximale Länge. Bei der Verarbeitung Ihrer Daten verwendet AutoML Translation einen internen Prozess, um Ihre Eingabedaten in Token umzuwandeln. Dies kann die Größe Ihrer Segmente erhöhen. Diese tokenisierten Daten werden von AutoML Translation zum Messen der Datengröße verwendet.
Entfernen Sie identische Segmentpaare aus Ihrem Dataset. Wenn bestimmte Segmente nicht übersetzt werden sollen, erstellen Sie stattdessen mithilfe einer Glossarressource ein benutzerdefiniertes Wörterbuch.
Daten exportieren
Sie können Segmentpaare aus vorhandenen Datasets in einen Cloud Storage-Bucket exportieren.
Web-UI
Rufen Sie die AutoML Translation Console auf.
Klicken Sie im Navigationsbereich auf Datasets, um eine Liste Ihrer Datasets aufzurufen.
Klicken Sie auf den Namen des Datasets, für das Sie Daten exportieren möchten.
Klicken Sie auf der Seite mit Dataset-Details auf Daten exportieren.
Wählen Sie ein Cloud Storage-Ziel aus, in dem die exportierten TSV-Dateien gespeichert werden.
Klicken Sie auf Exportieren.
AutoML Translation gibt TSV-Dateien aus, die nach dem jeweiligen Dataset benannt sind („train“, „validation“ und „test“).
REST
Verwenden Sie dieprojects.locations.datasets.exportData
-Methode, um Daten als TSV-Dateien in Cloud Storage zu exportieren.
Ersetzen Sie die folgenden Werte, bevor die Anfragedaten verwendet werden:
- PROJECT_ID: Ihre Google Cloud Projekt-ID
- LOCATION: Die Region, in der sich das zu exportierende Dataset befindet, z. B.
us-central1
- DATASET_ID: Die ID des Datasets, das exportiert werden soll
- DESTINATION_DIRECTORY: Der Cloud Storage-Pfad, an den die Ausgabe gesendet wird
HTTP-Methode und URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData
JSON-Text der Anfrage:
{ "output_config": { "gcs_destination": { "output_uri_prefix": "gs://DESTINATION_DIRECTORY" } } }
Wenn Sie die Anfrage senden möchten, erweitern Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID" }
Weitere Sprachen
C#: Folgen Sie den Einrichtungshinweisen für C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie den Einrichtungshinweisen für PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie den Einrichtungshinweisen für Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.
Datasets auflisten
Listen Sie die verfügbaren Datasets in Ihrem Projekt auf.
Web-UI
Um über die AutoML Translation Console eine Liste der verfügbaren Datasets aufzurufen, klicken Sie im Navigationsbereich auf Datasets.
Wenn Sie die Datasets für ein anderes Projekt anzeigen möchten, wählen Sie das Projekt in der Drop-down-Liste oben rechts in der Titelleiste aus.
REST
Ersetzen Sie die folgenden Werte, bevor die Anfragedaten verwendet werden:
- PROJECT_ID: Ihre Google Cloud Projekt-ID
- LOCATION: Die Region, in der sich die aufzulistenden Datasets befinden, z. B.
us-central1
HTTP-Methode und URL:
GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
Wenn Sie die Anfrage senden möchten, erweitern Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "datasets": [ { "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID", "displayName": "DATASET_NAME", "sourceLanguageCode": "SOURCE_LANG_CODE", "targetLanguageCode": "TARGET_LANG_CODE", "exampleCount": 8720, "createTime": "2022-10-19T23:24:34.734549Z", "updateTime": "2022-10-19T23:24:35.357525Z" }, ... ] }
Weitere Sprachen
C#: Folgen Sie den Einrichtungshinweisen für C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie den Einrichtungshinweisen für PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie den Einrichtungshinweisen für Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.
Dataset löschen
Web-UI
Klicken Sie in der AutoML Translation Console im Navigationsbereich auf Datasets, um die Liste der verfügbaren Datasets aufzurufen.
Wählen Sie für das Dataset, das Sie löschen möchten,
Mehr > Löschen aus.Klicken Sie im Bestätigungsdialogfeld auf Bestätigen.
REST
Ersetzen Sie die folgenden Werte, bevor die Anfragedaten verwendet werden:
- PROJECT_ID: Ihre Google Cloud Projekt-ID
- LOCATION: Die Region, in der sich die aufzulistenden Datasets befinden, z. B.
us-central1
- DATASET_ID: Die ID des Datasets, das gelöscht werden soll
HTTP-Methode und URL:
DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID
Wenn Sie die Anfrage senden möchten, erweitern Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata" }, "done": true }
Weitere Sprachen
C#: Folgen Sie den Einrichtungshinweisen für C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie den Einrichtungshinweisen für PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie den Einrichtungshinweisen für Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.