Auf dieser Seite werden die Grundlagen zum Bereitstellen und Ausführen von Pipelines in Cloud Data Fusion beschrieben.
Pipelines implementieren
Wenn Sie eine Datenpipeline entworfen und Fehler behoben haben und mit den Daten in der Vorschau zufrieden sind, können Sie die Pipeline bereitstellen.
Wenn Sie die Pipeline bereitstellen, erstellt Cloud Data Fusion Studio den Workflow und die entsprechenden Apache Spark-Jobs im Hintergrund.
Pipelines ausführen
Nachdem Sie eine Pipeline bereitgestellt haben, können Sie sie auf folgende Arten ausführen:
- Wenn Sie eine Pipeline auf Abruf ausführen möchten, öffnen Sie eine bereitgestellte Pipeline und klicken Sie auf Ausführen.
- Wenn Sie festlegen möchten, dass die Pipeline zu einem bestimmten Zeitpunkt ausgeführt wird, öffnen Sie eine bereitgestellte Pipeline und klicken Sie auf Zeitplan.
- Wenn Sie die Pipeline auslösen möchten, wenn eine andere Pipeline abgeschlossen ist, öffnen Sie eine bereitgestellte Pipeline und klicken Sie auf Eingehende Trigger.
In Pipeline Studio wird der Verlauf einer Pipeline bei jeder Ausführung gespeichert. Sie können zwischen verschiedenen Laufzeitversionen der Pipeline wechseln.
Wenn die Pipeline Makros enthält, legen Sie die Laufzeitargumente für jedes Makro fest. Sie können die Pipeline-Konfigurationen auch prüfen und ändern, bevor Sie die bereitgestellte Pipeline ausführen. Sie können den Status während der Phasen der Pipelineausführung sehen, z. B. Bereitstellung, Start, Aktiv und Erfolgreich. Sie können die Pipeline auch jederzeit stoppen.
Wenn Sie die Instrumentierung aktivieren, können Sie die von der Pipeline generierten Messwerte aufrufen, indem Sie in einem beliebigen Knoten der Pipeline, z. B. einer Quelle, Transformation oder Senke, auf Properties (Eigenschaften) klicken.
Klicken Sie auf Zusammenfassung, um weitere Informationen zu den Pipelineausführungen aufzurufen.
Laufaufzeichnungen ansehen
Nach Abschluss eines Pipeline-Laufs können Sie sich den Laufdatensatz ansehen. Standardmäßig können Sie die Aufzeichnungen der letzten 30 Tage ansehen. Cloud Data Fusion löscht sie nach diesem Zeitraum. Sie können diesen Zeitraum mit der REST API verlängern.
REST API
Wenn Sie Laufaufzeichnungen länger als 30 Tage behalten möchten, aktualisieren Sie die app.run.records.ttl-Optionen mit dem folgenden Befehl:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
Ersetzen Sie Folgendes:
PROJECT_NAME: der Google Cloud ProjektnameREGION_NAME: Die Region der Cloud Data Fusion-Instanz, z. B.us-east4INSTANCE_NAME: Die Cloud Data Fusion-Instanz-ID.DAYS: Die Anzahl der Tage, die Ausführungsdatensätze für alte Pipeline-Ausführungen aufbewahrt werden sollen, z. B.30.HOURS: Häufigkeit in Stunden, mit der nach alten Laufdatensätzen gesucht und diese gelöscht werden sollen, z. B.24.
Beispiel:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'