Google menggunakan teknologi AI untuk menerjemahkan konten ke dalam bahasa pilihan Anda. Terjemahan AI mungkin mengandung kesalahan.

Men-deploy dan menjalankan pipeline

Halaman ini menjelaskan dasar-dasar tentang men-deploy dan menjalankan pipeline di Cloud Data Fusion.

Men-deploy pipeline

Setelah selesai mendesain dan men-debug pipeline data serta puas dengan data yang Anda lihat di Pratinjau, Anda siap men-deploy pipeline.

Saat Anda men-deploy pipeline, Cloud Data Fusion Studio akan membuat alur kerja dan tugas Apache Spark yang sesuai di latar belakang.

Menjalankan pipeline

Setelah men-deploy pipeline, Anda dapat menjalankan pipeline dengan cara berikut:

Untuk menjalankan pipeline sesuai permintaan, buka pipeline yang di-deploy dan klik Run.
Untuk menjadwalkan pipeline agar berjalan pada waktu tertentu, buka pipeline yang di-deploy, lalu klik Jadwalkan.
Untuk memicu pipeline berdasarkan penyelesaian pipeline lain, buka pipeline yang di-deploy, lalu klik Pemicu masuk.

Pipeline Studio menyimpan histori pipeline setiap kali dijalankan. Anda dapat beralih di antara berbagai versi runtime pipeline.

Jika pipeline memiliki makro, tetapkan argumen runtime untuk setiap makro. Anda juga dapat meninjau dan mengubah konfigurasi pipeline sebelum menjalankan pipeline yang di-deploy. Anda dapat melihat perubahan status selama fase eksekusi pipeline, seperti Provisioning, Starting, Running, dan Succeeded. Anda juga dapat menghentikan pipeline kapan saja.

Jika mengaktifkan instrumentasi, Anda dapat menjelajahi metrik yang dihasilkan oleh pipeline dengan mengklik Properties di node mana pun dalam pipeline, seperti sumber, transformasi, atau sink.

Untuk mengetahui informasi selengkapnya tentang eksekusi pipeline, klik Ringkasan.

Melihat catatan operasi

Setelah eksekusi pipeline selesai, Anda dapat melihat catatan eksekusi. Secara default, Anda dapat melihat catatan operasi selama 30 hari terakhir. Cloud Data Fusion akan menghapusnya setelah periode tersebut. Anda dapat memperpanjang periode tersebut menggunakan REST API.

REST API

Untuk menyimpan catatan proses lebih dari 30 hari, perbarui opsi app.run.records.ttl menggunakan perintah berikut:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'

Ganti kode berikut:

PROJECT_NAME: Google Cloud nama project
REGION_NAME: region instance Cloud Data Fusion, misalnya, us-east4
INSTANCE_NAME: ID instance Cloud Data Fusion
DAYS: Jumlah waktu, dalam hari, untuk menyimpan catatan proses untuk proses pipeline lama—misalnya, 30.
HOURS: frekuensi, dalam jam, untuk memeriksa dan menghapus catatan proses lama—misalnya, 24.

Contoh:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'

Langkah berikutnya

Pelajari lebih lanjut konfigurasi pipeline.