Profil komputasi menentukan cara dan tempat pipeline dieksekusi. Objek ini merangkum informasi apa pun yang diperlukan untuk menyiapkan dan menghapus lingkungan eksekusi fisik pipeline. Profil komputasi menentukan nama penyedia dan setelan konfigurasi untuk penyedia tersebut.
Setiap profil komputasi memiliki cakupan: sistem atau pengguna. Anda dapat menggunakan profil komputasi sistem untuk namespace apa pun di bawahnya. Profil komputasi pengguna ada dalam namespace, dan hanya pipeline di namespace tersebut yang dapat menggunakan profil komputasi pengguna. Profil komputasi dapat ditetapkan ke pipeline batch. Saat profil komputasi ditetapkan ke pipeline, penyedia yang ditentukan dalam profil akan digunakan untuk membuat cluster tempat pipeline akan berjalan.
Misalnya, administrator dapat memutuskan untuk membuat profil komputasi kecil, sedang, dan besar. Mereka mengonfigurasi setiap profil dengan kredensial Google Cloud yang diperlukan untuk membuat dan menghapus cluster Managed Service for Apache Spark di akun Google Cloud perusahaan.
- Profil kecil dikonfigurasi untuk membuat cluster 5 node.
- Profil sedang dikonfigurasi untuk membuat cluster 20 node.
- Profil besar dikonfigurasi untuk membuat cluster 50 node.
Administrator menetapkan profil kecil ke pipeline yang dijadwalkan untuk dijalankan setiap jam pada sejumlah kecil data. Mereka menetapkan profil besar ke pipeline yang dijadwalkan untuk berjalan setiap hari pada sejumlah besar data.
Profil komputasi default
Secara default, Cloud Data Fusion menggunakan Skalakan otomatis sebagai profil komputasi. Mengestimasi jumlah cluster worker (node) yang tepat untuk workload sulit dilakukan, dan ukuran cluster tunggal untuk seluruh pipeline sering kali tidak ideal. Penskalaan Otomatis Managed Service for Apache Spark menyediakan mekanisme untuk mengotomatiskan pengelolaan resource cluster serta memungkinkan penskalaan otomatis VM worker cluster. Untuk mengetahui informasi selengkapnya, lihat Penskalaan otomatis.
Di halaman Compute config, tempat Anda dapat melihat daftar profil, ada
kolom Total core, yang memiliki vCPU maksimum yang dapat diskalakan
oleh profil, seperti Up to 84.
Profil komputasi sistem dan pengguna
Profil komputasi menunjukkan penyedia yang akan digunakan saat membuat cluster dan menentukan konfigurasi cluster. Mereka juga menentukan konfigurasi penyedia yang harus digunakan saat membuat cluster.
- Untuk membuat profil komputasi sistem, buka halaman Admin sistem di Cloud Data Fusion Studio. Halaman ini mencantumkan semua profil komputasi sistem dan memungkinkan Anda membuat profil komputasi sistem baru.
- Untuk membuat profil komputasi pengguna, buka halaman Administrasi namespace di Cloud Data Fusion Studio, lalu pilih namespace untuk membuat profil. Kemudian, Anda dapat membuat profil yang hanya ada dalam namespace tersebut.
Penetapan profil komputasi
Anda dapat menetapkan profil komputasi ke pipeline batch dengan cara berikut:
- Tetapkan profil default untuk instance Cloud Data Fusion.
- Tetapkan profil default untuk namespace tertentu.
- Tetapkan profil ke pipeline batch untuk digunakan dalam operasi yang dimulai secara manual.
- Menetapkan profil ke jadwal pipeline.
Jika profil ditetapkan dalam jadwal yang memicu eksekusi, atau jika Anda menjalankan pipeline secara manual dan ada profil yang ditetapkan ke pipeline tersebut, Cloud Data Fusion akan menggunakan profil komputasi tersebut.
Jika tidak ada profil yang ditetapkan, Cloud Data Fusion akan menggunakan profil default untuk namespace. Jika tidak ada profil default yang ditetapkan untuk namespace,
Cloud Data Fusion menggunakan profil default sistem. Jika tidak ada setelan default sistem, profil bawaan akan digunakan.
Menetapkan profil komputasi default
Untuk menetapkan profil default ke namespace atau instance Cloud Data Fusion, buka Cloud Data Fusion Studio, lalu klik System admin > Configuration > System compute profiles. Untuk memilih default, klik bintang di samping nama profil.
Opsional: gunakan Microservice Preferensi untuk menyetel profil default
- Untuk menetapkan profil default, tetapkan preferensi pada instance Cloud Data Fusion dengan kunci system.profile.name dan nilai
system:<profile-name>. - Untuk menetapkan profil default untuk namespace, tetapkan preferensi pada
namespace yang dipilih dengan kunci
system.profile.namedan nilai<scope>:<profile-name>.
Menetapkan profil komputasi untuk proses manual
Untuk menetapkan profil yang akan digunakan untuk menjalankan pipeline secara manual, ikuti langkah-langkah berikut:
- Buka halaman detail pipeline.
- Klik Configure > Compute config.
- Pilih profil, lalu klik Simpan. Profil yang dipilih digunakan setiap kali pipeline dijalankan secara manual.
Atau, Anda dapat menggunakan Microservice Preferensi untuk menetapkan profil untuk
run manual dengan menetapkan preferensi pada entitas DataPipelineWorkflow dengan kunci
system.profile.name dan nilai <scope>:<profile-name>.
Menetapkan profil komputasi ke jadwal
Setiap kali membuat jadwal untuk pipeline, Anda dapat menetapkan profil ke jadwal tersebut. Setiap kali jadwal memicu operasi pipeline, jadwal akan menggunakan profil tersebut untuk operasi. Hal ini berlaku untuk jadwal waktu dan jadwal yang dipicu oleh pipeline lain.
Mengganti konfigurasi profil komputasi
Saat profil dibuat, setiap setelan konfigurasi dapat dibuat tidak dapat diubah dengan menguncinya. Namun, jika setelan konfigurasi tidak dikunci, setelan tersebut dapat diganti saat runtime. Untuk mengganti konfigurasi profil, ikuti langkah-langkah berikut:
- Dari halaman Pipeline List, pilih pipeline yang di-deploy yang ingin Anda jalankan.
- Dari halaman Detail Pipeline, klik Konfigurasi.
- Pilih profil komputasi, lalu klik Sesuaikan.
- Ubah setelan, lalu klik Simpan.
Anda dapat menggunakan argumen runtime dan properti jadwal untuk mengubah ukuran cluster dan setelan lainnya.
- Untuk mengganti profil yang digunakan, tetapkan argumen runtime dengan kunci
system.profile.namedan nilai<scope>:<profile-name>. - Untuk mengganti properti profil, tetapkan argumen runtime dengan kunci
system.profile.properties.<property-name>dan nilai yang sama dengan nilai untuk properti tersebut.
Misalnya, untuk mengganti numWorkerssetting ke nilai 10, tetapkan
argumen preferensi atau runtime dengan kunci
system.profile.properties.numWorkers dan nilai 10.
Langkah berikutnya
- Pelajari lebih lanjut penyedia di Cloud Data Fusion.
- Pelajari lebih lanjut konfigurasi cluster Managed Service for Apache Spark.