Halaman ini menjelaskan terminologi dan konsep dasar pemrosesan pipeline di Cloud Data Fusion.
Performa pipeline bergantung pada aspek berikut:
- Ukuran dan karakteristik data Anda
- Struktur pipeline Anda
- Penentuan ukuran cluster
- Plugin yang digunakan pipeline Cloud Data Fusion Anda
Terminologi pemrosesan pipeline di Cloud Data Fusion
Terminologi berikut berlaku dalam pemrosesan pipeline di Cloud Data Fusion.
- Jenis mesin
- Jenis virtual machine (VM) yang digunakan (CPU, memori).
- Cluster
- Grup VM yang bekerja sama untuk menangani tugas pemrosesan data berskala besar.
- Node master dan pekerja
- Mesin fisik atau virtual yang dapat melakukan pemrosesan. Node master biasanya mengoordinasikan pekerjaan. Node pekerja menjalankan eksekutor yang memproses data. Mereka memiliki karakteristik mesin (jumlah memori dan jumlah vCore yang tersedia untuk proses).
- vCore, Core, atau CPU
- Resource yang melakukan komputasi. Biasanya, node Anda menyediakan sejumlah Core dan Executor Anda meminta satu atau beberapa CPU. Seimbangkan hal ini dengan memori, atau Anda mungkin kurang memanfaatkan cluster.
- Pengemudi
- Satu VM yang berfungsi sebagai koordinator pusat untuk seluruh cluster. Layanan ini mengelola tugas, menjadwalkan pekerjaan di seluruh worker node, dan memantau progres tugas.
- Eksekutor
- Beberapa VM yang melakukan tugas pemrosesan data sebenarnya, seperti yang diinstruksikan oleh driver. Data Anda dipartisi dan didistribusikan di seluruh eksekutor ini untuk pemrosesan paralel. Untuk memanfaatkan semua eksekutor, Anda harus memiliki pemisahan yang cukup.
- Pemisahan atau partisi
- Set data dibagi menjadi beberapa bagian (partisi nama lain) untuk memproses data secara paralel. Jika tidak memiliki cukup pemisahan, Anda tidak dapat menggunakan seluruh cluster.
Ringkasan penyesuaian performa
Pipeline dijalankan di cluster mesin. Saat Anda memilih untuk menjalankan pipeline Cloud Data Fusion di cluster Managed Service for Apache Spark (yang merupakan penyedia yang direkomendasikan), YARN (Yet Another Resource Negotiator) akan digunakan di balik layar. Managed Service for Apache Spark menggunakan YARN untuk pengelolaan resource dalam cluster. Saat Anda mengirimkan pipeline Cloud Data Fusion ke cluster Managed Service for Apache Spark, tugas Apache Spark yang mendasarinya memanfaatkan YARN untuk alokasi resource dan penjadwalan tugas.
Cluster terdiri dari node master dan pekerja. Node master umumnya bertanggung jawab untuk mengoordinasikan pekerjaan, sementara node pekerja melakukan pekerjaan yang sebenarnya. Cluster biasanya memiliki sejumlah kecil node master (satu atau tiga) dan sejumlah besar pekerja. YARN digunakan sebagai sistem koordinasi tugas. YARN menjalankan layanan Resource Manager di node master dan layanan Node Manager di setiap node pekerja. Pengelola Resource berkoordinasi dengan semua Pengelola Node untuk menentukan tempat membuat dan menjalankan container di cluster.
Di setiap node pekerja, Node Manager mencadangkan sebagian memori mesin dan CPU yang tersedia untuk menjalankan container YARN. Misalnya, di cluster Managed Service for Apache Spark, jika node pekerja Anda adalah VM n1-standard-4 (4 CPU, memori 15 GB), setiap Node Manager akan mencadangkan 4 CPU dan memori 12 GB untuk menjalankan container YARN. Sisa memori 3 GB ditinggalkan untuk layanan Hadoop lainnya yang berjalan di node.
Saat pipeline dijalankan di YARN, pipeline akan meluncurkan driver alur kerja pipeline, driver Spark, dan banyak eksekutor Spark di Managed Service for Apache Spark.
Driver alur kerja bertanggung jawab untuk meluncurkan satu atau beberapa program Spark yang membentuk pipeline. Driver alur kerja biasanya tidak melakukan banyak pekerjaan. Setiap program Spark menjalankan satu driver Spark dan beberapa executor Spark. Driver mengoordinasikan pekerjaan di antara eksekutor, tetapi biasanya tidak melakukan pekerjaan yang sebenarnya. Sebagian besar pekerjaan sebenarnya dilakukan oleh eksekutor Spark.
Langkah berikutnya
- Pelajari pemrosesan paralel di Cloud Data Fusion.