Ringkasan performa pipeline

Halaman ini menjelaskan terminologi dan konsep dasar pemrosesan pipeline di Cloud Data Fusion.

Performa pipeline bergantung pada aspek berikut:

  • Ukuran dan karakteristik data Anda
  • Struktur pipeline Anda
  • Penentuan ukuran cluster
  • Plugin yang digunakan pipeline Cloud Data Fusion Anda

Terminologi pemrosesan pipeline di Cloud Data Fusion

Terminologi berikut berlaku dalam pemrosesan pipeline di Cloud Data Fusion.

Jenis mesin
Jenis virtual machine (VM) yang digunakan (CPU, memori).
Cluster
Grup VM yang bekerja sama untuk menangani tugas pemrosesan data berskala besar.
Node master dan pekerja
Mesin fisik atau virtual yang dapat melakukan pemrosesan. Node master biasanya mengoordinasikan pekerjaan. Node pekerja menjalankan eksekutor yang memproses data. Mereka memiliki karakteristik mesin (jumlah memori dan jumlah vCore yang tersedia untuk proses).
vCore, Core, atau CPU
Resource yang melakukan komputasi. Biasanya, node Anda menyediakan sejumlah Core dan Executor Anda meminta satu atau beberapa CPU. Seimbangkan hal ini dengan memori, atau Anda mungkin kurang memanfaatkan cluster.
Pengemudi
Satu VM yang berfungsi sebagai koordinator pusat untuk seluruh cluster. Layanan ini mengelola tugas, menjadwalkan pekerjaan di seluruh worker node, dan memantau progres tugas.
Eksekutor
Beberapa VM yang melakukan tugas pemrosesan data sebenarnya, seperti yang diinstruksikan oleh driver. Data Anda dipartisi dan didistribusikan di seluruh eksekutor ini untuk pemrosesan paralel. Untuk memanfaatkan semua eksekutor, Anda harus memiliki pemisahan yang cukup.
Pemisahan atau partisi
Set data dibagi menjadi beberapa bagian (partisi nama lain) untuk memproses data secara paralel. Jika tidak memiliki cukup pemisahan, Anda tidak dapat menggunakan seluruh cluster.

Ringkasan penyesuaian performa

Pipeline dijalankan di cluster mesin. Saat Anda memilih untuk menjalankan pipeline Cloud Data Fusion di cluster Managed Service for Apache Spark (yang merupakan penyedia yang direkomendasikan), YARN (Yet Another Resource Negotiator) akan digunakan di balik layar. Managed Service for Apache Spark menggunakan YARN untuk pengelolaan resource dalam cluster. Saat Anda mengirimkan pipeline Cloud Data Fusion ke cluster Managed Service for Apache Spark, tugas Apache Spark yang mendasarinya memanfaatkan YARN untuk alokasi resource dan penjadwalan tugas.

Cluster terdiri dari node master dan pekerja. Node master umumnya bertanggung jawab untuk mengoordinasikan pekerjaan, sementara node pekerja melakukan pekerjaan yang sebenarnya. Cluster biasanya memiliki sejumlah kecil node master (satu atau tiga) dan sejumlah besar pekerja. YARN digunakan sebagai sistem koordinasi tugas. YARN menjalankan layanan Resource Manager di node master dan layanan Node Manager di setiap node pekerja. Pengelola Resource berkoordinasi dengan semua Pengelola Node untuk menentukan tempat membuat dan menjalankan container di cluster.

YARN Resource Manager dan Node Manager

Di setiap node pekerja, Node Manager mencadangkan sebagian memori mesin dan CPU yang tersedia untuk menjalankan container YARN. Misalnya, di cluster Managed Service for Apache Spark, jika node pekerja Anda adalah VM n1-standard-4 (4 CPU, memori 15 GB), setiap Node Manager akan mencadangkan 4 CPU dan memori 12 GB untuk menjalankan container YARN. Sisa memori 3 GB ditinggalkan untuk layanan Hadoop lainnya yang berjalan di node.

Saat pipeline dijalankan di YARN, pipeline akan meluncurkan driver alur kerja pipeline, driver Spark, dan banyak eksekutor Spark di Managed Service for Apache Spark.

Driver dan Eksekutor

Driver alur kerja bertanggung jawab untuk meluncurkan satu atau beberapa program Spark yang membentuk pipeline. Driver alur kerja biasanya tidak melakukan banyak pekerjaan. Setiap program Spark menjalankan satu driver Spark dan beberapa executor Spark. Driver mengoordinasikan pekerjaan di antara eksekutor, tetapi biasanya tidak melakukan pekerjaan yang sebenarnya. Sebagian besar pekerjaan sebenarnya dilakukan oleh eksekutor Spark.

Langkah berikutnya