Memahami konsep utama Managed Service for Apache Spark

Dokumen ini menjelaskan konsep utama, elemen penyusun dasar, fitur inti, dan manfaat Managed Service untuk Apache Spark. Memahami dasar-dasar ini akan membantu Anda menggunakan Managed Service untuk Apache Spark secara efektif untuk tugas pemrosesan data.

Model berbasis cluster

Ini adalah cara standar dan berpusat pada infrastruktur untuk menggunakan Managed Service untuk Apache Spark. Cara ini memberi Anda kontrol penuh atas kumpulan virtual machine khusus untuk tugas pemrosesan data.

  • Cluster: Cluster adalah mesin pemrosesan data pribadi Anda, yang terdiri dari Google Cloud virtual machine. Anda membuat cluster untuk menjalankan framework open source seperti Apache Spark dan Apache Hadoop. Anda memiliki kontrol penuh atas ukuran cluster, jenis mesin, dan konfigurasi.
  • Tugas: Tugas adalah tugas tertentu, seperti skrip PySpark atau kueri Hadoop. Daripada menjalankan tugas langsung di cluster, Anda mengirimkan tugas ke Managed Service untuk Apache Spark, yang mengelola eksekusi tugas untuk Anda. Anda dapat mengirimkan beberapa tugas ke cluster.
  • Template Alur Kerja: Template alur kerja adalah definisi yang dapat digunakan kembali yang mengatur serangkaian tugas (alur kerja). Template ini dapat menentukan dependensi antar-tugas, misalnya untuk menjalankan tugas machine learning hanya setelah tugas pembersihan data berhasil diselesaikan. Alur kerja yang dibuat menggunakan template dapat berjalan di cluster yang ada atau di cluster sementara (ephemeral) yang dibuat untuk menjalankan alur kerja, lalu dihapus setelah alur kerja selesai. Anda dapat menggunakan template untuk menjalankan alur kerja yang ditentukan kapan pun diperlukan.
  • Kebijakan penskalaan otomatis: Kebijakan penskalaan otomatis berisi aturan yang Anda tentukan untuk menambahkan atau menghapus mesin pekerja dari cluster berdasarkan workload cluster guna mengoptimalkan biaya dan performa cluster secara dinamis.

Model serverless

Managed Service untuk Apache Spark adalah model Managed Service untuk Apache Spark modern dengan eksekusi otomatis. Model ini memungkinkan Anda menjalankan tugas tanpa menyediakan, mengelola, atau menskalakan infrastruktur yang mendasarinya: Managed Service untuk Apache Spark menangani detailnya untuk Anda.

  • Batch: Batch (juga disebut workload batch) adalah padanan serverless dari tugas Managed Service untuk Apache Spark. Anda mengirimkan kode, seperti tugas Spark, ke layanan. Managed Service untuk Apache Spark menyediakan resource yang diperlukan sesuai permintaan, menjalankan tugas, lalu menghapusnya. Anda tidak membuat atau mengelola resource cluster atau tugas; layanan ini akan melakukan pekerjaan untuk Anda.
  • Sesi interaktif: Sesi interaktif menyediakan lingkungan langsung sesuai permintaan untuk analisis data eksploratori, biasanya dalam notebook Jupyter. Sesi interaktif memberikan kemudahan ruang kerja serverless sementara yang dapat Anda gunakan untuk menjalankan kueri dan mengembangkan kode tanpa harus menyediakan dan mengelola resource cluster dan notebook.
  • Template sesi: Template sesi adalah konfigurasi yang dapat digunakan kembali yang dapat Anda gunakan untuk menentukan sesi interaktif. Template ini berisi setelan sesi, seperti properti Spark dan dependensi library. Anda menggunakan template untuk membuat lingkungan sesi interaktif untuk pengembangan, biasanya dalam notebook Jupyter.

Layanan Metastore

Managed Service untuk Apache Spark menyediakan layanan terkelola untuk menangani metadata, yaitu data tentang data Anda.

  • Metastore: Metastore bertindak sebagai katalog pusat untuk skema data, seperti nama tabel dan kolom serta jenis data. Metastore memungkinkan berbagai layanan, cluster, dan tugas memahami struktur data Anda. Biasanya, katalog disimpan di Cloud Storage.
  • Federasi: Federasi metadata adalah fitur lanjutan yang memungkinkan Anda mengakses dan membuat kueri data dari beberapa metastore seolah-olah Anda mengakses satu metastor terpadu.

Lingkungan notebook dan pengembangan

Notebook dan IDE Managed Service untuk Apache Spark ditautkan ke lingkungan pengembangan terintegrasi tempat Anda dapat menulis dan menjalankan kode.

  • BigQuery Studio &Workbench: Ini adalah lingkungan notebook dan analisis terpadu. Lingkungan ini memungkinkan Anda menulis kode (misalnya di notebook Jupyter) dan menggunakan cluster Managed Service untuk Apache Spark atau sesi serverless sebagai mesin backend yang andal untuk menjalankan kode pada set data besar.
  • Plugin JupyterLab Managed Service untuk Apache Spark: Ekstensi JupyterLab resmi ini berfungsi sebagai panel kontrol untuk Managed Service untuk Apache Spark di dalam lingkungan notebook Anda. Plugin ini menyederhanakan alur kerja Anda dengan memungkinkan Anda menjelajahi, membuat, dan mengelola cluster serta mengirimkan tugas tanpa harus keluar dari antarmuka Jupyter. Pelajari Lebih Lanjut
  • Konektor Python Managed Service untuk Apache Spark Connect: Library Python ini menyederhanakan proses penggunaan Spark Connect dengan Managed Service untuk Apache Spark. Library ini menangani konfigurasi autentikasi dan endpoint, sehingga memudahkan Anda menghubungkan lingkungan Python lokal, seperti notebook atau IDE, ke cluster Managed Service untuk Apache Spark jarak jauh untuk pengembangan interaktif. Pelajari Lebih Lanjut

Penyesuaian lingkungan

Managed Service untuk Apache Spark menawarkan alat dan komponen untuk menyesuaikan lingkungan agar sesuai dengan kebutuhan tertentu. Bagian Utilitas di Google Cloud konsol berisi alat yang berguna untuk menyesuaikan lingkungan Managed Service untuk Apache Spark.