Deployment Managed Service untuk Apache Spark tanpa server memungkinkan Anda menjalankan workload Spark tanpa perlu menyediakan dan mengelola cluster Managed Service untuk Apache Spark Anda sendiri. Ada dua cara untuk menjalankan workload Managed Service untuk Apache Spark: workload batch dan sesi interaktif.
Workload batch
Kirim workload batch menggunakan the Google Cloud konsol, Google Cloud CLI, atau REST API. Managed Service untuk Apache Spark menjalankan workload pada infrastruktur komputasi terkelola, serta melakukan penskalaan otomatis resource sesuai kebutuhan. Biaya hanya berlaku saat workload dijalankan.
Kemampuan workload batch
Anda dapat menjalankan jenis workload batch berikut:
- PySpark
- Spark SQL
- Spark R
- Spark (Java atau Scala)
Anda dapat menentukan properti Spark saat mengirimkan workload batch.
Menjadwalkan workload batch
Anda dapat menjadwalkan workload batch Spark sebagai bagian dari alur kerja Airflow atau Managed Service untuk Apache Airflow menggunakan operator batch Airflow. Untuk mengetahui informasi selengkapnya, lihat Menjalankan workload Managed Service untuk Apache Spark dengan Managed Airflow.
Mulai
Untuk memulai, lihat Menjalankan workload batch Apache Spark.
Sesi interaktif
Tulis dan jalankan kode di notebook Jupyter selama sesi interaktif. Anda dapat membuat sesi notebook dengan cara berikut:
Jalankan kode PySpark di notebook BigQuery Studio. Buka notebook Python BigQuery untuk membuat sesi interaktif Managed Service untuk Apache Spark berbasis Spark-Connect. Setiap notebook BigQuery hanya dapat memiliki satu sesi Managed Service untuk Apache Spark aktif yang terkait dengannya.
Gunakan plugin JupyterLab untuk membuat beberapa sesi notebook Jupyter dari template yang Anda buat dan kelola. Saat Anda menginstal plugin di mesin lokal atau VM Compute Engine, berbagai kartu yang sesuai dengan konfigurasi kernel Spark yang berbeda akan muncul di halaman peluncur JupyterLab. Klik kartu untuk membuat sesi notebook Managed Service untuk Apache Spark, lalu mulai tulis dan uji kode Anda di notebook.
Plugin JupyterLab juga memungkinkan Anda menggunakan halaman peluncur JupyterLab untuk melakukan tindakan berikut:
- Membuat cluster Managed Service untuk Apache Spark.
- Mengirim tugas ke cluster.
- Melihat log Spark. Google Cloud
Kepatuhan terhadap keamanan
Managed Service untuk Apache Spark mematuhi semua persyaratan residensi data, CMEK, VPC-SC, dan persyaratan keamanan lainnya yang dipatuhi Managed Service untuk Apache Spark.