Managed Service untuk Apache Spark serverless memungkinkan Anda menjalankan workload Spark tanpa perlu menyediakan dan mengelola cluster Anda sendiri. Ada dua cara untuk menjalankan workload Managed Service untuk Apache Spark: workload batch dan sesi interaktif.
Workload batch
Kirim workload batch menggunakan the Google Cloud konsol, Google Cloud CLI, atau REST API. Managed Service untuk Apache Spark menjalankan workload pada infrastruktur komputasi terkelola, serta melakukan penskalaan otomatis resource sesuai kebutuhan. Biaya hanya berlaku saat workload dijalankan.
Kemampuan workload batch
Anda dapat menjalankan jenis workload batch berikut:
- PySpark
- Spark SQL
- Spark R
- Spark (Java atau Scala)
Anda dapat menentukan properti Spark saat mengirimkan workload batch.
Menjadwalkan workload batch
Anda dapat menjadwalkan workload batch Spark sebagai bagian dari alur kerja Airflow atau Managed Service untuk Apache Airflow menggunakan operator batch Airflow. Untuk mengetahui informasi selengkapnya, lihat Menjalankan workload serverless Managed Service untuk Apache Spark dengan Managed Airflow.
Mulai
Untuk memulai, lihat Menjalankan workload batch Apache Spark.
Sesi interaktif
Tulis dan jalankan kode di notebook Jupyter selama sesi interaktif. Anda dapat membuat sesi notebook dengan cara berikut:
Menjalankan kode PySpark di notebook BigQuery Studio. Buka notebook Python BigQuery untuk membuat sesi interaktif berbasis Spark Connect. Setiap notebook BigQuery hanya dapat memiliki satu sesi aktif yang terkait dengannya.
Menggunakan plugin JupyterLab untuk membuat beberapa sesi notebook Jupyter dari template yang Anda buat dan kelola. Saat Anda menginstal plugin di mesin lokal atau VM Compute Engine, berbagai kartu yang sesuai dengan konfigurasi kernel Spark yang berbeda akan muncul di halaman peluncur JupyterLab. Klik kartu untuk membuat sesi notebook Managed Service untuk Apache Spark, lalu mulai tulis dan uji kode Anda di notebook.
Plugin JupyterLab juga memungkinkan Anda menggunakan halaman peluncur JupyterLab untuk melakukan tindakan berikut:
- Membuat cluster Managed Service untuk Apache Spark.
- Mengirimkan tugas ke cluster.
- Melihat log Spark. Google Cloud
Kepatuhan terhadap keamanan
Managed Service untuk Apache Spark mematuhi semua persyaratan residensi data, CMEK, VPC-SC, dan persyaratan keamanan lainnya yang dipatuhi oleh Managed Service untuk Apache Spark.