Ringkasan serverless Managed Service untuk Apache Spark

Managed Service untuk Apache Spark serverless memungkinkan Anda menjalankan workload Spark tanpa perlu menyediakan dan mengelola cluster Anda sendiri. Ada dua cara untuk menjalankan workload Managed Service untuk Apache Spark: workload batch dan sesi interaktif.

Workload batch

Kirim workload batch menggunakan the Google Cloud konsol, Google Cloud CLI, atau REST API. Managed Service untuk Apache Spark menjalankan workload pada infrastruktur komputasi terkelola, serta melakukan penskalaan otomatis resource sesuai kebutuhan. Biaya hanya berlaku saat workload dijalankan.

Kemampuan workload batch

Anda dapat menjalankan jenis workload batch berikut:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java atau Scala)

Anda dapat menentukan properti Spark saat mengirimkan workload batch.

Menjadwalkan workload batch

Anda dapat menjadwalkan workload batch Spark sebagai bagian dari alur kerja Airflow atau Managed Service untuk Apache Airflow menggunakan operator batch Airflow. Untuk mengetahui informasi selengkapnya, lihat Menjalankan workload serverless Managed Service untuk Apache Spark dengan Managed Airflow.

Mulai

Untuk memulai, lihat Menjalankan workload batch Apache Spark.

Sesi interaktif

Tulis dan jalankan kode di notebook Jupyter selama sesi interaktif. Anda dapat membuat sesi notebook dengan cara berikut:

  • Menjalankan kode PySpark di notebook BigQuery Studio. Buka notebook Python BigQuery untuk membuat sesi interaktif berbasis Spark Connect. Setiap notebook BigQuery hanya dapat memiliki satu sesi aktif yang terkait dengannya.

  • Menggunakan plugin JupyterLab untuk membuat beberapa sesi notebook Jupyter dari template yang Anda buat dan kelola. Saat Anda menginstal plugin di mesin lokal atau VM Compute Engine, berbagai kartu yang sesuai dengan konfigurasi kernel Spark yang berbeda akan muncul di halaman peluncur JupyterLab. Klik kartu untuk membuat sesi notebook Managed Service untuk Apache Spark, lalu mulai tulis dan uji kode Anda di notebook.

    Plugin JupyterLab juga memungkinkan Anda menggunakan halaman peluncur JupyterLab untuk melakukan tindakan berikut:

    • Membuat cluster Managed Service untuk Apache Spark.
    • Mengirimkan tugas ke cluster.
    • Melihat log Spark. Google Cloud

Kepatuhan terhadap keamanan

Managed Service untuk Apache Spark mematuhi semua persyaratan residensi data, CMEK, VPC-SC, dan persyaratan keamanan lainnya yang dipatuhi oleh Managed Service untuk Apache Spark.