Ringkasan Serverless untuk Apache Spark

Google Cloud Serverless for Apache Spark memungkinkan Anda menjalankan workload Spark tanpa perlu menyediakan dan mengelola cluster Dataproc Anda sendiri. Ada dua cara untuk menjalankan workload Serverless for Apache Spark: workload batch dan sesi interaktif.

Workload batch

Kirimkan beban kerja batch ke layanan Serverless for Apache Spark menggunakan konsolGoogle Cloud , Google Cloud CLI, atau Dataproc API. Layanan menjalankan workload pada infrastruktur komputasi terkelola, serta melakukan penskalaan otomatis resource sesuai kebutuhan. Biaya Serverless for Apache Spark hanya berlaku saat workload dijalankan.

Kemampuan workload batch

Anda dapat menjalankan jenis workload batch Serverless for Apache Spark berikut:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java atau Scala)

Anda dapat menentukan properti Spark saat mengirimkan workload batch Serverless for Apache Spark.

Menjadwalkan workload batch

Anda dapat menjadwalkan workload batch Spark sebagai bagian dari alur kerja Airflow atau Cloud Composer menggunakan operator batch Airflow. Untuk mengetahui informasi selengkapnya, lihat Menjalankan workload Serverless untuk Apache Spark dengan Cloud Composer.

Mulai

Untuk memulai, lihat Menjalankan workload batch Apache Spark.

Sesi interaktif

Menulis dan menjalankan kode di notebook Jupyter selama sesi interaktif Serverless for Apache Spark. Anda dapat membuat sesi notebook dengan cara berikut:

  • Jalankan kode PySpark di notebook BigQuery Studio. Buka notebook Python BigQuery untuk membuat sesi interaktif Serverless for Apache Spark berbasis Spark-Connect. Setiap notebook BigQuery hanya dapat memiliki satu sesi Serverless for Apache Spark aktif yang terkait dengannya.

  • Gunakan plugin Dataproc JupyterLab untuk membuat beberapa sesi notebook Jupyter dari template yang Anda buat dan kelola. Saat Anda menginstal plugin di mesin lokal atau VM Compute Engine, kartu yang berbeda yang sesuai dengan konfigurasi kernel Spark yang berbeda akan muncul di halaman peluncur JupyterLab. Klik kartu untuk membuat sesi notebook Serverless for Apache Spark, lalu mulai tulis dan uji kode Anda di notebook.

    Plugin Dataproc JupyterLab juga memungkinkan Anda menggunakan halaman peluncur JupyterLab untuk melakukan tindakan berikut:

    • Buat cluster Dataproc di Compute Engine.
    • Kirimkan tugas ke cluster Dataproc di Compute Engine.
    • Lihat log Google Cloud dan Spark.

Kepatuhan terhadap keamanan

Serverless untuk Apache Spark mematuhi semua persyaratan lokalitas data, CMEK, VPC-SC, dan persyaratan keamanan lainnya yang dipatuhi Dataproc.