Membuat instance yang mendukung Spark untuk Managed Service for Apache Spark
Halaman ini menjelaskan cara membuat instance Vertex AI Workbench yang kompatibel dengan Spark Managed Service for Apache Spark. Halaman ini juga menjelaskan manfaat ekstensi JupyterLab Managed Service untuk Apache Spark dan memberikan ringkasan tentang cara menggunakan ekstensi dengan Managed Service untuk Apache Spark dan Managed Service untuk Apache Spark di Compute Engine.
Ringkasan ekstensi JupyterLab Managed Service untuk Apache Spark
Instance Vertex AI Workbench telah menginstal ekstensi JupyterLab Managed Service for Apache Spark, mulai dari versi M113 dan yang lebih baru.
Ekstensi Managed Service untuk Apache Spark JupyterLab menyediakan dua cara untuk menjalankan tugas notebook Apache Spark: cluster Managed Service untuk Apache Spark dan Managed Service untuk Apache Spark.
- Cluster Managed Service untuk Apache Spark mencakup serangkaian fitur lengkap dengan kontrol atas infrastruktur tempat Spark berjalan. Anda memilih ukuran dan konfigurasi cluster Spark, sehingga memungkinkan penyesuaian dan kontrol atas lingkungan Anda. Pendekatan ini ideal untuk workload yang kompleks, pekerjaan yang berjalan lama, dan pengelolaan resource yang terperinci.
- Managed Service untuk Apache Spark meniadakan masalah infrastruktur. Anda mengirimkan tugas Spark, dan Google menangani penyediaan, penskalaan, dan pengoptimalan resource di balik layar. Pendekatan serverless ini menawarkan opsi hemat biaya untuk workload data science dan ML.
Dengan kedua opsi tersebut, Anda dapat menggunakan Spark untuk pemrosesan dan analisis data. Pilihan antara cluster Managed Service untuk Apache Spark dan Managed Service untuk Apache Spark bergantung pada persyaratan workload spesifik, tingkat kontrol yang diperlukan, dan pola penggunaan resource Anda.
Manfaat menggunakan Managed Service untuk Apache Spark untuk workload data science dan ML mencakup:
- Tidak ada pengelolaan cluster: Anda tidak perlu khawatir tentang penyediaan, konfigurasi, atau pengelolaan cluster Spark. Hal ini menghemat waktu dan sumber daya Anda.
- Penskalaan otomatis: Managed Service for Apache Spark secara otomatis meningkatkan dan menurunkan skala berdasarkan workload, sehingga Anda hanya membayar resource yang Anda gunakan.
- Performa tinggi: Managed Service untuk Apache Spark dioptimalkan untuk performa dan memanfaatkan infrastruktur Google Cloud's.
- Integrasi dengan teknologi Google Cloud lainnya: Managed Service untuk Apache Spark terintegrasi dengan produk Google Cloud lainnya, seperti BigQuery dan Knowledge Catalog.
Untuk mengetahui informasi selengkapnya, lihat dokumentasi Managed Service untuk Apache Spark.
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
Enable the Cloud Resource Manager, Managed Service for Apache Spark, and Notebooks APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
Enable the Cloud Resource Manager, Managed Service for Apache Spark, and Notebooks APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Peran yang diperlukan
Untuk memastikan bahwa akun layanan memiliki izin yang diperlukan untuk menjalankan file notebook di cluster Managed Service for Apache Spark atau cluster Managed Service for Apache Spark, minta administrator Anda untuk memberikan peran IAM berikut kepada akun layanan:
- Dataproc Worker (
roles/dataproc.worker) di project Anda - Editor Dataproc (
roles/dataproc.editor) di cluster untuk izindataproc.clusters.use
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Peran bawaan ini berisi izin yang diperlukan untuk menjalankan file notebook di cluster Managed Service untuk Apache Spark atau cluster Managed Service untuk Apache Spark. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:
Izin yang diperlukan
Izin berikut diperlukan untuk menjalankan file notebook di cluster Managed Service untuk Apache Spark atau cluster Managed Service untuk Apache Spark:
-
dataproc.agents.create -
dataproc.agents.delete -
dataproc.agents.get -
dataproc.agents.update -
dataproc.tasks.lease -
dataproc.tasks.listInvalidatedLeases -
dataproc.tasks.reportStatus -
dataproc.clusters.use
Administrator Anda mungkin juga dapat memberi akun layanan izin ini dengan peran khusus atau peran bawaan lainnya.
Membuat instance dengan Managed Service untuk Apache Spark yang diaktifkan
Untuk membuat instance Vertex AI Workbench dengan Managed Service for Apache Spark yang diaktifkan, lakukan langkah-langkah berikut:
Di konsol Google Cloud , buka halaman Instances.
Klik Buat baru.
Dalam dialog Instance baru, klik Opsi lanjutan.
Pada dialog Buat instance, di bagian Detail, pastikan Aktifkan Sesi Interaktif Dataproc Serverless dipilih.
Pastikan Workbench type disetel ke Instance.
Di bagian Environment, pastikan Anda menggunakan versi terbaru atau versi dengan nomor
M113atau yang lebih tinggi.Klik Create.
Vertex AI Workbench membuat sebuah instance dan otomatis memulainya. Saat instance siap digunakan, Vertex AI Workbench akan mengaktifkan link Open JupyterLab.
Buka JupyterLab
Di samping nama instance, klik Open JupyterLab.
Tab Launcher JupyterLab akan terbuka di browser Anda. Secara default, file ini berisi bagian untuk Notebook Managed Service untuk Apache Spark dan Tugas dan Sesi Managed Service untuk Apache Spark. Jika ada cluster yang siap digunakan Jupyter di project dan region yang dipilih, akan ada bagian yang disebut Managed Service for Apache Spark Cluster Notebooks.
Menggunakan ekstensi dengan Managed Service untuk Apache Spark
Template runtime Managed Service untuk Apache Spark yang berada di region dan project yang sama dengan instance Vertex AI Workbench Anda akan muncul di bagian Managed Service for Apache Spark Notebooks pada tab Launcher JupyterLab.
Untuk membuat template runtime, lihat Membuat template runtime Managed Service untuk Apache Spark.
Untuk membuka notebook Spark serverless baru, klik template runtime. Kernel Spark jarak jauh memerlukan waktu sekitar satu menit untuk dimulai. Setelah kernel dimulai, Anda dapat mulai menulis kode.
Menggunakan ekstensi dengan Managed Service untuk Apache Spark di Compute Engine
Jika Anda membuat cluster Jupyter Managed Service untuk Apache Spark di Compute Engine, tab Launcher memiliki bagian Managed Service for Apache Spark Cluster Notebooks.
Empat kartu muncul untuk setiap cluster Managed Service untuk Apache Spark yang siap digunakan Jupyter yang dapat Anda akses di region dan project tersebut.
Untuk mengubah region dan project, lakukan hal berikut:
Pilih Setelan > Cloud Managed Service for Apache Spark Settings.
Di tab Setup Config, di bagian Project Info, ubah Project ID dan Region, lalu klik Save.
Perubahan ini tidak akan diterapkan hingga Anda memulai ulang JupyterLab.
Untuk memulai ulang JupyterLab, pilih File > Shut Down, lalu klik Open JupyterLab di halaman Vertex AI Workbench instances.
Untuk membuat notebook baru, klik kartu. Setelah kernel jarak jauh di cluster Managed Service untuk Apache Spark dimulai, Anda dapat mulai menulis kode, lalu menjalankannya di cluster.
Mengelola Managed Service untuk Apache Spark di instance menggunakan gcloud CLI dan API
Bagian ini menjelaskan cara mengelola Managed Service untuk Apache Spark di instance Vertex AI Workbench.
Mengubah region cluster Managed Service untuk Apache Spark
Kernel default instance Vertex AI Workbench Anda, seperti Python dan TensorFlow, adalah kernel lokal yang berjalan di VM instance. Di instance Vertex AI Workbench yang mendukung Spark di Managed Service untuk Apache Spark, notebook Anda berjalan di cluster Managed Service untuk Apache Spark melalui kernel jarak jauh. Kernel jarak jauh berjalan di layanan di luar VM instance Anda, yang memungkinkan Anda mengakses cluster Managed Service untuk Apache Spark dalam project yang sama.
Secara default, Vertex AI Workbench menggunakan cluster Managed Service untuk Apache Spark dalam region yang sama dengan instance Anda, tetapi Anda dapat mengubah region Managed Service untuk Apache Sparkselama Component Gateway dan komponen Jupyter opsional diaktifkan di cluster Managed Service untuk Apache Spark.
Pengujian Akses
Ekstensi JupyterLab Managed Service untuk Apache Spark diaktifkan secara default untuk instance Vertex AI Workbench. Untuk menguji akses ke Managed Service untuk Apache Spark,
Anda dapat memeriksa akses ke kernel jarak jauh instance dengan mengirim permintaan
curl berikut ke domain kernels.googleusercontent.com:
curl --verbose -H "Authorization: Bearer $(gcloud auth print-access-token)" https://PROJECT_ID-dot-REGION.kernels.googleusercontent.com/api/kernelspecs | jq .
Jika perintah curl gagal, periksa untuk memastikan bahwa:
Entri DNS Anda dikonfigurasi dengan benar.
Ada cluster yang tersedia di project yang sama (atau Anda harus membuatnya jika tidak ada).
Cluster Anda telah mengaktifkan Component Gateway dan komponen Jupyter opsional.
Menonaktifkan Managed Service untuk Apache Spark
Instance Vertex AI Workbench dibuat dengan Managed Service untuk Apache Spark yang diaktifkan secara default. Anda dapat membuat instance Vertex AI Workbench dengan
Managed Service untuk Apache Spark dinonaktifkan dengan menyetel kunci disable-mixer
metadata ke true.
gcloud workbench instances create INSTANCE_NAME --metadata=disable-mixer=true
Aktifkan Managed Service untuk Apache Spark
Anda dapat mengaktifkan Managed Service untuk Apache Spark di instance Vertex AI Workbench yang dihentikan dengan memperbarui nilai metadata.
gcloud workbench instances update INSTANCE_NAME --metadata=disable-mixer=false
Mengelola Managed Service untuk Apache Spark menggunakan Terraform
Managed Service untuk Apache Spark untuk instance Vertex AI Workbench
di Terraform dikelola menggunakan kunci disable-mixer di kolom metadata.
Aktifkan Managed Service untuk Apache Spark dengan menyetel kunci disable-mixer
metadata ke false. Nonaktifkan Managed Service untuk Apache Spark dengan menetapkan
kunci metadata disable-mixer ke true.
Untuk mempelajari cara menerapkan atau menghapus konfigurasi Terraform, lihat Perintah dasar Terraform.
Memecahkan masalah
Untuk mendiagnosis dan menyelesaikan masalah terkait pembuatan instance yang kompatibel dengan Spark Managed Service untuk Apache Spark, lihat Memecahkan masalah Vertex AI Workbench.
Langkah berikutnya
Untuk mengetahui informasi selengkapnya tentang ekstensi JupyterLab Managed Service untuk Apache Spark, lihat bagian Menggunakan ekstensi JupyterLab untuk mengembangkan workload Spark serverless.
Untuk mempelajari lebih lanjut Managed Service untuk Apache Spark, lihat dokumentasi Managed Service untuk Apache Spark
Untuk mempelajari lebih lanjut cara menggunakan Spark dengan Google Cloud produk dan layanan, lihat Spark di Google Cloud.
Jelajahi template Managed Service untuk Apache Spark yang tersedia di GitHub.
Pelajari Serverless Spark melalui
serverless-spark-workshopdi GitHub.Baca dokumentasi Apache Spark.