Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Membuat instance Agent Platform Workbench yang mendukung Spark di Managed Service untuk Apache Spark

Halaman ini menjelaskan cara membuat instance Agent Platform Workbench Gemini Enterprise yang mendukung Spark dan Managed Service untuk Apache Spark. Halaman ini juga menjelaskan manfaat ekstensi JupyterLab Managed Service untuk Apache Spark dan memberikan ringkasan tentang cara menggunakan ekstensi dengan Managed Service untuk Apache Spark dan Managed Service untuk Apache Spark di Compute Engine.

Ringkasan ekstensi JupyterLab Managed Service untuk Apache Spark

Instance Agent Platform Workbench telah menginstal ekstensi JupyterLab Managed Service untuk Apache Spark, mulai dari versi M113 dan yang lebih baru.

Ekstensi JupyterLab Managed Service untuk Apache Spark menyediakan dua cara untuk menjalankan tugas notebook Apache Spark: cluster Managed Service untuk Apache Spark dan Managed Service untuk Apache Spark.

Cluster Managed Service untuk Apache Spark mencakup serangkaian fitur lengkap dengan kontrol atas infrastruktur tempat Spark berjalan. Anda memilih ukuran dan konfigurasi cluster Spark, sehingga memungkinkan penyesuaian dan kontrol atas lingkungan Anda. Pendekatan ini ideal untuk workload yang kompleks, tugas yang berjalan lama, dan pengelolaan resource yang terperinci.
Managed Service untuk Apache Spark menghilangkan masalah infrastruktur. Anda mengirimkan tugas Spark, dan Google menangani penyediaan, penskalaan, dan pengoptimalan resource di balik layar. Pendekatan serverless ini menawarkan opsi hemat biaya untuk workload data science dan ML.

Dengan kedua opsi tersebut, Anda dapat menggunakan Spark untuk pemrosesan data dan analisis. Pilihan antara cluster Managed Service untuk Apache Spark dan Managed Service untuk Apache Spark bergantung pada persyaratan workload spesifik, tingkat kontrol yang diperlukan, dan pola penggunaan resource.

Manfaat menggunakan Managed Service untuk Apache Spark untuk workload data science dan ML mencakup:

Tidak ada pengelolaan cluster: Anda tidak perlu khawatir tentang penyediaan, konfigurasi, atau pengelolaan cluster Spark. Hal ini menghemat waktu dan resource Anda.
Penskalaan otomatis: Managed Service untuk Apache Spark otomatis melakukan penskalaan naik dan turun berdasarkan workload, sehingga Anda hanya membayar resource yang digunakan.
Performa tinggi: Managed Service untuk Apache Spark dioptimalkan untuk performa dan memanfaatkan Google Cloud's infrastruktur.
Integrasi dengan teknologi lain: Managed Service untuk Apache Spark terintegrasi dengan produk lain, seperti BigQuery dan Knowledge Catalog. Google Cloud Google Cloud

Untuk mengetahui informasi selengkapnya, lihat dokumentasi Managed Service untuk Apache Spark.

Sebelum memulai

Login keakun Anda. Google Cloud Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Enable the Cloud Resource Manager, Managed Service for Apache Spark, and Notebooks APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Enable the Cloud Resource Manager, Managed Service for Apache Spark, and Notebooks APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Peran yang diperlukan

Untuk memastikan akun layanan memiliki izin yang diperlukan untuk menjalankan file notebook di cluster Managed Service untuk Apache Spark atau cluster Managed Service untuk Apache Spark, minta administrator untuk memberikan peran IAM berikut ke akun layanan:

Dataproc Worker (roles/dataproc.worker) di project Anda
Dataproc Editor (roles/dataproc.editor) di cluster untuk izin dataproc.clusters.use

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk menjalankan file notebook di cluster Managed Service untuk Apache Spark atau cluster Managed Service untuk Apache Spark. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk menjalankan file notebook di cluster Managed Service untuk Apache Spark atau cluster Managed Service untuk Apache Spark:

dataproc.agents.create
dataproc.agents.delete
dataproc.agents.get
dataproc.agents.update
dataproc.tasks.lease
dataproc.tasks.listInvalidatedLeases
dataproc.tasks.reportStatus
dataproc.clusters.use

Administrator mungkin juga dapat memberi akun layanan izin ini dengan peran khusus atau lain peran yang telah ditetapkan sebelumnya.

Membuat instance dengan Managed Service untuk Apache Spark diaktifkan

Untuk membuat instance Agent Platform Workbench dengan Managed Service untuk Apache Spark diaktifkan, lakukan hal berikut:

Di Google Cloud konsol, buka halaman Instances.

Buka Instance
Klik Buat baru.
Dalam dialog Instance baru, klik Opsi lanjutan.
Pada dialog Buat instance, di bagian Detail, pastikan Aktifkan Sesi Interaktif Dataproc Serverless dipilih.
Pastikan Jenis Workbench ditetapkan ke Instance.
Di bagian Lingkungan, pastikan Anda menggunakan versi terbaru atau versi yang diberi nomor M113 atau yang lebih tinggi.
Klik Buat.

Agent Platform Workbench membuat sebuah instance dan otomatis memulainya. Saat instance siap digunakan, Agent Platform Workbench akan mengaktifkan link Buka JupyterLab.

Buka JupyterLab

Di samping nama instance, klik Buka JupyterLab.

Tab Launcher JupyterLab akan terbuka di browser Anda. Secara default, tab ini berisi bagian untuk Managed Service untuk Apache Spark Notebooks dan Managed Service untuk Apache Spark Jobs and Sessions. Jika ada cluster yang siap digunakan Jupyter di project dan region yang dipilih, akan ada bagian yang disebut Managed Service untuk Apache Spark Cluster Notebooks.

Menggunakan ekstensi dengan Managed Service untuk Apache Spark

Template runtime Managed Service untuk Apache Spark yang berada di region dan project yang sama dengan instance Agent Platform Workbench Anda akan muncul di bagian Managed Service untuk Apache Spark Notebooks pada tab Launcher JupyterLab.

Untuk membuat template runtime, lihat Membuat template runtime Managed Service untuk Apache Spark .

Untuk membuka notebook Spark serverless baru, klik template runtime. Perlu waktu sekitar satu menit untuk memulai kernel Spark jarak jauh. Setelah kernel dimulai, Anda dapat mulai membuat kode.

Menggunakan ekstensi dengan Managed Service untuk Apache Spark di Compute Engine

Jika Anda membuat cluster Jupyter Managed Service untuk Apache Spark di Compute Engine , tab Launcher akan memiliki bagian Managed Service untuk Apache Spark Cluster Notebooks.

Empat kartu akan muncul untuk setiap cluster Managed Service untuk Apache Spark yang siap digunakan Jupyter yang dapat Anda akses di region dan project tersebut.

Untuk mengubah region dan project, lakukan hal berikut:

Pilih Setelan > Setelan Cloud Managed Service untuk Apache Spark.
Di tab Setup Config, di bagian Project Info, ubah Project ID dan Region, lalu klik Save.

Perubahan ini tidak akan diterapkan hingga Anda memulai ulang JupyterLab.
Untuk memulai ulang JupyterLab, pilih File > Shut Down, lalu klik Open JupyterLab di halaman Agent Platform Workbench instances.

Untuk membuat notebook baru, klik kartu. Setelah kernel jarak jauh di cluster Managed Service untuk Apache Spark dimulai, Anda dapat mulai menulis kode, lalu menjalankannya di cluster.

Mengelola Managed Service untuk Apache Spark di instance menggunakan gcloud CLI dan API

Bagian ini menjelaskan cara mengelola Managed Service untuk Apache Spark di instance Agent Platform Workbench.

Mengubah region cluster Managed Service untuk Apache Spark

Kernel default instance Agent Platform Workbench Anda, seperti Python dan TensorFlow, adalah kernel lokal yang berjalan di VM instance. Di instance Agent Platform Workbench yang mendukung Spark dan Managed Service untuk Apache Spark, notebook Anda berjalan di cluster Managed Service untuk Apache Spark melalui kernel jarak jauh. Kernel jarak jauh berjalan di layanan di luar VM instance Anda, yang memungkinkan Anda mengakses cluster Managed Service untuk Apache Spark apa pun dalam project yang sama.

Secara default, Agent Platform Workbench menggunakan cluster Managed Service untuk Apache Spark dalam region yang sama dengan instance Anda, tetapi Anda dapat mengubah region Managed Service untuk Apache Spark selama Gateway Komponen dan komponen Jupyter opsional diaktifkan di cluster Managed Service untuk Apache Spark.

Pengujian Akses

Ekstensi JupyterLab Managed Service untuk Apache Spark diaktifkan secara default untuk instance Agent Platform Workbench. Untuk menguji akses ke Managed Service untuk Apache Spark, Anda dapat memeriksa akses ke kernel jarak jauh instance dengan mengirimkan permintaan curl berikut ke domain kernels.googleusercontent.com:

curl --verbose -H "Authorization: Bearer $(gcloud auth print-access-token)" https://PROJECT_ID-dot-REGION.kernels.googleusercontent.com/api/kernelspecs | jq .

Jika perintah curl gagal, pastikan bahwa:

Entri DNS Anda dikonfigurasi dengan benar.
Ada cluster yang tersedia di project yang sama (atau Anda harus membuatnya jika tidak ada).
Cluster Anda mengaktifkan Gateway Komponen dan komponen Jupyter opsional

Menonaktifkan Managed Service untuk Apache Spark

Instance Agent Platform Workbench dibuat dengan Managed Service untuk Apache Spark diaktifkan secara default. Anda dapat membuat instance Agent Platform Workbench dengan Managed Service untuk Apache Spark dinonaktifkan dengan menetapkan kunci disable-mixer metadata ke true.

gcloud workbench instances create INSTANCE_NAME --metadata=disable-mixer=true

Mengaktifkan Managed Service untuk Apache Spark

Anda dapat mengaktifkan Managed Service untuk Apache Spark di instance Agent Platform Workbench yang dihentikan dengan memperbarui nilai metadata.

gcloud workbench instances update INSTANCE_NAME --metadata=disable-mixer=false

Mengelola Managed Service untuk Apache Spark menggunakan Terraform

Managed Service untuk Apache Spark untuk instance Agent Platform Workbench di Terraform dikelola menggunakan kunci disable-mixer di kolom metadata. Aktifkan Managed Service untuk Apache Spark dengan menetapkan kunci disable-mixer metadata ke false. Nonaktifkan Managed Service untuk Apache Spark dengan menetapkan kunci metadata disable-mixer ke true.

Untuk mempelajari cara menerapkan atau menghapus konfigurasi Terraform, lihat Perintah dasar Terraform.

resource "google_workbench_instance" "default" {
  name     = "workbench-instance-example"
  location = "us-central1-a"

  gce_setup {
    machine_type = "n1-standard-1"
    vm_image {
      project = "cloud-notebooks-managed"
      family  = "workbench-instances"
    }
    metadata = {
      disable-mixer = "false"
    }
  }
}

Memecahkan masalah

Untuk mendiagnosis dan menyelesaikan masalah terkait pembuatan instance yang mendukung Spark dan Managed Service untuk Apache Spark, lihat Memecahkan masalah Agent Platform Workbench.

Langkah berikutnya

Untuk mengetahui informasi selengkapnya tentang ekstensi JupyterLab Managed Service untuk Apache Spark, lihat Menggunakan ekstensi JupyterLab untuk mengembangkan workload Spark serverless.
Untuk mempelajari Managed Service untuk Apache Spark lebih lanjut, lihat dokumentasi Managed Service untuk Apache Spark
Pelajari cara menjalankan workload Managed Service untuk Apache Spark tanpa menyediakan dan mengelola cluster.
Untuk mempelajari lebih lanjut cara menggunakan Spark dengan Google Cloud produk dan layanan, lihat Spark di Google Cloud.
Telusuri template Managed Service untuk Apache Spark yang tersedia di GitHub.
Pelajari Serverless Spark melalui the serverless-spark-workshop on GitHub.
Baca dokumentasi Apache Spark.