Mengirimkan workload batch Apache Spark

Pelajari cara mengirimkan workload batch di infrastruktur komputasi yang dikelola Serverless for Apache Spark yang menskalakan resource sesuai kebutuhan. Google Cloud

Sebelum memulai

Siapkan project Anda dan, jika perlu, berikan peran Identity and Access Management.

Menyiapkan project

Lakukan satu atau beberapa langkah berikut sesuai kebutuhan:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  8. Memberikan peran IAM jika diperlukan

    Peran IAM tertentu diperlukan untuk menjalankan contoh di halaman ini. Bergantung pada kebijakan organisasi, peran ini mungkin sudah diberikan. Untuk memeriksa pemberian peran, lihat Apakah Anda perlu memberikan peran?.

    Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project,folder, dan organisasi.

    Peran pengguna

    Untuk mendapatkan izin yang Anda perlukan untuk mengirimkan workload batch serverless, minta administrator Anda untuk memberi Anda peran IAM berikut:

    Peran akun layanan

    Untuk memastikan bahwa akun layanan default Compute Engine memiliki izin yang diperlukan untuk mengirimkan workload batch serverless, minta administrator Anda untuk memberikan peran IAM Dataproc Worker (roles/dataproc.worker) kepada akun layanan default Compute Engine di project.

    Mengirimkan workload batch Spark

    Anda dapat menggunakan konsol Google Cloud , Google Cloud CLI, atau Dataproc API untuk membuat dan mengirimkan beban kerja batch Serverless untuk Apache Spark.

    Konsol

    1. Di konsol Google Cloud , buka Dataproc Batches.

    2. Klik Buat.

    3. Kirimkan workload batch Spark yang menghitung perkiraan nilai pi dengan memilih dan mengisi kolom berikut:

      • Info Batch:
        • ID Batch: Tentukan ID untuk workload batch Anda. Nilai ini harus berupa 4-63 karakter huruf kecil. Karakter yang valid adalah /[a-z][0-9]-/.
        • Region: Pilih region tempat beban kerja Anda akan berjalan.
      • Container:
        • Jenis batch: Spark.
        • Versi runtime: Konfirmasi atau pilih versi runtime 2.3.
        • Class utama:
          org.apache.spark.examples.SparkPi
        • File JAR (file ini telah diinstal sebelumnya di lingkungan eksekusi Spark Serverless for Apache Spark).
          file:///usr/lib/spark/examples/jars/spark-examples.jar
        • Argumen: 1000.
      • Konfigurasi Eksekusi: Pilih Service Account. Secara default, batch akan berjalan menggunakan akun layanan default Compute Engine. Anda dapat menentukan akun layanan kustom. Akun layanan default atau kustom harus memiliki peran Pekerja Dataproc.
      • Konfigurasi jaringan: Pilih subnetwork di region sesi. Serverless for Apache Spark mengaktifkan Akses Google Pribadi (PGA) di subnet yang ditentukan. Untuk persyaratan konektivitas jaringan, lihat Google Cloud Konfigurasi jaringan Serverless untuk Apache Spark.
      • Properti: Masukkan Key (nama properti) dan Value dari properti Spark yang didukung untuk ditetapkan pada beban kerja batch Spark Anda. Catatan: Tidak seperti properti cluster Dataproc di Compute Engine, properti workload Serverless untuk Apache Spark tidak menyertakan awalan spark:.
      • Opsi lainnya:
    4. Klik Submit untuk menjalankan beban kerja batch Spark.

    gcloud

    Untuk mengirimkan workload batch Spark guna menghitung perkiraan nilai pi, jalankan perintah gcloud CLI gcloud dataproc batches submit spark secara lokal di jendela terminal atau di Cloud Shell.

    gcloud dataproc batches submit spark \
        --region=REGION \
        --version=2.3 \
        --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
        --class=org.apache.spark.examples.SparkPi \
        -- 1000
    

    Ganti kode berikut:

    • REGION: Tentukan region tempat workload Anda akan berjalan.
    • Opsi lainnya: Anda dapat menambahkan gcloud dataproc batches submit spark flag untuk menentukan opsi workload dan properti Spark lainnya.
      • --jars: File JAR contoh telah diinstal sebelumnya di lingkungan eksekusi Spark, Argumen perintah 1000 yang diteruskan ke workload SparkPi menentukan 1000 iterasi logika estimasi pi (argumen input workload disertakan setelah "-- ").
      • --subnet: Anda dapat menambahkan tanda ini untuk menentukan nama subnet di region sesi. Jika Anda tidak menentukan subnet, Serverless for Apache Spark akan memilih subnet default di region sesi. Serverless for Apache Spark mengaktifkan Akses Google Pribadi (PGA) di subnet. Untuk persyaratan konektivitas jaringan, lihat Google Cloud Konfigurasi jaringan Serverless untuk Apache Spark.
      • --properties: Anda dapat menambahkan tanda ini untuk memasukkan properti Spark yang didukung agar digunakan oleh beban kerja batch Spark Anda.
      • --deps-bucket: Anda dapat menambahkan tanda ini untuk menentukan bucket Cloud Storage tempat Serverless for Apache Spark akan mengupload dependensi workload. Awalan URI gs:// bucket tidak diperlukan; Anda dapat menentukan jalur bucket atau nama bucket. Serverless for Apache Spark mengupload file lokal ke folder /dependencies di bucket sebelum menjalankan workload batch. Catatan: Flag ini diperlukan jika beban kerja batch mereferensikan file di komputer lokal Anda.
      • --ttl: Anda dapat menambahkan flag --ttl untuk menentukan durasi masa aktif batch. Jika beban kerja melebihi durasi ini, beban kerja akan dihentikan tanpa syarat tanpa menunggu pekerjaan yang sedang berlangsung selesai. Tentukan durasi menggunakan akhiran s, m, h, atau d (detik, menit, jam, atau hari). Nilai minimum adalah 10 menit (10m), dan nilai maksimum adalah 14 hari (14d).
        • Batch runtime 1.1 atau 2.0: Jika --ttl tidak ditentukan untuk workload batch runtime 1.1 atau 2.0, workload diizinkan untuk berjalan hingga keluar secara alami (atau berjalan selamanya jika tidak keluar).
        • Batch runtime 2.1+: Jika --ttl tidak ditentukan untuk beban kerja batch runtime 2.1 atau yang lebih baru, nilai defaultnya adalah 4h.
      • --service-account: Anda dapat menentukan akun layanan yang akan digunakan untuk menjalankan workload Anda. Jika Anda tidak menentukan akun layanan, beban kerja akan berjalan di bawah akun layanan default Compute Engine. Akun layanan Anda harus memiliki peran Dataproc Worker.
      • Hive Metastore: Perintah berikut mengonfigurasi beban kerja batch untuk menggunakan Hive Metastore yang dikelola sendiri secara eksternal menggunakan konfigurasi Spark standar.
        gcloud dataproc batches submit spark\
            --properties=spark.sql.catalogImplementation=hive,spark.hive.metastore.uris=METASTORE_URI,spark.hive.metastore.warehouse.dir=WAREHOUSE_DIR> \
            other args ...
                
      • Persistent History Server:
        1. Perintah berikut akan membuat PHS di cluster Dataproc node tunggal. PHS harus berada di region tempat Anda menjalankan workload batch, dan bucket-name Cloud Storage harus ada.
          gcloud dataproc clusters create PHS_CLUSTER_NAME \
              --region=REGION \
              --single-node \
              --enable-component-gateway \
              --properties=spark:spark.history.fs.logDirectory=gs://bucket-name/phs/*/spark-job-history
                       
        2. Kirimkan beban kerja batch, dengan menentukan Persistent History Server yang sedang berjalan.
          gcloud dataproc batches submit spark \
              --region=REGION \
              --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
              --class=org.apache.spark.examples.SparkPi \
              --history-server-cluster=projects/project-id/regions/region/clusters/PHS-cluster-name \
              -- 1000
                        
      • Versi runtime: Gunakan flag --version untuk menentukan versi runtime Serverless for Apache Spark untuk workload.
        gcloud dataproc batches submit spark \
            --region=REGION \
            --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
            --class=org.apache.spark.examples.SparkPi \
            --version=VERSION
            -- 1000
                    

    API

    Bagian ini menunjukkan cara membuat workload batch untuk menghitung perkiraan nilai pi menggunakan Serverless for Apache Spark batches.create`

    Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

    • project-id: ID project Google Cloud .
    • region: Region Compute Engine tempat Google Cloud Serverless for Apache Spark akan menjalankan workload.
    • Catatan:

      • PROJECT_ID: Project ID Google Cloud Anda. Project ID tercantum di bagian Project info di Google Cloud Dasbor konsol.
      • REGION: Region sesi.

    Metode HTTP dan URL:

    POST https://dataproc.googleapis.com/v1/projects/project-id/locations/region/batches

    Meminta isi JSON:

    {
      "sparkBatch":{
        "args":[
          "1000"
        ],
        "runtimeConfig": {
          "version": "2.3",
        },
        "jarFileUris":[
          "file:///usr/lib/spark/examples/jars/spark-examples.jar"
        ],
        "mainClass":"org.apache.spark.examples.SparkPi"
      }
    }
    

    Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

    Anda akan melihat respons JSON seperti berikut:

    {
    "name":"projects/project-id/locations/region/batches/batch-id",
      "uuid":",uuid",
      "createTime":"2021-07-22T17:03:46.393957Z",
      "sparkBatch":{
        "mainClass":"org.apache.spark.examples.SparkPi",
        "args":[
          "1000"
        ],
        "jarFileUris":[
          "file:///usr/lib/spark/examples/jars/spark-examples.jar"
        ]
      },
      "runtimeInfo":{
        "outputUri":"gs://dataproc-.../driveroutput"
      },
      "state":"SUCCEEDED",
      "stateTime":"2021-07-22T17:06:30.301789Z",
      "creator":"account-email-address",
      "runtimeConfig":{
        "version":"2.3",
        "properties":{
          "spark:spark.executor.instances":"2",
          "spark:spark.driver.cores":"2",
          "spark:spark.executor.cores":"2",
          "spark:spark.app.name":"projects/project-id/locations/region/batches/batch-id"
        }
      },
      "environmentConfig":{
        "peripheralsConfig":{
          "sparkHistoryServerConfig":{
          }
        }
      },
      "operation":"projects/project-id/regions/region/operation-id"
    }
    

    Memperkirakan biaya workload

    Workload Serverless untuk Apache Spark menggunakan resource Unit Komputasi Data (DCU) dan penyimpanan shuffle. Untuk contoh yang menghasilkan UsageMetrics Dataproc guna memperkirakan biaya dan pemakaian resource workload, lihat Harga Serverless untuk Apache Spark.

    Langkah berikutnya

    Pelajari: