Apache Spark バッチワークロードを送信する

必要に応じてリソースをスケーリングする Google Cloud Apache Spark 用サーバーレスマネージドコンピューティングインフラストラクチャでバッチワークロードを送信する方法を学習します。

始める前に

プロジェクトを設定し、必要に応じて Identity and Access Management ロールを付与します。

プロジェクトを設定する

必要に応じて、次の手順を 1 つ以上実行します。

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

必要に応じて IAM ロールを付与する

このページの例を実行するには、特定の IAM ロールが必要です。組織のポリシーによっては、これらのロールがすでに付与されている場合があります。ロール付与を確認するには、ロールを付与する必要がありますか？をご覧ください。

ロールの付与については、プロジェクト、フォルダ、組織に対するアクセス権の管理をご覧ください。

ユーザーロール

サーバーレスバッチワークロードの送信に必要な権限を取得するには、次の IAM ロールを付与するよう管理者に依頼してください。

プロジェクトに対する Dataproc 編集者（roles/dataproc.editor）
Compute Engine のデフォルトのサービスアカウントに対するサービスアカウントユーザー（roles/iam.serviceAccountUser）

サービスアカウントロール

Compute Engine のデフォルトサービスアカウントにサーバーレスバッチワークロードを送信するために必要な権限を付与するには、プロジェクトに対する Dataproc ワーカー（roles/dataproc.worker）IAM ロールを Compute Engine のデフォルトサービスアカウントに付与するよう管理者に依頼してください。

Spark バッチワークロードの送信

Google Cloud コンソール、Google Cloud CLI、または Dataproc API を使用して、Apache Spark 用サーバーレスバッチワークロードを作成して送信できます。

コンソール

Google Cloud コンソールで、Dataproc バッチに移動します。
[作成] をクリックします。
次のフィールドを選択して入力し、pi の近似値を計算する Spark バッチワークロードを送信します。
- バッチ情報:
  - バッチ ID: バッチワークロードの ID を指定します。この値は 4 ～ 63 文字にする必要があります。有効な文字は /[a-z][0-9]-/ です。
  - リージョン: ワークロードが実行されるリージョンを選択します。
- コンテナ:
  - バッチタイプ: Spark。
  - ランタイムバージョン: 2.3 ランタイムバージョンを確認または選択します。
  - メインクラス:
```
org.apache.spark.examples.SparkPi
```
  - jar ファイル（このファイルは、Apache Spark 向け Serverless の Spark 実行環境にプリインストールされています）。
```
file:///usr/lib/spark/examples/jars/spark-examples.jar
```
  - 引数: 1000。
- 実行構成: [サービスアカウント] を選択します。デフォルトでは、バッチは Compute Engine のデフォルトのサービスアカウントを使用して実行されます。カスタムサービスアカウントを指定できます。デフォルトまたはカスタムサービスアカウントには、Dataproc ワーカーロールが必要です。
- ネットワーク構成: セッションリージョンでサブネットワークを選択します。Apache Spark 用サーバーレスは、指定されたサブネットでプライベート Google アクセス（PGA）を有効にします。ネットワーク接続の要件については、Google Cloud Serverless for Apache Spark のネットワーク構成をご覧ください。
- プロパティ: Spark バッチワークロードに設定するサポートされている Spark プロパティの Key（プロパティ名）と Value を入力します。注: Compute Engine のクラスタプロパティの Dataproc とは異なり、Apache Spark 用 Serverless のワークロードプロパティに spark: 接頭辞は含まれていません。
- その他のオプション:
  - 外部のセルフマネージド Hive メタストアを使用するようにバッチワークロードを構成できます。
  - 永続履歴サーバー（PHS）を使用できます。PHS は、バッチワークロードを実行するリージョンに配置する必要があります。
[送信] をクリックして、Spark バッチワークロードを実行します。

gcloud

Spark バッチワークロードを送信して pi の近似値を計算するには、次の gcloud CLI の gcloud dataproc batches submit spark コマンドをターミナルウィンドウまたは Cloud Shell でローカルに実行します。

gcloud dataproc batches submit spark \
    --region=REGION \
    --version=2.3 \
    --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
    --class=org.apache.spark.examples.SparkPi \
    -- 1000

次のように置き換えます。

REGION: ワークロードが実行されるリージョンを指定します。
その他のオプション: gcloud dataproc batches submit spark フラグを追加して、他のワークロードオプションと Spark プロパティを指定できます。
- --jars: サンプル JAR ファイルが Spark 実行環境にプリインストールされています。SparkPi ワークロードに渡される 1000 コマンド引数は、円周率の見積もりロジックを 1,000 回繰り返し指定します。（ワークロード入力引数は「--」の後に含まれます）
- --subnet: このフラグを追加して、セッションリージョンのサブネットの名前を指定できます。サブネットを指定しない場合、Serverless for Apache Spark はセッションリージョンの default サブネットを選択します。Apache Spark 用サーバーレスは、サブネットでプライベート Google アクセス（PGA）を有効にします。ネットワーク接続の要件については、Google Cloud Serverless for Apache Spark のネットワーク構成をご覧ください。
- --properties: このフラグを追加して、Spark バッチワークロードで使用するサポートされている Spark プロパティを入力できます。
- --deps-bucket: このフラグを追加して、Apache Spark 用サーバーレスがワークロードの依存関係をアップロードする Cloud Storage バケットを指定できます。バケットの gs:// URI 接頭辞は必要ありません。バケットのパスまたはバケット名を指定できます。Serverless for Apache Spark は、バッチワークロードを実行する前に、ローカルファイルをバケット内の /dependencies フォルダにアップロードします。注: バッチワークロードがローカルマシン上のファイルを参照する場合、このフラグは必須です。
- --ttl: --ttl フラグを追加して、バッチの有効期間の長さを指定できます。ワークロードがこの期間を超えると、進行中の作業の終了を待たずに無条件に終了します。期間を指定するには、s、m、h、d（秒、分、時間、日）の接尾辞を使用します。最小値は 10 分（10m）、最大値は 14 日（14d）です。
  - 1.1 または 2.0 ランタイムバッチ: 1.1 または 2.0 ランタイムバッチワークロードで --ttl が指定されていない場合、ワークロードは自然に終了するまで実行されます（終了しない場合、永続的に実行されます）。
  - 2.1 以降のランタイムバッチ: 2.1 以降のランタイムバッチワークロードで --ttl が指定されていない場合、デフォルトは 4h です。
- --service-account: ワークロードの実行に使用するサービスアカウントを指定できます。サービスアカウントを指定しない場合、ワークロードは Compute Engine のデフォルトのサービスアカウントで実行されます。サービスアカウントには、Dataproc ワーカーロールが必要です。
- Hive メタストア: 次のコマンドは、標準の Spark 構成を使用する外部のセルフマネージド Hive メタストアを使用するようにバッチワークロードを構成します。
```
gcloud dataproc batches submit spark\
    --properties=spark.sql.catalogImplementation=hive,spark.hive.metastore.uris=METASTORE_URI,spark.hive.metastore.warehouse.dir=WAREHOUSE_DIR> \
    other args ...
        
```
- 永続的履歴サーバー:
  1. 次のコマンドは、単一ノードの Dataproc クラスタに PHS を作成します。PHS は、バッチワークロードを実行するリージョンに配置する必要があり、Cloud Storage bucket-name が存在している必要があります。
```
gcloud dataproc clusters create PHS_CLUSTER_NAME \
    --region=REGION \
    --single-node \
    --enable-component-gateway \
    --properties=spark:spark.history.fs.logDirectory=gs://bucket-name/phs/*/spark-job-history
             
```
  2. 実行中の永続履歴サーバーを指定してバッチワークロードを送信します。
```
gcloud dataproc batches submit spark \
    --region=REGION \
    --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
    --class=org.apache.spark.examples.SparkPi \
    --history-server-cluster=projects/project-id/regions/region/clusters/PHS-cluster-name \
    -- 1000
              
```
- ランタイムバージョン: --version フラグを使用して、ワークロードの Apache Spark 向け Serverless ランタイムバージョンを指定します。
```
gcloud dataproc batches submit spark \
    --region=REGION \
    --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
    --class=org.apache.spark.examples.SparkPi \
    --version=VERSION
    -- 1000
            
```

API

このセクションでは、Serverless for Apache Spark の batches.create を使用して、pi の近似値を計算するバッチワークロードを作成する方法について説明します。

リクエストのデータを使用する前に、次のように置き換えます。

project-id: Google Cloud プロジェクト ID。
region: Google Cloud Apache Spark 向け Serverless がワークロードを実行する Compute Engine リージョン。

注:

PROJECT_ID: 実際の Google Cloud プロジェクト ID。プロジェクト ID は、 Google Cloud コンソールのダッシュボードの [プロジェクト情報] セクションに表示されます。
REGION: セッションリージョン。

HTTP メソッドと URL:

POST https://dataproc.googleapis.com/v1/projects/project-id/locations/region/batches

リクエストの本文（JSON）:

{
  "sparkBatch":{
    "args":[
      "1000"
    ],
    "runtimeConfig": {
      "version": "2.3",
    },
    "jarFileUris":[
      "file:///usr/lib/spark/examples/jars/spark-examples.jar"
    ],
    "mainClass":"org.apache.spark.examples.SparkPi"
  }
}

リクエストを送信するには、次のいずれかのオプションを展開します。

curl（Linux、macOS、Cloud Shell）

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ユーザーアカウントで gcloud CLI にログインしているか、Cloud Shell を使用して自動的に gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataproc.googleapis.com/v1/projects/project-id/locations/region/batches"

PowerShell（Windows）

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ご自分のユーザーアカウントで gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataproc.googleapis.com/v1/projects/project-id/locations/region/batches" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

{
"name":"projects/project-id/locations/region/batches/batch-id",
  "uuid":",uuid",
  "createTime":"2021-07-22T17:03:46.393957Z",
  "sparkBatch":{
    "mainClass":"org.apache.spark.examples.SparkPi",
    "args":[
      "1000"
    ],
    "jarFileUris":[
      "file:///usr/lib/spark/examples/jars/spark-examples.jar"
    ]
  },
  "runtimeInfo":{
    "outputUri":"gs://dataproc-.../driveroutput"
  },
  "state":"SUCCEEDED",
  "stateTime":"2021-07-22T17:06:30.301789Z",
  "creator":"account-email-address",
  "runtimeConfig":{
    "version":"2.3",
    "properties":{
      "spark:spark.executor.instances":"2",
      "spark:spark.driver.cores":"2",
      "spark:spark.executor.cores":"2",
      "spark:spark.app.name":"projects/project-id/locations/region/batches/batch-id"
    }
  },
  "environmentConfig":{
    "peripheralsConfig":{
      "sparkHistoryServerConfig":{
      }
    }
  },
  "operation":"projects/project-id/regions/region/operation-id"
}

ワークロードの費用を見積もる

Apache Spark 向け Serverless ワークロードは、データコンピューティングユニット（DCU）とシャッフルストレージリソースを消費します。Apache Spark 用サーバーレスの料金で、Dataproc の UsageMetrics を出力してワークロードリソースの消費とコストを見積もる例をご紹介しています。

次のステップ

以下の内容について学習します。

Apache Spark バッチ ワークロードを送信する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

始める前に

プロジェクトを設定する

必要に応じて IAM ロールを付与する

ユーザーロール

サービス アカウント ロール

Spark バッチ ワークロードの送信

コンソール

gcloud

API

curl（Linux、macOS、Cloud Shell）

PowerShell（Windows）

ワークロードの費用を見積もる

次のステップ

Apache Spark バッチワークロードを送信する

サービスアカウントロール

Spark バッチワークロードの送信