Managed Service for Apache Spark プロビジョナーのプロパティ

Cloud Data Fusion の Managed Service for Apache Spark プロビジョナーは、Dataproc API を呼び出して、 Google Cloudプロジェクト内のクラスタを作成および削除します。クラスタはプロビジョナーの設定で構成できます。

Cloud Data Fusion のバージョンと Managed Service for Apache Spark のバージョンの互換性については、バージョンの互換性をご覧ください。

プロパティ

プロパティ 説明
プロジェクト ID Managed Service for Apache Spark クラスタが作成される Google Cloud プロジェクト。プロジェクトで Dataproc API が有効になっている必要があります。
作成者のサービス アカウント キー

プロビジョナーに付与されるサービス アカウント キーには、Managed Service for Apache Spark API と Compute Engine API にアクセスする権限が必要です。アカウント キーは機密情報であるため、Secure Storage を使用してアカウント キーを付与することをおすすめします。

安全なキーを作成したら、名前空間またはシステム コンピューティング プロファイルに追加できます。名前空間コンピューティング プロファイルの場合は、 シールドをクリックして、安全なキーを選択します。システム コンピューティング プロファイルの場合は、[Secure Account Key] フィールドにキーの名前を入力します。

リージョン Managed Service for Apache Spark クラスタのコンピューティング ノードなど、リソースをホストできる地理的なロケーション。
ゾーン リージョン内の分離されたデプロイ エリア。
ネットワーク Managed Service for Apache Spark クラスタの作成時に使用される Google Cloud プロジェクトの VPC ネットワーク。
ネットワーク ホスト プロジェクト ID ネットワークが別のプロジェクトにある場合は、その Google Cloud プロジェクトの ID を入力します。共有 VPC の場合は、ネットワークが存在するホスト プロジェクトの ID を入力します。
サブネット クラスタの作成時に使用するサブネット。指定されたネットワーク内にあり、ゾーンが存在するリージョンに存在する必要があります。空白のままにすると、ネットワークとゾーンに基づいてサブネットが選択されます。
ランナーのサービス アカウント プログラムの実行に使用される Managed Service for Apache Spark 仮想マシン(VM)のサービス アカウント名。空白のままにすると、デフォルトの Compute Engine サービス アカウントが使用されます。
マスターの数

クラスタ内のマスターノードの数。これらのノードには、YARN Resource Manager、HDFS NameNode、すべてのドライバが含まれています。1 または 3 に設定する必要があります。

デフォルトは 1 です。

マスター マシンタイプ

使用するマスター マシンのタイプ。次のいずれかのマシンタイプを選択します。

  • n1
  • n2
  • n2d
  • e2

Cloud Data Fusion バージョン 6.7.2 以降では、デフォルトは e2 です。

バージョン 6.7.1 では、デフォルトは n2 です。

バージョン 6.7.0 以前では、デフォルトは n1 です。

マスターコア

マスターノードに割り当てられた仮想コアの数。

デフォルトは 2 です。

マスター メモリ(GB)

マスターノードに割り当てられるメモリ量(ギガバイト単位)。

デフォルトは 8 GB です。

マスター ディスクサイズ(GB)

マスターノードに割り当てられたディスクサイズ(ギガバイト単位)。

デフォルトは 1,000 GB です。

マスター ディスクのタイプ

マスターノードのブートディスクのタイプ:

  • 標準永続ディスク
  • SSD 永続ディスク

デフォルトは標準永続ディスクです。

ワーカーのマシンタイプ

使用するワーカーマシンのタイプ。次のいずれかのマシンタイプを選択します。

  • n1
  • n2
  • n2d
  • e2

Cloud Data Fusion バージョン 6.7.2 以降では、デフォルトは e2 です。

バージョン 6.7.1 では、デフォルトは n2 です。

バージョン 6.7.0 以前では、デフォルトは n1 です。

ワーカーコア

ワーカーノードに割り当てられた仮想コアの数。

デフォルトは 2 です。

ワーカーのメモリ(GB)

ワーカーノードに割り当てられるメモリ容量(ギガバイト単位)。

デフォルトは 8 GB です。

ワーカーのディスクサイズ(GB)

ワーカーノードに割り当てられたディスクサイズ(ギガバイト単位)。

デフォルトは 1,000 GB です。

ワーカーのディスクタイプ

ワーカーノードのブートディスクのタイプ:

  • 標準永続ディスク
  • SSD 永続ディスク

デフォルトは標準永続ディスクです。

事前定義された自動スケーリングを使用する 事前定義された Managed Service for Apache Spark の自動スケーリングを使用できるようにします。
プライマリ ワーカーの数

ワーカーノードには、YARN NodeManager と HDFS DataNode が含まれています。

デフォルトは 2 です。

セカンダリ ワーカーの数 セカンダリ ワーカーノードには YARN NodeManager が含まれますが、HDFS DataNode は含まれません。通常は 0 に設定されます。ただし、自動スケーリング ポリシーでより高い値が必要な場合は除きます。
自動スケーリング ポリシー

自動スケーリング ポリシー ID またはリソース URI のパス。

Managed Service for Apache Spark 自動スケーリングを構成して使用し、ワークロードの需要を満たすように、クラスタを自動的かつ動的にサイズ変更する場合の詳細については、自動スケーリングを使用する場合Managed Service for Apache Spark クラスタを自動スケーリングするをご覧ください。

メタデータ クラスタ内で実行されるインスタンス用の追加のメタデータ。通常は、請求とチャージバックの追跡に使用できます。詳細については、クラスタ メタデータをご覧ください。
ネットワーク タグ ネットワーク タグを割り当てて、クラスタの特定のノードにファイアウォール ルールを適用します。ネットワーク タグは英小文字で始まる必要があり、英小文字、数字、ハイフンを使用できます。タグの末尾は英小文字または数字にする必要があります。
セキュアブートを有効にする

Managed Service for Apache Spark VM でセキュアブートを有効にします。

デフォルトは False です。

vTPM を有効にする

Managed Service for Apache Spark VM で仮想トラステッド プラットフォーム モジュール(vTPM)を有効にします。

デフォルトは False です。

整合性モニタリングを有効にする

Managed Service for Apache Spark VM で仮想整合性モニタリングを有効にします。

デフォルトは False です。

イメージのバージョン Managed Service for Apache Spark のイメージ バージョン。空白のままにすると、自動的に選択されます。[カスタム イメージ URI] プロパティが空白のままの場合、このプロパティは無視されます。
カスタム イメージの URI Managed Service for Apache Spark イメージ URI。空白のままにすると、[イメージ バージョン] プロパティから推測されます。
ステージング バケット Managed Service for Apache Spark でパイプラインを実行するためのジョブの依存関係と構成ファイルのステージングに使用される Cloud Storage バケット。
一時バケット

Managed Service for Apache Spark の Spark 履歴ファイルなど、一時的なクラスタとジョブのデータを格納するために使用される Cloud Storage バケット。

このプロパティは、Cloud Data Fusion バージョン 6.9.2 で導入されました。

暗号鍵の名前 Managed Service for Apache Spark で使用される顧客管理の暗号鍵(CMEK)。
OAuth スコープ

必要なアクセスレベルに応じて、Google API へのアクセスをリクエストする必要がある OAuth 2.0 スコープ。Google Cloud Platform Scope は常に含まれます。

このプロパティは、Cloud Data Fusion バージョン 6.9.2 で導入されました。

初期化アクション クラスタの初期化中に実行するスクリプトのリストです。 初期化アクションは Cloud Storage に配置する必要があります。
クラスタ プロパティ Hadoop サービスのデフォルトの構成プロパティをオーバーライドするクラスタ プロパティ。適用可能な Key-Value ペアの詳細については、クラスタ プロパティをご覧ください。
一般的なラベル

作成される Managed Service for Apache Spark クラスタとジョブを整理するためのラベル。

各リソースにラベルを設定し、ラベルでリソースをフィルタできます。ラベルに関する情報は課金システムに転送されるため、お客様はラベルを基準に請求料金を分析することもできます。

最大アイドル時間

指定した分数を超える時間アイドル状態になったクラスタを削除するように Managed Service for Apache Spark を構成します。通常、クラスタは実行の終了直後に削除されますが、まれに削除が失敗することがあります。詳細については、クラスタの削除のトラブルシューティングをご覧ください。

デフォルトは 30 分です。

クラスタの削除をスキップする

実行の最後にクラスタの削除をスキップするかどうか。クラスタは手動で削除する必要があります。これは、失敗した実行をデバッグする場合にのみ使用してください。

デフォルトは False です。

Stackdriver Logging との統合を有効にする

Stackdriver Logging との統合を有効にします。

デフォルトは True です。

Stackdriver Monitoring 統合を有効にする

Stackdriver Monitoring の統合を有効にします。

デフォルトは True です。

コンポーネント ゲートウェイを有効にする

コンポーネント ゲートウェイを有効にして、YARN ResourceManager や Spark HistoryServer などのクラスタのインターフェースにアクセスします。

デフォルトは False です。

外部 IP を優先

システムがクラスタと同じネットワークに存在する Google Cloud で実行されている場合、通常はクラスタとの通信に内部 IP アドレスを使用します。常に外部 IP アドレスを使用するには、この値を True に設定します。

デフォルトは False です。

ポーリングの遅延を作成する

クラスタの作成後、ポーリングを開始してクラスタが作成されたかどうかを確認するまでの待機秒数。

デフォルトは 60 秒です。

ポーリング設定は、クラスタの作成と削除時にクラスタ ステータスがポーリングされる頻度を制御します。同時に実行するようにスケジュールされているパイプラインが多数ある場合は、これらの設定を変更することをおすすめします。

ポーリングのジッターを作成する

クラスタの作成時に遅延に追加するランダム ジッターの最大量(秒単位)。このプロパティを使用すると、厳密に同一の時刻に実行されるパイプラインが多数ある場合に、 Google Cloud で多くの API 呼び出しが同時に行われるのを回避できます。

デフォルトは 20 秒です。

ポーリングの遅延を削除する

クラスタを削除した後、ポーリングを開始してクラスタが削除されたかどうかを確認するまでの待機秒数。

デフォルトは 30 秒です。

ポーリング間隔

クラスタ ステータスのポーリング間隔(秒単位)。

デフォルトは 2 です。

Managed Service for Apache Spark プロファイル ウェブ インターフェースのプロパティと JSON プロパティのマッピング

Managed Service for Apache Spark プロファイル UI のプロパティ名 Managed Service for Apache Spark プロファイル JSON プロパティ名
プロファイル ラベル name
プロフィール名 label
説明 description
プロジェクト ID projectId
作成者のサービス アカウント キー accountKey
リージョン region
ゾーン zone
ネットワーク network
ネットワーク ホスト プロジェクト ID networkHostProjectId
サブネット subnet
ランナーのサービス アカウント serviceAccount
マスターの数 masterNumNodes
マスター マシンタイプ masterMachineType
マスターコア masterCPUs
マスター メモリ(GB) masterMemoryMB
マスター ディスクサイズ(GB) masterDiskGB
マスター ディスクのタイプ masterDiskType
プライマリ ワーカーの数 workerNumNodes
セカンダリ ワーカーの数 secondaryWorkerNumNodes
ワーカーのマシンタイプ workerMachineType
ワーカーコア workerCPUs
ワーカーのメモリ(GB) workerMemoryMB
ワーカーのディスクサイズ(GB) workerDiskGB
ワーカーのディスクタイプ workerDiskType
メタデータ clusterMetaData
ネットワーク タグ networkTags
セキュアブートを有効にする secureBootEnabled
vTPM を有効にする vTpmEnabled
整合性モニタリングを有効にする integrityMonitoringEnabled
イメージのバージョン imageVersion
カスタム イメージの URI customImageUri
Cloud Storage バケット gcsBucket
暗号鍵の名前 encryptionKeyName
自動スケーリング ポリシー autoScalingPolicy
初期化アクション initActions
クラスタ プロパティ clusterProperties
ラベル clusterLabels
最大アイドル時間 idleTTL
クラスタの削除をスキップする skipDelete
Stackdriver Logging との統合を有効にする stackdriverLoggingEnabled
Stackdriver Monitoring 統合を有効にする stackdriverMonitoringEnabled
コンポーネント ゲートウェイを有効にする componentGatewayEnabled
外部 IP を優先 preferExternalIP
ポーリングの遅延を作成する pollCreateDelay
ポーリングのジッターを作成する pollCreateJitter
ポーリングの遅延を削除する pollDeleteDelay
ポーリング間隔 pollInterval

ベスト プラクティス

パイプライン用の静的クラスタを作成する場合は、クラスタ構成のベスト プラクティスを参照してください。

次のステップ