Managed Service for Apache Spark クラスタを作成する
要件:
名前: クラスタ名は小文字で始まり、最大 51 の小文字、数字、ハイフンで構成します。末尾にハイフンは置けません。
クラスタ リージョン: クラスタの Compute Engine リージョン(
us-east1やeurope-west1など)を指定して、リージョン内の Cloud Storage に保存されている VM インスタンスやクラスタなどのクラスタ リソースを分離する必要があります。- Compute Engine リージョンの詳細については、クラスタ リージョンをご覧ください。
- リージョンの選択については、利用可能なリージョンとゾーン
をご覧ください。
gcloud compute regions listコマンドを実行して、利用可能なリージョンのリストを表示することもできます。
接続: Compute Engine 仮想マシン インスタンス (VM)は、Managed Service for Apache Spark クラスタ内にあり、マスター VM とワーカー VM で構成され、 完全な内部 IP ネットワーク相互接続が必要です。この接続は、
defaultVPC ネットワークによって提供されます( Managed Service for Apache Spark クラスタ ネットワークの構成をご覧ください)。
gcloud
コマンドラインで Managed Service for Apache Spark クラスタを作成するには、ターミナル ウィンドウまたは Cloud Shellで、 gcloud dataproc clusters create コマンドをローカルで実行します。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
コマンドを実行すると、デフォルトの Managed Service for Apache Spark サービス設定でクラスタが作成されます。デフォルトのサービス設定では、マスター仮想マシン インスタンスとワーカー仮想マシン インスタンス、ディスクのサイズとタイプ、ネットワークの種類、クラスタがデプロイされるリージョンとゾーン、その他のクラスタ設定が指定されます。コマンドライン フラグを使用したクラスタ設定のカスタマイズについては、 gcloud dataproc clusters create コマンドをご覧ください。
YAML ファイルを使用してクラスタを作成する
- 次の
gcloudコマンドを実行して、既存の Managed Service for Apache Spark クラスタの構成をcluster.yamlファイルにエクスポートします。gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- YAML ファイル構成をインポートして新しいクラスタを作成します。
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
注: エクスポートのオペレーション中に、クラスタ固有の項目(クラスタ名など)、出力専用項目、自動的に適用されたラベルはフィルタされます。これらの項目は、クラスタ作成のためにインポートした YAML ファイルでは許可されません。
Google CloudREST
このセクションでは、必須の値とデフォルト構成(1 つのマスター、2 つのワーカー)でクラスタを作成する方法を説明します。
リクエストのデータを使用する前に、次のように置き換えます。
- CLUSTER_NAME: クラスタ名
- PROJECT: Google Cloud プロジェクト ID
- REGION: クラスタを作成する利用可能な Compute Engine リージョン
- ZONE: クラスタを作成する選択したリージョン内のゾーン(省略可)。
HTTP メソッドと URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
リクエストの本文(JSON):
{
"project_id":"PROJECT",
"cluster_name":"CLUSTER_NAME",
"config":{
"master_config":{
"num_instances":1,
"machine_type_uri":"n1-standard-2",
"image_uri":""
},
"softwareConfig": {
"imageVersion": "",
"properties": {},
"optionalComponents": []
},
"worker_config":{
"num_instances":2,
"machine_type_uri":"n1-standard-2",
"image_uri":""
},
"gce_cluster_config":{
"zone_uri":"ZONE"
}
}
}
リクエストを送信するには、次のいずれかのオプションを展開します。
次のような JSON レスポンスが返されます。
{
"name": "projects/PROJECT/regions/REGION/operations/b5706e31......",
"metadata": {
"@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata",
"clusterName": "CLUSTER_NAME",
"clusterUuid": "5fe882b2-...",
"status": {
"state": "PENDING",
"innerState": "PENDING",
"stateStartTime": "2019-11-21T00:37:56.220Z"
},
"operationType": "CREATE",
"description": "Create cluster with 2 workers",
"warnings": [
"For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ...""
]
}
}
gcloudコンソール
ブラウザの Google Cloud コンソールで Managed Service for Apache Spark [クラスタの作成] ページを開き、 [Compute Engine で Dataproc クラスタを作成する]ページの [Compute Engine]上のクラスタ] 行の [作成]をクリックします。デフォルト値がフィールドに入力されている [クラスタの設定] パネルが選択されています。各パネルを選択し、デフォルト値を確認するか、変更してクラスタをカスタマイズします。
[作成] をクリックして、クラスタを作成します。クラスタ名が [クラスタ] ページに表示され、クラスタがプロビジョニングされると、そのステータスは [実行中] に更新されます。クラスタ名をクリックするとクラスタ詳細ページが開き、クラスタのジョブ、インスタンス、構成設定を確認して、クラスタで実行されているウェブ インターフェースに接続できます。
Go
- クライアント ライブラリをインストールする。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。 開発環境をセットアップするをご覧ください。
Java
- クライアント ライブラリをインストールします。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。
Node.js
- クライアント ライブラリをインストールします。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。
Python
- クライアント ライブラリをインストールします。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。