Google Cloud コンソールを使用して Dataproc クラスタを作成する
このページでは、 Google Cloud コンソールを使用して Dataproc クラスタを作成し、クラスタで基本的な Apache Spark ジョブを実行してから、クラスタ内のワーカー数を変更する方法について説明します。
このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、「ガイドを表示」をクリックしてください。
始める前に
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
- 
    
    
      In the Google Cloud console, on the project selector page, select or create a Google Cloud project. Roles required to select or create a project - Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- 
      Create a project: To create a project, you need the Project Creator
      (roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
 
- 
  
    Verify that billing is enabled for your Google Cloud project. 
- 
  
  
    
      Enable the Dataproc API. Roles required to enable APIs To enable APIs, you need the Service Usage Admin IAM role ( roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
- 
    
    
      In the Google Cloud console, on the project selector page, select or create a Google Cloud project. Roles required to select or create a project - Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- 
      Create a project: To create a project, you need the Project Creator
      (roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
 
- 
  
    Verify that billing is enabled for your Google Cloud project. 
- 
  
  
    
      Enable the Dataproc API. Roles required to enable APIs To enable APIs, you need the Service Usage Admin IAM role ( roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
クラスタを作成する
- Google Cloud コンソールで、Dataproc の [クラスタ] ページに移動します。 
- [クラスタを作成] をクリックします。 
- [Dataproc クラスタの作成] ダイアログで、[Compute Engine 上のクラスタ] 行の [作成] をクリックします。 
- [クラスタ名] フィールドに「 - example-cluster」と入力します。
- [リージョン] リストと [ゾーン] リストで、リージョンとゾーンを選択します。 - リージョン( - us-east1や- europe-west1など)を選択して、Dataproc によって利用されるリソース(仮想マシン(VM)インスタンス、Cloud Storage など)とメタデータの保存場所をリージョンごとに分離します。詳細については、使用可能なリージョンとゾーンおよびリージョン エンドポイントをご覧ください。
- 他のすべてのオプションについては、デフォルト設定を使用します。 
- クラスタを作成するには、[作成] をクリックします。 - 新しいクラスタが [クラスタ] ページのリストに表示されます。クラスタが使用できるようになるまでのステータスは [プロビジョニング] で、その後 [実行中] に変わります。クラスタのプロビジョニングには数分かかることがあります。 
Spark ジョブを送信する
円周率の値を計算する Spark ジョブを送信します。
- Dataproc のナビゲーション メニューで [ジョブ] をクリックします。
- [ジョブ] ページで [ ジョブの送信] をクリックし、次の操作を行います。 - [ジョブ ID] フィールドで、デフォルト設定を使用するか、 Google Cloud プロジェクトに固有の ID を指定します。
- [クラスタ] プルダウンで [example-cluster] を選択します。
- [ジョブタイプ] には、[Spark] を選択します。
- [メインクラスまたは JAR] フィールドに「org.apache.spark.examples.SparkPi」と入力します。
- [JAR ファイル] フィールドに「file:///usr/lib/spark/examples/jars/spark-examples.jar」と入力します。
- [引数] フィールドに「 - 1000」と入力して、タスクの数を設定します。
- [送信] をクリックします。 - ジョブが [ジョブの詳細] ページに表示されます。ジョブのステータスは [実行中] または [開始中] で、送信後に [成功] に変わります。 - 出力のスクロールを防ぐには、[行の折り返し: オフ] をクリックします。出力は次のようになります。 - Pi is roughly 3.1416759514167594 - ジョブの詳細を表示するには、[構成] タブをクリックします。 
 
クラスタを更新する
ワーカー インスタンスの数を変更してクラスタを更新します。
- Dataproc のナビゲーション メニューで [クラスタ] をクリックします。
- クラスタのリストで、[example-cluster] をクリックします。
- [クラスタの詳細] ページで [構成] タブをクリックします。 - クラスタの設定が表示されます。 
- [ 編集] をクリックします。 
- [ワーカーノード] フィールドに「 - 5」と入力します。
- [保存] をクリックします。 
クラスタが更新されました。ワーカーノードの数を削減して元の値に戻すには、同じ手順に沿って操作します。
クリーンアップ
このページで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、次の手順を実施します。
- クラスタを削除するには、example-clusterの [クラスタの詳細] ページで [ 削除] をクリックします。
- クラスタの削除を確定するには、[削除] をクリックします。
次のステップ
- 他のツールを使用して、このクイックスタートを試す。
- プロジェクトの作成時に堅牢なファイアウォール ルールを作成する方法を確認する。
- Spark Scala ジョブを記述して実行する方法を学習する。