Google Cloud コンソールを使用して Dataproc クラスタを作成する

このページでは、 Google Cloud コンソールを使用して Dataproc クラスタを作成し、クラスタで基本的な Apache Spark ジョブを実行してから、クラスタ内のワーカー数を変更する方法について説明します。


このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、「ガイドを表示」をクリックしてください。

ガイドを表示


始める前に

  1. Google Cloud アカウントにログインします。 Google Cloudを初めて使用する場合は、 アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that you have the permissions required to complete this guide.

  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. Verify that you have the permissions required to complete this guide.

  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

必要なロール

このページの例を実行するには、特定の IAM ロールが必要です。組織のポリシーによっては、これらのロールがすでに付与されている場合があります。ロール付与を確認するには、ロールを付与する必要がありますか?をご覧ください。

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

ユーザーロール

Dataproc クラスタの作成に必要な権限を取得するには、管理者に次の IAM ロールの付与を依頼します。

サービス アカウント ロール

Compute Engine のデフォルトのサービス アカウントに Dataproc クラスタを作成するために必要な権限を付与するには、プロジェクトの Compute Engine のデフォルトのサービス アカウントに Dataproc ワーカー roles/dataproc.worker)IAM ロールを付与するよう管理者に依頼してください。

クラスタの作成

  1. Google Cloud コンソールで、Dataproc の [クラスタ] ページに移動します。

    [クラスタ] に移動

  2. [クラスタを作成] をクリックします。

  3. [Dataproc クラスタの作成] ダイアログで、[Compute Engine 上のクラスタ] 行の [作成] をクリックします。

  4. [クラスタ名] フィールドに「example-cluster」と入力します。

  5. [リージョン] リストと [ゾーン] リストで、リージョンとゾーンを選択します。

    リージョン(us-east1europe-west1 など)を選択して、Dataproc によって利用されるリソース(仮想マシン(VM)インスタンス、Cloud Storage など)とメタデータの保存場所をリージョンごとに分離します。詳細については、使用可能なリージョンとゾーンおよびクラスタ リージョンをご覧ください。

  6. 他のすべてのオプションについては、デフォルト設定を使用します。

  7. クラスタを作成するには、[作成] をクリックします。

    新しいクラスタが [クラスタ] ページのリストに表示されます。クラスタが使用できるようになるまでのステータスは [プロビジョニング] で、その後 [実行中] に変わります。クラスタのプロビジョニングには数分かかることがあります。

Spark ジョブを送信する

円周率の値を計算する Spark ジョブを送信します。

  1. Dataproc のナビゲーション メニューで [ジョブ] をクリックします。
  2. [ジョブ] ページで [ ジョブの送信] をクリックし、次の操作を行います。

    1. [ジョブ ID] フィールドで、デフォルト設定を使用するか、 Google Cloud プロジェクトに固有の ID を指定します。
    2. [クラスタ] プルダウンで [example-cluster] を選択します。
    3. [ジョブタイプ] には、[Spark] を選択します。
    4. [メインクラスまたは JAR] フィールドに「org.apache.spark.examples.SparkPi」と入力します。
    5. [JAR ファイル] フィールドに「file:///usr/lib/spark/examples/jars/spark-examples.jar」と入力します。
    6. [引数] フィールドに「1000」と入力して、タスクの数を設定します。

    7. [送信] をクリックします。

      ジョブが [ジョブの詳細] ページに表示されます。ジョブのステータスは [実行中] または [開始中] で、送信後に [成功] に変わります。

      出力のスクロールを防ぐには、[行の折り返し: オフ] をクリックします。出力は次のようになります。

      Pi is roughly 3.1416759514167594
      

      ジョブの詳細を表示するには、[構成] タブをクリックします。

クラスタを更新する

ワーカー インスタンスの数を変更してクラスタを更新します。

  1. Dataproc のナビゲーション メニューで [クラスタ] をクリックします。
  2. クラスタのリストで、[example-cluster] をクリックします。
  3. [クラスタの詳細] ページで [構成] タブをクリックします。

    クラスタの設定が表示されます。

  4. [ 編集] をクリックします。

  5. [ワーカーノード] フィールドに「5」と入力します。

  6. [保存] をクリックします。

クラスタが更新されました。ワーカーノードの数を削減して元の値に戻すには、同じ手順に沿って操作します。

クリーンアップ

このページで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、次の手順を実施します。

  1. クラスタを削除するには、example-cluster の [クラスタの詳細] ページで [ 削除] をクリックします。
  2. クラスタの削除を確定するには、[削除] をクリックします。

次のステップ