クライアント ライブラリを使用して Dataproc クラスタを作成する
下に記載のサンプルコードは、Cloud クライアント ライブラリを使用して Dataproc クラスタを作成し、そのクラスタでジョブを実行した後、そのクラスタを削除する方法を示しています。
以下を使用してこうしたタスクを実行することもできます。
- API Explorer を使用したクイックスタートの API REST リクエスト
- Google Cloud コンソールを使用して Dataproc クラスタを作成するの Google Cloud コンソール
- Google Cloud CLI を使用して Dataproc クラスタを作成するの Google Cloud CLI
始める前に
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - クライアント ライブラリをインストールします。詳しくは、開発環境をセットアップするをご覧ください。
- 認証を設定します。
- サンプル GitHub コードのクローンを作成して実行します。
- 出力を確認します。このコードでは、Cloud Storage のデフォルトの Dataproc ステージング バケットにジョブドライバのログが出力されます。プロジェクトの Dataproc の [ジョブ] セクションで、 Google Cloud コンソールからジョブドライバ出力を表示できます。ジョブの詳細ページで [ジョブ ID] をクリックすると、ジョブの出力が表示されます。
- クライアント ライブラリをインストールします。詳細については、Java 開発環境の設定をご覧ください。
- 認証を設定します。
- サンプル GitHub コードのクローンを作成して実行します。
- 出力を確認します。このコードでは、Cloud Storage のデフォルトの Dataproc ステージング バケットにジョブドライバのログが出力されます。プロジェクトの Dataproc の [ジョブ] セクションで、 Google Cloud コンソールからジョブドライバ出力を表示できます。ジョブの詳細ページで [ジョブ ID] をクリックすると、ジョブの出力が表示されます。
- クライアント ライブラリをインストールします。詳細については、Node.js 開発環境の設定をご覧ください。
- 認証を設定します。
- サンプル GitHub コードのクローンを作成して実行します。
- 出力を確認します。このコードでは、Cloud Storage のデフォルトの Dataproc ステージング バケットにジョブドライバのログが出力されます。プロジェクトの Dataproc の [ジョブ] セクションで、 Google Cloud コンソールからジョブドライバ出力を表示できます。ジョブの詳細ページで [ジョブ ID] をクリックすると、ジョブの出力が表示されます。
- クライアント ライブラリをインストールします。詳細については、Python 開発環境の設定をご覧ください。
- 認証を設定します。
- サンプル GitHub コードのクローンを作成して実行します。
- 出力を確認します。このコードでは、Cloud Storage のデフォルトの Dataproc ステージング バケットにジョブドライバのログが出力されます。プロジェクトの Dataproc の [ジョブ] セクションで、 Google Cloud コンソールからジョブドライバ出力を表示できます。ジョブの詳細ページで [ジョブ ID] をクリックすると、ジョブの出力が表示されます。
- Dataproc Cloud クライアント ライブラリの追加リソースをご覧ください。
コードを実行する
チュートリアルを試す: [Cloud Shell で開く] をクリックして、Python Cloud クライアント ライブラリのチュートリアルを実行します。このチュートリアルでは、クラスタを作成し、PySpark ジョブを実行した後、クラスタを削除します。