Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Hadoop クラスタの作成

Managed Service for Apache Spark を使用すると、Bigtable インスタンスに接続して Hadoop ジョブを実行できる 1 つ以上の Compute Engine インスタンスを作成できます。このページでは、Managed Service for Apache Spark を使用して次のタスクを自動化する方法について説明します。

Java 用 Hadoop と HBase クライアントのインストール
Hadoop と Bigtable の構成
Cloud Bigtable の正しい認証スコープの設定

Managed Service for Apache Spark クラスタを作成した後、そのクラスタを使用して、Bigtable からのデータの読み取りと Bigtable へのデータの書き込みを行う Hadoop ジョブを実行できます。

このページの説明は、Hadoop に精通していることを前提としています。Managed Service for Apache Spark の詳細については、Managed Service for Apache Spark のドキュメントをご覧ください。

始める前に

始める前に、以下のタスクを実行する必要があります。

Bigtable インスタンスを作成します。プロジェクト ID と Bigtable インスタンス ID を確実にメモしてください。
Cloud Bigtable API、Cloud Bigtable Admin API、Managed Service for Apache Spark、Cloud Storage JSON API を有効にします。
API を有効にするために必要なロール
API を有効にするには、serviceusage.services.enable 権限を含む Service Usage 管理者 IAM ロール（roles/serviceusage.serviceUsageAdmin）が必要です。詳しくは、ロールを付与する方法をご覧ください。
API を有効にする
ユーザーアカウントが、権限 storage.objects.get を含むロールに存在することを確認します。
Google Cloud コンソールで [IAM] ページを開きます。

[IAM] ページを開く
Google Cloud CLI をインストールします。詳しくは、gcloud CLI の設定手順をご覧ください。
サンプル Hadoop ジョブの実行に使用する Apache Maven をインストールします。

Debian GNU/Linux または Ubuntu 上で、次のコマンドを実行します。
```
sudo apt-get install maven
```
RedHat Enterprise Linux または CentOS 上で、次のコマンドを実行します。
```
sudo yum install maven
```
macOS 上で Homebrew をインストールした後、次のコマンドを実行します。
```
brew install maven
```
GitHub リポジトリ GoogleCloudPlatform/cloud-bigtable-examples のクローンを作成します。ここには、Bigtable を使用する Hadoop ジョブの例が含まれます。
```
git clone https://github.com/GoogleCloudPlatform/cloud-bigtable-examples.git
```

Cloud Storage バケットを作成する

Managed Service for Apache Spark は、Cloud Storage バケットを使用して一時ファイルを格納します。ファイル名の競合を防ぐには、Managed Service for Apache Spark の新しいバケットを作成します。

Cloud Storage バケット名は、すべてのバケットにわたってグローバルに一意である必要があります。 Google Cloud プロジェクト名を含む名前など、利用可能なバケット名を選択します。

名前を選択した後、次のコマンドを使用して新しいバケットを作成してください。ここで、大かっこ内の値は、適切な値で置き換えてください。

gcloud storage buckets create gs://[BUCKET_NAME] --project=[PROJECT_ID]

Managed Service for Apache Spark クラスタを作成する

次のコマンドを実行して、4 つのワーカーノードを持つ Managed Service for Apache Spark クラスタを作成します。ここで、大かっこ内の値は、適切な値で置き換えてください。

gcloud dataproc clusters create [DATAPROC_CLUSTER_NAME] --bucket [BUCKET_NAME] \
    --region [region] --num-workers 4 --master-machine-type n1-standard-4 \
    --worker-machine-type n1-standard-4

構成可能な追加設定については、gcloud dataproc clusters create のドキュメントをご覧ください。テキスト Insufficient 'CPUS' quota を含むエラーメッセージが表示される場合、--num-workers フラグに小さな値を設定してみてください。

Managed Service for Apache Spark クラスタをテストする

Managed Service for Apache Spark クラスタを設定した後、単語がテキストファイル内に出現する回数をカウントするサンプル Hadoop ジョブを実行して、クラスタをテストできます。サンプルジョブでは、Bigtable を使用してオペレーションの結果を格納します。自分の Hadoop ジョブを設定するときに、このサンプルジョブをリファレンスとして使用できます。

サンプル Hadoop ジョブを実行する

GitHub リポジトリのクローンを作成したディレクトリで、ディレクトリ java/dataproc-wordcount に移動します。
次のコマンドを実行してプロジェクトをビルドします。ここで、大かっこ内の値は、適切な値で置き換えてください。
```
mvn clean package -Dbigtable.projectID=[PROJECT_ID] \
    -Dbigtable.instanceID=[BIGTABLE_INSTANCE_ID]
```
次のコマンドを実行して Hadoop ジョブを開始します。ここで、大かっこ内の値は、適切な値で置き換えてください。
```
./cluster.sh start [DATAPROC_CLUSTER_NAME]
```

ジョブが完了すると、単語 WordCount の後にハイフンと一意の番号が続く、出力テーブルの名前が表示されます。

Output table is: WordCount-1234567890

Hadoop ジョブの結果を検証する

オプションで、Hadoop ジョブを実行した後、cbt CLI を使用してジョブが正しく実行されたことを確認できます。

Cloud Shell でターミナルウィンドウを開きます。

Cloud Shell で開く

cbt CLI をインストールします。

    gcloud components update
    gcloud components install cbt

出力テーブルをスキャンして、Hadoop ジョブの結果を表示します。[TABLE_NAME] は、ユーザーの出力テーブルの名前に置き換えます。
```
    cbt -instance [BIGTABLE_INSTANCE_ID] read [TABLE_NAME]
  
```

これで、クラスタがセットアップされたことを確認したので、それを使用して独自の Hadoop ジョブを実行できます。

Managed Service for Apache Spark クラスタを削除する

Managed Service for Apache Spark クラスタの使用を終了したら、次のコマンドを実行してクラスタのシャットダウンと削除を行います。[DATAPROC_CLUSTER_NAME] は、Managed Service for Apache Spark クラスタの名前に置き換えます。

gcloud dataproc clusters delete [DATAPROC_CLUSTER_NAME]

次のステップ

Managed Service for Apache Spark の詳細を確認する。
Java 用 HBase クライアントを使ってみる。