Managed Service for Apache Spark クラスタまたはセルフマネージドクラスタを接続する

Dataproc Metastore サービスを作成したら、次のいずれかのサービスを接続できます。

Managed Service for Apache Spark クラスタ。
セルフマネージドの Apache Hive インスタンス、 Apache Spark インスタンス、または Presto クラスタ。

これらのサービスのいずれかに接続すると、クエリの実行時に Dataproc Metastore サービスが Hive メタストアとして使用されます。

始める前に

プロジェクトで Dataproc Metastore を有効にします。
Dataproc Metastore サービスを作成します。
プロジェクトに特有のネットワーキング要件を理解します。

必要なロール

Dataproc Metastore と Managed Service for Apache Spark クラスタの作成に必要な権限を取得するには、管理者に次の IAM ロールの付与を依頼します。

すべての Dataproc Metastore リソースに対する完全アクセス権を付与するには、次のいずれかを行います。
- ユーザーアカウントまたはサービスアカウントに対する Dataproc Metastore 編集者（roles/metastore.editor）
- ユーザーアカウントまたはサービスアカウントに対する Dataproc Metastore 管理者（roles/metastore.admin）
Managed Service for Apache Spark クラスタを作成するには: (roles/dataproc.worker) Managed Service for Apache Spark VM サービスアカウントに対する
Hive ウェアハウスディレクトリへの読み取り / 書き込み権限を付与するには: （roles/storage.objectAdmin） Managed Service for Apache Spark VM サービスアカウントに対する

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

これらの事前定義ロールには Dataproc Metastore と Managed Service for Apache Spark クラスタの作成に必要な権限が含まれています。必要とされる正確な権限については、必要な権限セクションを開いてご確認ください。

必要な権限

Dataproc Metastore と Managed Service for Apache Spark クラスタを作成するには、次の権限が必要です。

Dataproc Metastore を作成するには: metastore.services.create ユーザーアカウントまたはサービスアカウントの
Managed Service for Apache Spark クラスタを作成するには: dataproc.clusters.create ユーザーアカウントまたはサービスアカウントに対する
Hive ウェアハウスディレクトリにアクセスするには: orgpolicy.policy.get1,resourcemanager.projects.get,resourcemanager.projects.list,storage.objects.*,storage.multipartUploads.* Managed Service for Apache Spark VM サービスアカウント

カスタムロールや他の事前定義ロールを使用して、これらの権限を取得することもできます。

Dataproc Metastore の特定のロールと権限については、IAM によるアクセス管理をご覧ください。

Managed Service for Apache Spark クラスタ

Managed Service for Apache Spark は、オープンソースのデータツールを利用したバッチ処理、クエリ実行、ストリーミング、ML を可能にする Apache Spark / Apache Hadoop サービスです。

考慮事項

Managed Service for Apache Spark クラスタを作成して接続する前に、 Dataproc Metastore サービスで使用されているエンドポイントプロトコルを確認してください。このプロトコルは、Hive Metastore クライアントが Dataproc Metastore に保存されているメタデータにアクセスする方法を定義します。この選択は、サービスと統合して使用できる機能にも影響します。

Apache Thrift

Apache Thrift エンドポイントプロトコルを使用する場合は、次のネットワーク要件を考慮してください。

デフォルトでは、Managed Service for Apache Spark クラスタと Dataproc Metastore サービスは同じネットワーク上に作成する必要があります。Managed Service for Apache Spark クラスタでは、Dataproc Metastore サービスのネットワークのサブネットを使用することもできます。
Managed Service for Apache Spark クラスタがネットワークとは異なるプロジェクトに属している場合は、共有ネットワーク権限を構成する必要があります。
Managed Service for Apache Spark クラスタが Dataproc Metastore サービスとは異なるプロジェクトに属している場合は、追加の権限を設定する前に Managed Service for Apache Spark クラスタを作成する必要があります。

gRPC

gRPC エンドポイントプロトコルを使用する場合は、次のネットワーク要件を考慮してください。

gRPC エンドポイントプロトコルを使用して Dataproc Metastore を作成したら、追加の IAM ロールを付与する必要があります。
Dataproc Personal Cluster Authentication を使用している場合、Dataproc Metastore は gRPC エンドポイントプロトコルを使用する必要があります。
Managed Service for Apache Spark クラスタが Dataproc Metastore サービスとは異なるプロジェクトに属している場合は、追加の権限を設定する前に Managed Service for Apache Spark クラスタを作成する必要があります。

クラスタを作成して Dataproc Metastore を接続する

次の手順では、Managed Service for Apache Spark クラスタを作成し、Dataproc Metastore サービスから接続する方法について説明します。これらの手順は、Dataproc Metastore サービスを作成していることを前提としています。

Managed Service for Apache Spark クラスタを作成する前に、選択した Managed Service for Apache Spark イメージが、Dataproc Metastore の作成時に選択した Hive メタストアバージョンと互換性があることを確認してください。詳細については、Managed Service for Apache Spark イメージバージョンリストをご覧ください。
ネットワーク接続を最適化するには、Dataproc Metastore サービスと同じリージョンに Managed Service for Apache Spark クラスタを作成します。

コンソール

コンソールで、Managed Service for Apache Spark の [クラスタの作成] ページを開きます。 Google Cloud

[クラスタの作成] を開く
[クラスタ名] フィールドに、クラスタの名前を入力します。
[リージョン] メニューと [ゾーン] メニューで、Dataproc Metastore サービスを作成したリージョンと同じリージョンを選択します。任意のゾーンを選択できます。
[クラスタをカスタマイズ] タブをクリックします。
[ネットワークの構成] セクションで、Dataproc Metastore サービスを作成したのと同じネットワークを選択します。
[Dataproc Metastore] セクションで、接続する Dataproc Metastore サービスを選択します。まだ作成していない場合は、[新しいサービスを作成] を選択します。

注: このリストに Dataproc Metastore サービスが表示されない場合は、Managed Service for Apache Spark クラスタに選択したリージョンを再確認してください。両方のサービスが同じリージョンを使用するように構成する必要があります。
省略可: Dataproc Metastore サービスが gRPC エンドポイントプロトコルを使用している場合:
1. [セキュリティを管理] タブをクリックします。
2. [プロジェクトのアクセス] セクションで、[このクラスタのクラウドプラットフォームスコープを有効にする] を選択します。
必要に応じて、残りのサービスオプションを構成します。
クラスタを作成するには、[作成] をクリックします。

新しいクラスタが [クラスタ] リストに表示されます。クラスタを使用できる状態になるまで、クラスタのステータスは [プロビジョニング中 ] と表示されます。使用できる状態になると、ステータスが [実行中 ] に変わります。

gcloud CLI

クラスタを作成して Dataproc Metastore を接続するには、次の gcloud dataproc clusters create コマンドを実行します。

gcloud dataproc clusters create CLUSTER_NAME \
    --dataproc-metastore=projects/PROJECT_ID/locations/LOCATION/services/SERVICE \
    --region=LOCATION \
    --scopes=SCOPES

以下を置き換えます。

CLUSTER_NAME: 新しい Managed Service for Apache Spark クラスタの名前。
PROJECT_ID: Dataproc Metastore サービスを作成したプロジェクトのプロジェクト ID。
LOCATION: Dataproc Metastore サービスを作成したのと同じリージョン。
SERVICE: クラスタに接続する Dataproc Metastore サービスの名前。
SCOPES: （省略可）Dataproc Metastore サービスが gRPC エンドポイントプロトコルを使用している場合は、cloud-platform を使用します。

REST

API Explorer を使用し、API の手順に従ってクラスタを作成します。

Managed Service for Apache Spark クラスタのプロパティを使用してクラスタを接続する

Managed Service for Apache Spark のプロパティを使用して、Managed Service for Apache Spark クラスタを Dataproc Metastore に接続することもできます。 Managed Service for Apache Spark のプロパティを使用して、Managed Service for Apache Spark クラスタを Dataproc Metastore に接続することもできます。これらのプロパティには、Dataproc Metastore の ENDPOINT_URI と WAREHOUSE_DIR が含まれます。

Dataproc Metastore サービスが Private Service Connect を使用している場合、または Managed Service for Apache Spark クラスタを Dataproc Metastore サービスの補助バージョンに接続する必要がある場合は、次の手順を使用します。

ENDPOINT_URI プロパティと WAREHOUSE_DIR プロパティを使用して Managed Service for Apache Spark クラスタを接続するには、次の 2 つの方法があります。

オプション 1: Managed Service for Apache Spark クラスタの作成時

Managed Service for Apache Spark クラスタを作成するときに、次の Hive 構成で properties フラグを使用します。

gcloud dataproc clusters create CLUSTER_NAME \
     --properties="hive:hive.metastore.uris=ENDPOINT_URI,hive:hive.metastore.warehouse.dir=WAREHOUSE_DIR/hive-warehouse"

以下を置き換えます。

CLUSTER_NAME: 新しい Managed Service for Apache Spark クラスタの名前。
ENDPOINT_URI: Dataproc Metastore サービスのエンドポイント URI 。
WAREHOUSE_DIR: Hive ウェアハウスディレクトリのロケーション。

オプション 2: `hive-site.xml` ファイルを更新する

クラスタの hive-site.xml ファイルを直接変更して、Managed Service for Apache Spark クラスタを接続することもできます。

.*-m クラスタに SSH を使用して接続します。
/etc/hive/conf/hive-site.xml ファイルを開き、次の行を変更します。
```
<property>
   <name>hive.metastore.uris</name>
   
   <value>ENDPOINT_URI</value>
</property>

<property>
   <name>hive.metastore.warehouse.dir</name>
   <value>WAREHOUSE_DIR</value>
</property>
```
以下を置き換えます。
- ENDPOINT_URI: Dataproc Metastore サービスのエンドポイント URI 。
- WAREHOUSE_DIR: Hive ウェアハウスディレクトリのロケーション。

HiveServer2 を再起動します。

sudo systemctl restart hive-server2.service

セルフマネージドクラスタ

セルフマネージドクラスタは、Apache Hive インスタンス、 Apache Spark インスタンス、または Presto クラスタにできます。

セルフマネージドクラスタを接続する

クライアント構成ファイルに次の値を設定します。

hive.metastore.uris=ENDPOINT_URI
hive.metastore.warehouse.dir=WAREHOUSE_DIR

以下を置き換えます。

ENDPOINT_URI: Dataproc Metastore サービスのエンドポイント URI 。
WAREHOUSE_DIR: Hive ウェアハウスディレクトリのロケーション。

Managed Service for Apache Spark クラスタまたはセルフマネージド クラスタを接続する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

始める前に

必要なロール

必要な権限

Managed Service for Apache Spark クラスタ

考慮事項

Apache Thrift

gRPC

クラスタを作成して Dataproc Metastore を接続する

コンソール

gcloud CLI

REST

Managed Service for Apache Spark クラスタのプロパティを使用してクラスタを接続する

オプション 1: Managed Service for Apache Spark クラスタの作成時

オプション 2: hive-site.xml ファイルを更新する

セルフマネージド クラスタ

セルフマネージド クラスタを接続する

次のステップ

Managed Service for Apache Spark クラスタまたはセルフマネージドクラスタを接続する

オプション 2: `hive-site.xml` ファイルを更新する

セルフマネージドクラスタ

セルフマネージドクラスタを接続する