このページでは、Dataproc Metastore インスタンスのネットワーク アクセスを構成する方法について詳しく説明します。Managed Service for Apache Spark クラスタと Managed Service for Apache Spark ワークロードが、マネージド Dataproc Metastore サービスと安全かつプライベートに通信するには、ネットワークを正しく設定することが不可欠です。
ネットワーキングのコンセプトの概要については、ネットワーキング の概要をご覧ください。
ネットワーキングの主なコンセプト
通常、Dataproc Metastore インスタンスは Google マネージド サービス プロデューサー ネットワーク内に存在し、プライベート接続を使用して Virtual Private Cloud(VPC)ネットワークと通信します。設定を成功させるには、次のコンセプトを理解することが重要です。
- 共有 Virtual Private Cloud: Managed Service for Apache Spark クラスタまたは Managed Service for Apache Spark ワークロードが、ホスト プロジェクトの共有 VPC ネットワークを使用するサービス プロジェクトにある場合は、ホスト プロジェクトで適切なネットワーク構成が行われていることを確認します。詳しくは、 共有 VPC の概要をご覧ください。
- プライベート Google アクセス: Dataproc Metastore インスタンスは、VPC ネットワークとのプライベート通信にプライベート Google アクセスを使用することがよくあります。これにより、VPC 内の仮想マシン(VM)インスタンスは、内部 IP アドレスを使用して Google API とサービスに接続できます。 詳細については、プライベート Google アクセスをご覧ください。
- VPC ネットワーク ピアリング: このメカニズムにより、2 つの VPC ネットワーク間でプライベート IP 接続が可能になり、1 つのネットワーク内のリソースが内部 IP アドレスを使用して別のネットワーク内のリソースと通信できるようになります。 Dataproc Metastore は、設定の一環として、VPC ネットワークへのマネージド VPC ネットワーク ピアリング接続を確立します。詳細については、 VPC ネットワーク ピアリングをご覧ください。
- ファイアウォール ルール: Managed Service for Apache Spark ワークロードと Dataproc Metastore インスタンス間のトラフィックを許可するには、適切なファイアウォール ルールが必要です。
- Cloud DNS の解決: Dataproc Metastore エンドポイント URI をプライベート IP アドレスに解決するように、VPC ネットワーク内で DNS の解決が正しく構成されていることを確認します。
設定手順
Dataproc Metastore インスタンスの適切なネットワーク アクセスを確認する手順は次のとおりです。
1. プライベート サービス アクセスを構成する
Dataproc Metastore は、プライベート サービス アクセスを使用して、VPC ネットワークと Dataproc Metastore インスタンスが存在する Google マネージド サービス プロデューサー ネットワークの間にプライベート接続を確立します。
- プライベート サービス アクセス接続を確認する:
- コンソールで、[Virtual Private Cloud ネットワーク] > [VPC ネットワーク ピアリング] に移動します。 Google Cloud
servicenetworking-googleapis-comという名前のピアリング接続が存在し、その状態がACTIVEであることを確認します。- この接続がない場合やアクティブでない場合は、 プライベート サービス アクセスの構成の手順に沿って操作します。 これには、サービス プロデューサー ネットワークの IP アドレス範囲の割り当てが含まれます。
2. ファイアウォール ルールを構成する
VPC ネットワーク(または共有 VPC ホスト プロジェクト)のファイアウォール ルールで、必要なトラフィックが許可されていることを確認します。
- ワークロードからメタストアへの下り(外向き)ルール:
- 下り(外向き)ファイアウォール ルールで、Managed Service for Apache Spark クラスタまたは Managed Service for Apache Spark ワークロードから、ポート
9083の Dataproc Metastore インスタンスの IP アドレス範囲へのアウトバウンド TCP トラフィックが許可されていることを確認します。これは、Hive Metastore のデフォルト ポートです。 - プライベート サービス アクセスを使用している場合、このトラフィックはプライベートにルーティングされます。
- 下り(外向き)ファイアウォール ルールで、Managed Service for Apache Spark クラスタまたは Managed Service for Apache Spark ワークロードから、ポート
- 上り(内向き)ルール(クライアントからメタストアへのアクセスでは一般的ではありません):
- 通常、通信はワークロードから開始されるため、Dataproc Metastore インスタンスからワークロードへのトラフィックに対して VPC で上り(内向き)ルールを構成する必要はありません。ただし、必要なレスポンスが過度に制限された上り(内向き)ルールによって誤ってブロックされていないことを確認してください。
3. DNS 解決を確認する
Managed Service for Apache Spark ワークロードは、Dataproc Metastore エンドポイント URI をプライベート IP アドレスに解決する必要があります。
- DNS ピアリングまたはプライベート ゾーン: カスタム DNS サーバーまたはプライベート Cloud DNS ゾーンを使用している場合は、Dataproc Metastore エンドポイント(
your-metastore-endpoint.us-central1.dataproc.cloud.google.comなど)の DNS クエリが、プライベート サービス アクセスで使用されるプライベート IP 範囲に正しく転送または解決されることを確認します。 - DNS 解決のテスト: Managed Service for Apache Spark ワークロードと同じサブネット内の VM から
nslookupまたはdigを使用して、Dataproc Metastore エンドポイントがプライベート IP アドレスに解決されることを確認します。
ネットワーク接続のトラブルシューティング
ネットワーク アクセスを構成した後に接続の問題が発生した場合は、次のトラブルシューティングの手順を検討してください。
- Dataproc Metastore のステータスを確認する:
コンソールで、Dataproc Metastore インスタンスが
HEALTHY状態であることを確認します。 Google Cloud - Cloud Logging を確認する: Dataproc Metastore インスタンスと関連する Managed Service for Apache Spark ワークロードの Cloud Logging で、ネットワーク関連のエラー メッセージまたは接続タイムアウトがないか確認します。
- Network Intelligence Center 接続テストを使用する: Google Cloudの 接続テスト を使用して、Managed Service for Apache Spark ワークロードの VM から Dataproc Metastore エンドポイントまでのネットワーク パスを診断します。
- 一般的なトラブルシューティングを参照する: ネットワーク診断の詳細については、以下をご覧ください。
次のステップ
- Dataproc Metastoreの詳細を確認する。
- Managed Service for Apache Spark のネットワーキング オプションを確認する。
- VPC ネットワーク ピアリングについて理解する。