システム管理
Cloud Data Fusion Studio で [システム管理者] をクリックすると、次のタブが表示されます。
- [管理] タブ: さまざまな Cloud Data Fusion サービスの健全性ステータスを確認します。各サービスのログも確認できます。
[構成] タブ: 次のコントロールを作成、表示、編集します。
- Namespace。詳細については、 名前空間サービス アカウントを使用したアクセス制御をご覧ください。
- システム コンピューティング プロファイル。コンピューティング プロファイルは、パイプライン実行用のクラスタを作成し、 関連する構成を適用する際に使用する プロビジョナーを示します。
プロビジョナーは、パイプラインが実行されるクラウド環境の作成、初期化、破棄を行います。 各プロビジョナーは、作成および削除されるクラスタのタイプを制御するために使用される一連の構成を公開します。プロビジョナーが異なると、作成されるクラスタのタイプも異なります。
各コンピューティング プロファイルには、システムまたはユーザーのスコープがあります。システム コンピューティング プロファイルは、その下の任意の名前空間で使用できます。ユーザー コンピューティング プロファイルは名前空間内に存在し、その名前空間内のパイプラインのみがユーザー コンピューティング プロファイルを使用できます。
システム管理者の [構成] タブで、すべての名前空間に適用されるシステム コンピューティング プロファイルを作成できます。Cloud Data Fusion はデフォルトのコンピューティング プロファイルを割り当てます。
コンピューティング プロファイルを作成するときに、プロビジョナーを選択します。プロビジョナーは、プロファイルを使用してクラウド ランタイムの詳細を作成して構成します。
システム設定
環境設定は、システム自体、名前空間、アプリケーション(パイプラインを含む)、パイプライン内の個別のプログラムなど、Cloud Data Fusion 内のさまざまなレベルに適用される事前定義された構成です。環境設定を使用すると、頻繁に使用される構成のデフォルト値を設定できます。デフォルトは、下位レベルのパイプラインとプログラムに継承できるため、反復的な構成タスクを削減できます。詳細については、マクロ、 環境設定、ランタイムの引数を管理するをご覧ください。
HTTP 呼び出しアクション
[**システム管理者**] ページの HTTP 呼び出しアクションを使用すると、 Cloud Data Fusion 独自の API や、他の Google Cloud サービス API と、Cloud Data Fusion Studio インターフェースから直接やり取りできます。ただし、外部データソースを使用してデータ処理パイプラインを構築する場合は、HTTP プラグインとその HTTP 呼び出しエグゼキュータをパイプライン内で使用して、より包括的なソリューションを実現します。HTTP 呼び出しアクションとは若干異なりますが、基本的なコンセプトは同じです。
構成とユースケース
HTTP 呼び出しアクションは、主に Cloud Data Fusion 内の管理タスクまたは 構成に使用されます。Cloud Data Fusion Studio から直接、Cloud Data Fusion API や HTTP API を公開する他のサービス Google Cloud とやり取りできます。
構成
HTTP 呼び出しには、次の詳細を定義できます。
- URL: 呼び出すウェブサービスのターゲット エンドポイント。
- メソッド: 使用する HTTP メソッド(
GET、POST、PUTなど)。 - 省略可: ヘッダー: リクエストに必要なカスタム ヘッダー。
- 省略可: 本文:
POST呼び出しやPUT呼び出しなど、リクエスト本文で送信されるデータ。
定義した HTTP 呼び出しを実行し、 ウェブサービスからのレスポンスを Cloud Data Fusion Studio 内で表示できます。
ユースケース
- Cloud Data Fusion API 呼び出しをテストする。HTTP 呼び出し アクションを使用すると、ウェブ インターフェースから直接 Cloud Data Fusion API の機能をテストまたは探索できます。このアクションは、API の動作を理解したり、潜在的な問題をトラブルシューティングしたりするのに役立ちます。
- 名前空間を管理する(上級者向け)。名前空間の管理専用の UI がありますが、HTTP 呼び出しアクションを使用して、名前空間の作成、削除、構成のために Cloud Data Fusion API を直接呼び出すことで、高度なタスクを実行できます。
- 他のサービスとの連携(制限あり)。 Google Cloud 使用している他の Google Cloud サービスに一般公開されている HTTP API がある場合は、HTTP 呼び出しアクションを使用してこれらの サービスとやり取りできます。ただし、これは一般的なユースケースではありません。
重要な考慮事項
- セキュリティ: HTTP 呼び出しアクションを使用する場合は、特にセンシティブ データや環境に影響を与える可能性のある Cloud Data Fusion API 呼び出しを行う場合は注意してください。API 呼び出しを実行する前に、その 影響を理解していることを確認してください。
- 制限事項: HTTP 呼び出しアクションは、主に管理タスクとテストを目的としています。Cloud Data Fusion 内でデータの操作を行う複雑なデータ処理パイプラインを構築するようには設計されていません。
- パイプラインの代替: 外部データソース またはサービスをデータ パイプラインに統合するには、パイプライン定義内で HTTP プラグインとその 関連する HTTP 呼び出しエグゼキュータを使用します。これにより、データ処理ワークフロー内の HTTP インタラクションをより堅牢かつ制御された方法で管理できます。
名前空間の管理
Cloud Data Fusion Studio で [名前空間の管理] をクリックすると、特定の名前空間の構成を管理できます。名前空間ごとに、次の要素を定義できます。
- コンピューティング プロファイル: 名前空間の管理で設定されたプロファイルは、ユーザー コンピューティング プロファイルです。その名前空間内のパイプラインのみがこれらのユーザー コンピューティング プロファイルを使用できます。詳細については、コンピューティング プロファイルを管理するをご覧ください。
- 環境設定: 名前空間レベルで定義された環境設定は、 名前空間、アプリケーション(パイプラインを含む)、 パイプライン内の個別のプログラムに適用されます。詳細については、マクロ、 環境設定、ランタイムの引数を管理するをご覧ください。
- 接続: Cloud Data Fusion では、データ パイプライン内の ソースとシンクへの接続を再利用できます。接続は [名前空間の管理] ページで追加できます。詳細については、接続の作成と管理をご覧ください。
- ドライバ: Cloud Data Fusion の一部のプラグインでは、名前空間に JDBC ドライバを追加する必要があります。たとえば、MySQL バッチソース プラグインを使用してパイプラインを実行する前に、サポートされている MySQL ドライバを名前空間に追加する必要があります。JDBC ドライバを名前空間にアップロードまたは削除するには、[名前空間の管理] ページから、または Hub から直接行います。詳細については、 プラグイン ドライバをご覧ください。
- ソース コントロール管理: デプロイされたパイプラインの開発プロセスを効率的に管理するために、ソース コントロール管理を使用すると、名前空間をソース コントロール システムのリポジトリに接続できます。詳細については、ソース コントロール管理を使用してパイプラインを管理するをご覧ください。
- サービス アカウント: リソースへのアクセスを制御するために、 Google Cloud Cloud Data Fusion の 名前空間はデフォルトで Cloud Data Fusion API サービス エージェントを使用します。
データの分離を適切に行うには、カスタマイズされた Identity and Access Management(IAM)サービス アカウント(Per Namespace Service Account と呼ばれる)を各名前空間に関連付けます。カスタマイズされた IAM サービス アカウントは名前空間ごとに異なる場合があり、パイプラインのプレビュー、Wrangler、パイプラインの検証など、Cloud Data Fusion でのパイプライン設計時のオペレーションのために、名前空間の間のリソースへのアクセスを制御できます。 Google Cloud 詳細については、 名前空間サービス アカウントを使用したアクセス制御をご覧ください。
次のステップ
- コンピューティング プロファイルの詳細を確認する。
- マクロ、設定、ランタイムの引数の詳細を確認する。