Dataflow HPC の高度な並列ワークロードについて

高度な並列ワークロード（驚異的並列ワークロードとも呼ばれる）は、金融、メディア、ライフサイエンス企業でよく使用されています。このような並列ワークロードには通常、コンピューティングノードのクラスタがデプロイされています。各ノードはグリッドコンピューティングと呼ばれる構成で、独立した処理タスクを実行できます。並列ワークロードのデータ処理には、Dataflow と Apache Beam を使用できます。Apache Beam の詳細については、Apache Beam プログラミングガイドをご覧ください。

高度な並列ワークロードに Dataflow を使用すると、多くのメリットがあります。

データ処理とオーケストレーションを同じパイプラインで行うフルマネージドワークフローを作成できます。
- Dataflow のユーザーインターフェースと API にはオブザーバビリティ機能が含まれています。
- Dataflow は、すべてのパイプラインステージの一元的なロギングを行います。
- Dataflow の自動スケーリングでは、パフォーマンスを最大化してリソース使用量を最適化できます。
- Dataflow はフォールトトレラントであり、動的なロードバランシングを実現します。
- Dataflow はストラグラーの検出と修正を行います。
前処理と後処理の両方やタスク処理で、パイプラインのすべての側面に単一のシステムを使用できます。パイプラインで既存の C++ コードを使用することもできます。
Dataflow が提供する組み込みの exactly-once 処理を使用できます。

さらに、Dataflow にはさまざまなセキュリティ機能があります。

パイプラインで顧客管理の暗号鍵（CMEK）を使用できます。
Dataflow ジョブに関連付けられたネットワークのファイアウォールルールを定義できます。
VPC ネットワークを使用できます。

これらのワークロードでは、多数のコアで実行される関数にデータを分散する必要があります。この分散では多くの場合、非常に同時実行性の高い読み取りと、ダウンストリームシステムに取り込まれるデータの大規模なファンアウトが必要になります。Dataflow の中核となる機能は、リソース間でのバッチワークロードとストリームワークロードの分散と、これらのリソース間での自動スケーリングと動的作業再調整の管理です。そのため、高度な並列ワークロードに Dataflow を使用すると、パフォーマンス、スケーラビリティ、可用性、セキュリティのニーズが自動的に処理されます。

外部コードをパイプラインに組み込む

Apache Beam には、Java、Python、Go 用の SDK が組み込まれています。ただし、高度な並列ワークロードの多くは C++ で記述されたコードを使用します。Dataflow や他の Google Cloud Platform サービスでは、Apache Beam を使用して C++ バイナリ（ライブラリ）を外部コードとして実行できます。C++ バイナリを含めることで、フルマネージドサービスを使用して、これらのタイプのワークロードを利用できます。また、高度な有向非巡回グラフ（DAG）を使用して、完全なパイプラインを構築することもできます。

C++ バイナリを実行するためのアプローチは、スタンドアロンバイナリをコンパイルできる他の言語のコードにも当てはまります。

エンドツーエンドの高度な並列パイプライン

Dataflow では、I/O 読み取り / 書き込み処理、分析、タスク出力をすべて同じパイプラインで行うことができます。これにより、高度な並列パイプライン全体を実行できます。

たとえば、HPC の高度な並列ワークロードは次のステップで構成されている場合があります。

内部ソースと外部ソースから元データを取り込みます。データは、制限なしまたは制限付きのソースから取り込まれる場合があります。制限なしのソースの大半は、タスクファーミングに使用されるテクノロジーに対応するために制限付きのソースに変換されます。
元データを特定のデータ形状に前処理し、タスクファーミングコンポーネントが使用できるエンコードにします。
システムで計算をホストに分散し、ソースからデータを取得して、事後分析用に結果を実体化します。
事後分析を行い、結果を出力に変換します。

Dataflow では、Dataflow の機能を活用しながら、これらのステップを 1 つのパイプラインで管理できます。

1 つのシステムがすべてのステージを担当しているため、複数のパイプラインの実行を外部オーケストレーションシステムで調整する必要はありません。
データの局所性により、ステージ間の境界を明示的に実体化または非実体化する必要がないため、処理効率が向上します。
システムテレメトリーの改善により、ステージでの合計バイト数に関する情報を取得できます。これは後のステージの設計で役に立ちます。
自動スケーリングにより、システム内にデータがある場合、データがパイプラインステージを移動すると、データ量に応じてリソースがスケーリングされます。

Dataflow HPC の中核となる高度な並列パイプラインは最新の DAG 実行エンジンを使用します。一般的なパイプラインプロセスはすべて単一の DAG、ひいては単一の Dataflow パイプラインで完了できます。Apache Beam によって生成された DAG を使用して、パイプラインの形状を定義できます。

タスクファームシステムから高度な並列ワークフローに移行する場合は、タスクからデータにシフトする必要があります。PTransform に含まれる DoFn には、データ要素を受け取るプロセス関数があります。データポイントには、1 つ以上のプロパティを持つ任意のオブジェクトを指定できます。

DAG と単一のパイプラインを使用すると、ワークフロー全体を通してシステム内のすべてのデータを読み込むことができます。データベースやストレージにデータを出力する必要はありません。

高度な並列ワークフローで使用される Google Cloud Platform コンポーネント

グリッドコンピューティングアプリケーションでは、多数のコアで実行される関数にデータを分散する必要があります。このパターンでは多くの場合、同時実行性の高い読み取りが必要になり、その後ダウンストリームシステムに取り込まれるデータの大規模なファンアウトが行われます。

Dataflow は、大規模な並列データ I/O の取り込みが可能な次の Google Cloud Platform マネージドサービスと統合されています。

Pub/Sub: キャッシュとサービス提供用のワイドカラム型ストア
Bigtable: グローバルイベントストリーム取り込みサービス
Cloud Storage: 統合オブジェクトストア
BigQuery: ペタバイト規模のデータウェアハウスサービス

これらのサービスを併用することで、高度な並列ワークロード向けの魅力的なソリューションを実現できます。

Google Cloud Platform で実行される高度な並列ワークロードの一般的なアーキテクチャには、次のものがあります。

Apache Beam 向け Dataflow Runner。このランナーは、DAG から導出された処理フローを使用して、作業をグリッドノードに分散します。単一の Apache Beam DAG を使用することで、複雑なマルチステージパイプラインであっても、副入力や結合を使って並列するパイプラインステージが集約されるように定義できます。
Cloud Storage。このサービスは、C++ バイナリをステージングする場所を提供します。マスメディアのユースケースの多くがそうであるように、大きなファイルを保存する必要がある場合は、そのファイルも Cloud Storage に保存されます。
Bigtable、BigQuery、Pub/Sub。これらのサービスは、ソースにもシンクにも使用されています。

次の図は、サンプルワークフローのアーキテクチャの概要を示しています。

グリッドコンピューティングソリューションのアーキテクチャ

他のストレージシステムを使用することもできます。詳細は、Apache Beam のドキュメントのパイプライン I/O ページのストレージシステムとストリーミングソースのリストを参照してください。

Apache Beam 向け Dataflow ランナー

Dataflow を使用して、ストリーミングモードとバッチモードの両方でデータを変換、拡充します。Dataflow は Apache Beam を基盤としています。

Cloud Storage

Cloud Storage は、ライブデータ配信、データ分析、ML、データアーカイブを網羅する統合型オブジェクトストレージです。Dataflow の高度な並列ワークロードには、Cloud Storage が C++ バイナリへのアクセスを提供します。一部のユースケースでは、Cloud Storage は処理フェーズで必要なデータ用のロケーションも提供します。

グリッドコンピューティングで必要とされる高バーストの負荷については、Cloud Storage のパフォーマンス特性を理解している必要があります。Cloud Storage のデータ配信パフォーマンスの詳細については、Cloud Storage ドキュメントのリクエストレートとアクセス分散のガイドラインを参照してください。

Bigtable

Bigtable は、大規模な分析ワークロードや運用ワークロード用に最適化された高パフォーマンス NoSQL データベースサービスです。Bigtable は Dataflow を補完します。Bigtable の主な特性である低レイテンシの読み取りと書き込み（90 パーセンタイルで 6 ミリ秒）により、数千のクライアントの同時実行と高バーストワークロードを処理できます。このような機能を持つ Bigtable は、Dataflow の処理フェーズの DoFn 関数のシンクやデータソースとして最適です。

BigQuery

BigQuery は、大規模なデータ分析に対応した、高速で経済的なエンタープライズ向けフルマネージドデータウェアハウスです。グリッドの結果は分析に使用されることが多く、グリッドのデータ出力に対して大規模な集計を実行できます。

Pub/Sub

Pub/Sub は、メッセージを生成するサービスと処理するサービスとを切り離す、非同期のスケーラブルなメッセージングサービスです。ストリーミング分析パイプラインやデータ統合パイプラインに Pub/Sub を使用して、データの取り込みと分散を行うことができます。また、サービスの統合を目的としたメッセージ指向ミドルウェアや、タスクを並列化するためのキューとしても使用されます。

Dataflow DAG

Apache Beam SDK を使用すると、表現力の高い DAG を構築し、マルチステージのストリームパイプラインまたはバッチパイプラインを作成できます。データの移動はランナーによって処理され、データは不変の並列要素コレクションである PCollection オブジェクトとして表現されます。

次の図は、このフローを表しています。

DAG を使用したフロー

Apache Beam SDK では DAG を定義できます。DAG には、ユーザー定義コードを関数として含めることができます。通常、DAG の宣言とユーザー定義コードの両方に同じプログラミング言語（Java、Python、Go）が使用されます。ユーザー定義コードには、C++ などの組み込み以外のコードを使用することもできます。

次のステップ

Dataflow HPC の並列パイプラインを操作するためのベストプラクティスについて学習する。
チュートリアルに沿って、C++ ライブラリとカスタムコンテナを使用するパイプラインを作成する。

Dataflow HPC の高度な並列ワークロードについて コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。