このシナリオでは、医療機関が提供するさまざまなサービスの使用状況に関するレコードを保存するデータベースを管理します。データを使いやすくするために、テーブルを参照して変更の可能性を特定します。変更を実装する前に、改善によって既存のワークフローに影響があるかどうか、追加の調整が必要かどうかを特定します。
このチュートリアルでは、データリネージを使用して、データ変換がダウンストリーム リソースと、リソースが属するワークフローに与える影響を特定します。
使ってみる
ユースケースを完了するには、まず環境を設定してデータ変換を実行します。前提条件と設定のページを使用して、リモート リポジトリを Dataform に接続します。このリポジトリには、データセットを設定してデータを変換するために必要なコードが含まれています。
環境の設定が完了したら、BigQuery とリネージ エクスプローラ を使用して、データ変換とワークフローへの影響を追跡します。
リネージ エクスプローラでデータ変換を分析する
データセットを準備したら、BigQuery の [リネージ] タブを使用して、データ変換の影響を分析します。
データの完全性を検証する
この例では、医師またはサプライヤーが Medicare のサービスを提供することに同意しているかどうかを示す medicare_participation_indicator 列を調べます。リネージグラフは、派生テーブル間のデータ変換によって列のデータ型がどのように変化するかを示しています。
- コンソールで、[BigQuery] ページに移動します。 Google Cloud
- 検索フィールドを使用して、
physicians_and_other_supplier_2012_originalテーブルを見つけます。 - [リネージ] タブをクリックします。
- [リネージ エクスプローラ] ペインで、次の操作を行います。
- [列レベルのリネージ] セクションで、リストから
medicare_participation_indicator列名を選択します。 - [方向] セクションで、[ダウンストリーム] 方向を選択します。
- [適用] をクリックします。
- [列レベルのリネージ] セクションで、リストから
vertex_ai_model_final_featuresに到達するまでリネージパスを展開します。supplier_stg3テーブルとsupplier_transform1テーブル間のパスの変更を分析します。
列のリネージ トラッキングの可視化 medicare_participation_indicator- [完全なコピー] パスのマーキングは、列が変更されずに通過していることを示します。
- [その他] パスのマーキングは変換を示します。このパスでは、データ型
StringはBooleanのように扱われます。
このパスは、列のデータ型が変更されることを示しています。このため、これらのテーブルを使用するワークフローの調整が必要になる場合があります。
冗長な列を特定する
この例では、National Plan and Provider Enumeration System(NPPES)で医療従事者が保持する米国医療提供者 ID のリストを示す nppes_credentials 列を調べます。
- コンソールで、[BigQuery] ページに移動します。 Google Cloud
- 検索フィールドを使用して、
physicians_and_other_supplier_2012_originalテーブルを見つけます。 - [リネージ] タブをクリックします。
- [リネージ エクスプローラ] ペインで、次の操作を行います。
- [列レベルのリネージ] セクションで、リストから
nppes_credentials列名を選択します。 - [方向] セクションで、[ダウンストリーム] 方向を選択します。
- [適用] をクリックします。
- [列レベルのリネージ] セクションで、リストから
- パスを展開して、
vertex_ai_model_final_featuresにつながるダウンストリーム リネージが存在するかどうかを確認します。
リネージがない場合、この列はこの特定のワークフローでは関連性がなく、削除することもできます。
データリネージ グラフを使用したデータの可視化について詳しくは、リネージグラフ ビューをご覧ください。