このシナリオでは、雇用と賃金の四半期別調査(QCEW)から派生したデータセットを含む BigQuery プロジェクトを管理します。このプロジェクトには、雇用動向の追跡や賃金の比較など、さまざまなダッシュボードや分析に使用される多数のテーブルとビューが含まれています。その結果、ストレージ費用が増加します。費用を削減するには、BigQuery 内のジョブやアセットのソースとして積極的に使用されていないテーブルまたはビューを特定し、削除候補にします。
データリネージを使用して、他の BigQuery ジョブでソースとして使用されていないアセットを特定します。各アセットの下流リンクを確認することで、未使用のリソースを削除対象として体系的にマークし、ストレージ費用を削減します。
使ってみる
ユースケースを完了するには、まず環境を設定してデータ変換を実行します。[前提条件と設定] ページを使用して、リモート リポジトリを Dataform に接続します。このリポジトリには、データセットを設定してデータを変換するために必要なコードが含まれています。
環境設定が完了したら、BigQuery とリネージ エクスプローラを使用して、ダウンストリーム依存関係のないアセットを視覚的に特定します。
Lineage エクスプローラで未使用のアセットを特定する
データセットを準備したら、ダウンストリームの依存関係がないアセットを特定します。個々のテーブルに対しては視覚的に行うことができますが、大規模なデータセットに対してはプログラムによるアプローチを使用することもできます。
この例では、アクティブなアセットとスタンドアロンのアセットを比較して、安全に削除できるアセットを特定します。
- Google Cloud コンソールで、[BigQuery] ページに移動します。
- 検索フィールドを使用して、スタンドアロン テーブル(特定の年の古い分析テーブルなど)を見つけます。
- [リネージ] タブをクリックします。
- [リネージ エクスプローラ] ペインで、次の操作を行います。
- [方向] セクションで、[下り] 方向を選択します。
- [適用] をクリックします。
グラフを確認します。ダウンストリーム ノードがない場合、アセットは他の追跡対象の BigQuery ジョブのソースとして使用されていません。データリネージ グラフを使用したデータの可視化の詳細については、リネージグラフ ビューをご覧ください。