使用数据沿袭优化费用

在此方案中,您管理着一个 BigQuery 项目,其中包含从就业和工资季度普查 (QCEW) 中派生的数据集。该项目包含许多用于各种信息中心和分析的表和视图,例如跟踪就业趋势或工资比较。因此,您的存储费用会增加。为了降低费用,您可以找出未被积极用作 BigQuery 中作业或资产来源的表或视图,以便将其作为删除候选对象。

使用数据沿袭来识别未被任何其他 BigQuery 作业用作来源的资产。通过检查每个资产的下游链接,系统地标记未使用的资源以供删除,从而降低存储费用。

开始使用

若要完成此使用情形,请先设置环境并运行数据转换。使用前提条件和设置页面将远程代码库连接到 Dataform。此代码库包含设置数据集和转换数据所需的代码。

完成环境设置后,使用 BigQuery 和 Lineage Explorer 以直观方式识别没有下游依赖项的资产。

使用沿袭浏览器识别未使用的资产

准备好数据集后,确定缺少下游依赖项的资产。虽然您可以直观地为单个表格执行此操作,但也可以使用程序化方法来处理较大型的数据集。

在此示例中,请将有效素材资源与独立素材资源进行比较,以确定哪些可以安全移除:

  1. 在 Google Cloud 控制台中,前往 BigQuery 页面:
  2. 使用搜索字段查找独立表(例如,特定年份的旧分析表)。
  3. 点击沿袭标签页。
  4. 谱系探索器窗格中,执行以下操作:
    1. 方向部分中,选择下游方向。
    2. 点击应用

观察图表。如果没有下游节点,则表示相应资产未用作其他跟踪的 BigQuery 作业的来源。如需详细了解如何使用数据沿袭图直观呈现数据,请参阅沿袭图视图