Usa el linaje de datos para optimizar los costos

En esta situación, administras un proyecto de BigQuery con conjuntos de datos derivados del Censo trimestral de empleo y salarios (QCEW). El proyecto contiene numerosas tablas y vistas para varios paneles y análisis, como el seguimiento de las tendencias de empleo o las comparaciones de salarios. Como resultado, aumentan tus costos de almacenamiento. Para reducir los costos, identifica las tablas o vistas que no se usan de forma activa como fuentes para trabajos o recursos dentro de BigQuery, lo que las convierte en candidatas para su eliminación.

Usa el linaje de datos para identificar los recursos que no se usan como fuente en ningún otro trabajo de BigQuery. Verifica cada recurso en busca de vínculos descendentes y, luego, marca sistemáticamente los recursos que no se usen para borrarlos y reducir los costos de almacenamiento.

Comenzar

Para completar el caso de uso, primero configura el entorno y ejecuta las transformaciones de datos. Usa la página requisitos previos y configuración para conectar un repositorio remoto a Dataform. Este repositorio contiene el código necesario para configurar el conjunto de datos y transformar los datos.

Después de completar la configuración del entorno, usa BigQuery y el Explorador de linaje para identificar visualmente los activos sin dependencias posteriores.

Identifica los recursos sin usar con el Explorador de linaje

Después de preparar el conjunto de datos, identifica los recursos que no tienen dependencias posteriores. Si bien puedes hacerlo visualmente para tablas individuales, también puedes usar un enfoque programático para conjuntos de datos más grandes.

En este ejemplo, compara los recursos activos con los independientes para determinar cuáles se pueden quitar de forma segura:

  1. En la consola de Google Cloud , ve a la página BigQuery.
  2. Usa el campo de búsqueda para encontrar una tabla independiente (por ejemplo, una tabla de análisis antigua de un año específico).
  3. Haz clic en la pestaña Linaje.
  4. En el panel Explorador de linaje, haz lo siguiente:
    1. En la sección Dirección, selecciona la dirección Descendente.
    2. Haz clic en Aplicar.

Observa el gráfico. Si no hay nodos posteriores, el activo no se usa como fuente para otros trabajos de BigQuery rastreados. Para obtener más información sobre cómo visualizar datos con el gráfico de linaje de datos, consulta Vista del gráfico de linaje.