Usar a linhagem de dados para otimizar custos

Neste cenário, você gerencia um projeto do BigQuery com conjuntos de dados derivados do Censo Trimestral de Emprego e Salários (QCEW, na sigla em inglês). O projeto contém várias tabelas e visualizações para diversos painéis e análises, como o acompanhamento de tendências de emprego ou comparações salariais. Como resultado, os custos de armazenamento aumentam. Para reduzir os custos, identifique tabelas ou visualizações que não são usadas ativamente como fontes de jobs ou recursos no BigQuery, tornando-as candidatas à exclusão.

Use a linhagem de dados para identificar recursos que não estão sendo usados como fonte por outros jobs do BigQuery. Ao verificar cada recurso em busca de links downstream, marque sistematicamente os recursos não utilizados para exclusão e reduza os custos de armazenamento.

Primeiros passos

Para concluir o caso de uso, primeiro configure o ambiente e execute as transformações de dados. Use a página de pré-requisitos e configuração para conectar um repositório remoto ao Dataform. Esse repositório contém o código necessário para configurar o conjunto de dados e transformar os dados.

Depois de concluir a configuração do ambiente, use o BigQuery e o Lineage Explorer para identificar visualmente os recursos sem dependências downstream.

Identificar recursos não utilizados com o Lineage Explorer

Depois que o conjunto de dados for preparado, identifique os recursos que não têm dependências downstream. Embora seja possível fazer isso visualmente para tabelas individuais, também é possível usar uma abordagem programática para conjuntos de dados maiores.

Neste exemplo, compare os recursos ativos com os recursos independentes para determinar quais podem ser removidos com segurança:

  1. No Google Cloud console, acesse a página BigQuery.
  2. Use o campo de pesquisa para encontrar uma tabela independente (por exemplo, uma tabela de análise antiga de um ano específico).
  3. Clique na guia Linhagem.
  4. No painel Lineage Explorer, faça o seguinte:
    1. Na seção Direção, selecione a direção Downstream.
    2. Clique em Aplicar.

Observe o gráfico. Se não houver nós downstream, o recurso não será usado como fonte para outros jobs rastreados do BigQuery. Para mais informações sobre como visualizar dados com o gráfico de linhagem de dados, consulte Visualização do gráfico de linhagem.