Analisar o impacto das mudanças de dados nos fluxos de trabalho

Nesse cenário, você mantém um banco de dados que armazena registros sobre como vários serviços fornecidos por um prestador de cuidados de saúde são usados. Para facilitar o uso dos dados, navegue pelas tabelas para identificar possíveis mudanças. Antes de implementar as mudanças, identifique se alguma melhoria afeta os fluxos de trabalho atuais e se ajustes adicionais são necessários.

Neste tutorial, use a linhagem de dados para identificar como as transformações de dados afetam os recursos downstream e os fluxos de trabalho de que os recursos fazem parte.

Primeiros passos

Para concluir o caso de uso, primeiro configure o ambiente e execute as transformações de dados. Use a página de pré-requisitos e configuração para conectar um repositório remoto ao Dataform. Esse repositório contém o código necessário para configurar o conjunto de dados e transformar os dados.

Depois de concluir a configuração do ambiente, use o BigQuery e o Lineage Explorer para acompanhar as transformações de dados e o efeito delas nos fluxos de trabalho.

Analisar transformações de dados com o Lineage Explorer

Depois de preparar o conjunto de dados, analise o impacto da transformação de dados usando a guia Linhagem do BigQuery.

Verificar a integridade dos dados

Neste exemplo, examine a coluna medicare_participation_indicator, que indica se um médico ou fornecedor concorda em prestar serviços para o Medicare. O gráfico de linhagem mostra como as transformações de dados entre as tabelas derivadas resultam em mudanças no tipo de dados da coluna:

  1. No Google Cloud console, acesse a página BigQuery.
  2. Use o campo de pesquisa para encontrar a tabela physicians_and_other_supplier_2012_original.
  3. Clique na guia Linhagem.
  4. No painel Lineage Explorer, faça o seguinte:
    1. Na seção Linhagem no nível da coluna, selecione o nome da coluna medicare_participation_indicator na lista.
    2. Na seção Direção, selecione a direção Downstream.
    3. Clique em Aplicar.
  5. Expanda o caminho de linhagem até chegar a vertex_ai_model_final_features.
  6. Analise as mudanças de caminho entre a tabela supplier_stg3 e a tabela supplier_transform1:

    Rastreamento de linhagem para a coluna "medicare_participation_indicator"
    Visualização de rastreamento de linhagem para a coluna medicare_participation_indicator
    • A marcação de caminho Cópia exata indica que a coluna está passando sem alterações.
    • A marcação de caminho Outro indica uma transformação. Nesse caminho, o tipo de dados String é tratado como Boolean.

O caminho mostra que os tipos de dados da coluna mudam, o que pode exigir ajustes nos fluxos de trabalho que usam essas tabelas.

Identificar colunas redundantes

Este exemplo examina a coluna nppes_credentials, que lista os identificadores nacionais de provedores que os profissionais têm no Sistema Nacional de Enumeração de Planos e Provedores (NPPES, na sigla em inglês):

  1. No Google Cloud console, acesse a página BigQuery.
  2. Use o campo de pesquisa para encontrar a tabela physicians_and_other_supplier_2012_original.
  3. Clique na guia Linhagem.
  4. No painel Lineage Explorer, faça o seguinte:
    1. Na seção Linhagem no nível da coluna, selecione o nome da coluna nppes_credentials na lista.
    2. Na seção Direção, selecione a direção Downstream.
    3. Clique em Aplicar.
  5. Expanda o caminho para verificar se existe uma linhagem downstream que leva a vertex_ai_model_final_features.

Nenhuma linhagem significa que essa coluna pode não ser relevante nesse fluxo de trabalho específico e pode até ser excluída.

Para mais informações sobre como visualizar dados com o gráfico de linhagem de dados, consulte Visualização do gráfico de linhagem.