Nesse cenário, você mantém um banco de dados que armazena registros sobre como vários serviços fornecidos por um prestador de cuidados de saúde são usados. Para facilitar o uso dos dados, navegue pelas tabelas para identificar possíveis mudanças. Antes de implementar as mudanças, identifique se alguma melhoria afeta os fluxos de trabalho atuais e se ajustes adicionais são necessários.
Neste tutorial, use a linhagem de dados para identificar como as transformações de dados afetam os recursos downstream e os fluxos de trabalho de que os recursos fazem parte.
Primeiros passos
Para concluir o caso de uso, primeiro configure o ambiente e execute as transformações de dados. Use a página de pré-requisitos e configuração para conectar um repositório remoto ao Dataform. Esse repositório contém o código necessário para configurar o conjunto de dados e transformar os dados.
Depois de concluir a configuração do ambiente, use o BigQuery e o Lineage Explorer para acompanhar as transformações de dados e o efeito delas nos fluxos de trabalho.
Analisar transformações de dados com o Lineage Explorer
Depois de preparar o conjunto de dados, analise o impacto da transformação de dados usando a guia Linhagem do BigQuery.
Verificar a integridade dos dados
Neste exemplo, examine a coluna medicare_participation_indicator, que indica se um médico ou fornecedor concorda em prestar serviços para o Medicare. O gráfico de linhagem mostra como as transformações de dados entre as tabelas derivadas resultam em mudanças no tipo de dados da coluna:
- No Google Cloud console, acesse a página BigQuery.
- Use o campo de pesquisa para encontrar a tabela
physicians_and_other_supplier_2012_original. - Clique na guia Linhagem.
- No painel Lineage Explorer, faça o seguinte:
- Na seção Linhagem no nível da coluna, selecione o nome da coluna
medicare_participation_indicatorna lista. - Na seção Direção, selecione a direção Downstream.
- Clique em Aplicar.
- Na seção Linhagem no nível da coluna, selecione o nome da coluna
- Expanda o caminho de linhagem até chegar a
vertex_ai_model_final_features. Analise as mudanças de caminho entre a tabela
supplier_stg3e a tabelasupplier_transform1:
Visualização de rastreamento de linhagem para a coluna medicare_participation_indicator- A marcação de caminho Cópia exata indica que a coluna está passando sem alterações.
- A marcação de caminho Outro indica uma transformação. Nesse caminho, o tipo de dados
Stringé tratado comoBoolean.
O caminho mostra que os tipos de dados da coluna mudam, o que pode exigir ajustes nos fluxos de trabalho que usam essas tabelas.
Identificar colunas redundantes
Este exemplo examina a coluna nppes_credentials, que lista os identificadores nacionais de provedores que os profissionais têm no Sistema Nacional de Enumeração de Planos e Provedores (NPPES, na sigla em inglês):
- No Google Cloud console, acesse a página BigQuery.
- Use o campo de pesquisa para encontrar a tabela
physicians_and_other_supplier_2012_original. - Clique na guia Linhagem.
- No painel Lineage Explorer, faça o seguinte:
- Na seção Linhagem no nível da coluna, selecione o nome da coluna
nppes_credentialsna lista. - Na seção Direção, selecione a direção Downstream.
- Clique em Aplicar.
- Na seção Linhagem no nível da coluna, selecione o nome da coluna
- Expanda o caminho para verificar se existe uma linhagem downstream que leva a
vertex_ai_model_final_features.
Nenhuma linhagem significa que essa coluna pode não ser relevante nesse fluxo de trabalho específico e pode até ser excluída.
Para mais informações sobre como visualizar dados com o gráfico de linhagem de dados, consulte Visualização do gráfico de linhagem.