O Dataplex Universal Catalog facilita a compreensão e a análise dos seus dados através da criação automática de perfis das suas tabelas do BigQuery.
A criação de perfis é como obter um relatório de saúde detalhado para os seus dados. Fornece-lhe estatísticas importantes, como valores comuns, como os dados estão distribuídos (distribuição) e quantas entradas estão em falta (contagens nulas). Estas informações aceleram a sua análise.
A criação de perfis de dados deteta automaticamente informações confidenciais e permite-lhe definir políticas de controlo de acesso. Recomenda regras de verificação da qualidade dos dados para garantir que os seus dados permanecem fiáveis.
Modelo conceptual
O Dataplex Universal Catalog permite-lhe compreender melhor o perfil dos seus dados através da criação de uma análise de perfil de dados.
O diagrama seguinte mostra como o Dataplex Universal Catalog analisa os dados para criar relatórios sobre as características estatísticas.
Uma análise de perfil de dados está associada a uma tabela do BigQuery e analisa a tabela para gerar os resultados da criação de perfis de dados. Uma análise de perfil de dados suporta várias opções de configuração.
Opções de configuração
Esta secção descreve as opções de configuração disponíveis para executar análises de perfis de dados.
Opções de agendamento
Pode agendar uma análise do perfil de dados com uma frequência definida ou executar a análise a pedido.
Âmbito
Pode especificar o âmbito dos dados a analisar:
Tabela completa: toda a tabela é analisada na análise do perfil de dados. A amostragem, os filtros de linhas e os filtros de colunas são aplicados a toda a tabela antes de calcular as estatísticas de criação de perfis.
Incremental: os dados incrementais que especificar são analisados na análise do perfil de dados. Especifique uma coluna
Date
ouTimestamp
na tabela a usar como um incremento. Normalmente, esta é a coluna na qual a tabela é particionada. A amostragem, os filtros de linhas e os filtros de colunas são aplicados aos dados incrementais antes de calcular as estatísticas de criação de perfis.
Filtre dados
Pode filtrar os dados a serem analisados para a criação de perfis através de filtros de linhas e filtros de colunas. A utilização de filtros ajuda a reduzir o tempo de execução e o custo, e a excluir dados confidenciais e inúteis.
Filtros de linhas: os filtros de linhas permitem-lhe focar-se nos dados num período específico ou de um segmento específico, como a região. Por exemplo, pode filtrar os dados com uma data/hora anterior a uma determinada data.
Filtros de colunas: os filtros de colunas permitem-lhe incluir e excluir colunas específicas da tabela para executar a análise do perfil de dados.
Dados de exemplo
Pode especificar uma percentagem de registos dos seus dados para amostragem para executar uma análise de perfil de dados. A criação de análises de perfis de dados numa amostra de dados mais pequena pode reduzir o tempo de execução e o custo da consulta do conjunto de dados completo.
Várias análises de perfis de dados
Pode criar várias análises de perfis de dados em simultâneo através da Google Cloud consola. Pode selecionar até 100 tabelas de um conjunto de dados e criar uma análise de perfil de dados para cada conjunto de dados. Para mais informações, consulte o artigo Crie várias análises de perfis de dados.
Exporte os resultados da análise para uma tabela do BigQuery
Pode exportar os resultados da análise do perfil de dados para uma tabela do BigQuery para análise adicional. Para personalizar os relatórios, pode associar os dados da tabela do BigQuery a um painel de controlo do Looker. Pode criar um relatório agregado usando a mesma tabela de resultados em várias análises.
Resultados da criação de perfis de dados
Os resultados da análise do perfil de dados incluem os seguintes valores:
Tipo de coluna | Resultados da criação de perfis de dados |
---|---|
Coluna numérica |
|
Coluna de string |
|
Outras colunas não aninhadas (data, hora, data/hora, binário, etc.) |
|
Todas as outras colunas de tipo de dados aninhadas ou complexas (como Record, Array, JSON) ou qualquer coluna com o modo repetido. |
|
Os resultados incluem o número de registos analisados em cada tarefa.
Relatórios e monitorização
Pode monitorizar e analisar os resultados da criação de perfis de dados através dos seguintes relatórios e métodos:
Relatórios publicados com a tabela de origem nas páginas do BigQuery e do catálogo universal do Dataplex
Se configurou uma análise do perfil de dados para publicar os resultados nas páginas do catálogo universal do BigQuery e do Dataplex na consola do Google Cloud, pode ver os resultados mais recentes da análise do perfil de dados nestas páginas, no separador Perfil de dados da tabela de origem, a partir de qualquer projeto.Google Cloud
Relatório histórico por tarefa
Na página Perfil e qualidade dos dados>Análise do perfil de dados no Dataplex Universal Catalog e BigQuery, pode ver os relatórios detalhados das tarefas mais recentes e do histórico. Isto inclui informações do perfil ao nível da coluna e a configuração que foi usada.
Separador Análise
Na página Perfil e qualidade dos dados > Análise do perfil de dados no Dataplex Universal Catalog e no BigQuery, pode usar o separador Análise para ver as tendências de uma determinada estatística de uma coluna em várias tarefas de perfil. Por exemplo, se tiver uma análise incremental, pode ver a tendência da média de um valor ao longo do tempo.
Crie o seu próprio painel de controlo ou estatísticas
Se configurou uma análise de perfil de dados para exportar os resultados para uma tabela do BigQuery, pode criar os seus próprios painéis de controlo com ferramentas como o Looker Studio.
Limitações
- A criação de perfis de dados é suportada para tabelas do BigQuery com todos os tipos de colunas, exceto
BIGNUMERIC
. Uma análise criada para uma tabela com uma colunaBIGNUMERIC
resulta num erro de validação e não é criada com êxito.
Preços
Para mais informações sobre os preços, consulte os preços do Dataplex Universal Catalog.
O que se segue?
- Saiba como usar a criação de perfis de dados.
- Saiba mais sobre a qualidade de dados automática.
- Saiba como usar a qualidade de dados automática.
- Saiba como explorar os seus dados gerando estatísticas de dados.