Sobre a criação de perfil de dados

O Dataplex Universal Catalog facilita a compreensão e a análise dos dados, criando automaticamente o perfil das tabelas do BigQuery.

A criação de perfil é como receber um relatório de integridade detalhado dos dados. Ela fornece estatísticas importantes, como valores comuns, como os dados são distribuídos (distribuição) e quantas entradas estão ausentes (contagens nulas). Essas informações aceleram a análise.

A criação de perfil de dados detecta automaticamente informações sensíveis e permite definir políticas de controle de acesso. Ela recomenda regras de verificação de qualidade de dados para garantir que os dados permaneçam confiáveis.

Modelo conceitual

O Dataplex Universal Catalog permite entender melhor o perfil dos dados criando uma verificação do perfil de dados. Uma verificação do perfil de dados é um tipo de verificação de dados do Dataplex Universal Catalog que analisa uma tabela do BigQuery para gerar insights estatísticos.

O diagrama a seguir mostra como o Dataplex Universal Catalog verifica os dados para gerar relatórios sobre características estatísticas.

Uma verificação do perfil de dados analisa os dados da tabela para gerar um relatório sobre as características estatísticas.

Uma verificação do perfil de dados está associada a uma tabela do BigQuery e verifica a tabela para gerar os resultados do perfil dos dados. Uma verificação de perfil de dados oferece suporte a várias opções de configuração.

Opções de configuração

Esta seção descreve as opções de configuração disponíveis para executar verificações de perfil de dados.

Modos de criação de perfil

É possível escolher entre os seguintes modos de criação de perfil:

  • Padrão: esse é o modo padrão. Ele fornece um perfil abrangente e personalizável, verificando os dados com base na amostragem e nos filtros especificados. O modo padrão é adequado para análises detalhadas e monitoramento de longo prazo das características dos dados.

  • Leve (visualização): esse modo fornece verificações de perfil de baixa latência que retornam resultados em segundos. Ele é otimizado para velocidade e custo-benefício para oferecer suporte a casos de uso como os seguintes:

    • Embasamento das respostas do agente de IA com características de dados imediatas
    • Pré-gerar perfis de maneira econômica em escala para descoberta global de dados
    • Fornecer relatórios de integridade rápidos durante a análise de dados interativa

    O modo leve tem as seguintes limitações:

    • Ao contrário do modo de criação de perfil padrão, não é possível modificar o escopo, os filtros ou o tamanho da amostragem em verificações leves.
    • Ele não oferece suporte a visualizações do BigQuery e tabelas externas.

Opções de programação

É possível programar uma verificação do perfil de dados com uma frequência definida ou executar a verificação sob demanda.

Identidade de execução

Por padrão, o Dataplex Universal Catalog usa um agente de serviço centralizado (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) para executar verificações de perfil de dados.

Também é possível substituir essa identidade de execução padrão especificando uma conta de serviço personalizada (traga sua própria conta de serviço) ou usando suas próprias credenciais de usuário final (EUC, na sigla em inglês). Isso oferece vários benefícios:

  • Princípio do privilégio mínimo:conceda apenas as permissões exatas do IAM necessárias para tarefas específicas de criação de perfil de dados a uma conta de serviço dedicada, minimizando o acesso superprovisionado.
  • Controle de acesso refinado:escopo de permissões para recursos específicos, permitindo a integração com políticas de acesso no nível da linha e da coluna no BigQuery.
  • Auditoria aprimorada:atribua contas de serviço personalizadas ou credenciais de usuário a verificações específicas, tornando o rastreamento e o registro de atividades muito mais claros nos registros de auditoria.
  • Unificação de faturamento:ao usar uma identidade de execução personalizada, os custos de processamento e armazenamento são centralizados diretamente no BigQuery (ignorando as SKUs Premium do Dataplex Universal Catalog). Isso permite aproveitar os descontos corporativos e os compromissos de slot do BigQuery.

Para instruções sobre como configurar uma identidade de execução personalizada, consulte Configurar a identidade de execução.

Escopo

Para verificações de criação de perfil padrão, é possível especificar o escopo dos dados a serem verificados:

  • Tabela completa: toda a tabela é verificada na verificação do perfil de dados. A amostragem, os filtros de linha e os filtros de coluna são aplicados a toda a tabela antes de calcular as estatísticas de criação de perfil.

  • Incremental: os dados incrementais especificados são verificados na verificação de perfil de dados. Especifique uma coluna Date ou Timestamp na tabela a ser usada como um incremento. Normalmente, essa é a coluna em que a tabela está particionada. A amostragem, os filtros de linha e os filtros de coluna são aplicados aos dados incrementais antes de calcular as estatísticas de criação de perfil.

Filtrar dados

Para verificações de criação de perfil padrão, é possível filtrar os dados a serem verificados para criação de perfil usando filtros de linha e de coluna. O uso de filtros ajuda a reduzir o tempo de execução e o custo, além de excluir dados sensíveis e inúteis. As verificações de criação de perfil leves não oferecem suporte a filtros de coluna e de linha.

  • Filtros de linha: os filtros de linha permitem focar nos dados dentro de um período específico ou de um segmento específico, como uma região. Por exemplo, é possível filtrar dados com um carimbo de data/hora anterior a uma determinada data.

  • Filtros de coluna: os filtros de coluna permitem incluir e excluir colunas específicas da tabela para executar a verificação do perfil de dados.

Dados de amostra

Para verificações de criação de perfil padrão, é possível especificar uma porcentagem de registros dos dados para amostragem na execução de uma verificação do perfil de dados. A criação de verificações de perfil de dados em uma amostra menor de dados pode reduzir o tempo de execução e o custo da consulta de todo o conjunto de dados.

Várias verificações do perfil de dados

É possível criar várias verificações de perfil de dados de uma só vez usando o Google Cloud console. É possível selecionar até 100 tabelas de um conjunto de dados e criar uma verificação do perfil de dados para cada conjunto. Para mais informações, consulte Criar várias verificações de perfil de dados.

Exportar os resultados da verificação para uma tabela do BigQuery

É possível exportar os resultados da verificação do perfil de dados para uma tabela do BigQuery para análise mais detalhada. Para personalizar os relatórios, é possível conectar os dados da tabela do BigQuery a um painel do Looker. É possível criar um relatório agregado usando a mesma tabela de resultados em várias verificações.

Resultados da criação de perfil de dados

Os resultados da criação de perfil de dados incluem os seguintes valores:

Tipo de coluna Resultados da criação de perfil de dados
Coluna numérica
  • Porcentagem de valores nulos.
  • Porcentagem de valores únicos (distintos) aproximados.
  • Os 10 valores mais comuns na coluna. Pode ser menor que 10 se o número de valores únicos na coluna for menor que 10 (valores nulos não estão incluídos). Para cada um desses valores mais comuns, a porcentagem de ocorrência nos dados verificados na verificação atual é exibida.
  • Valores médios, desvio padrão, mínimo, quartil inferior aproximado, mediana aproximada, quartil superior aproximado e máximo.
Coluna de string
  • Porcentagem de valores nulos.
  • Porcentagem de valores únicos (distintos) aproximados.
  • Os 10 valores mais comuns na coluna, que podem ser menores que 10 se o número de valores únicos na coluna for menor que 10.
  • Comprimento médio, mínimo e máximo da string.
Outras colunas não aninhadas (data, hora, carimbo de data/hora, binário etc.)
  • Porcentagem de valores nulos.
  • Porcentagem de valores únicos (distintos) aproximados.
  • Os 10 valores mais comuns na coluna, que podem ser menores que 10 se o número de valores únicos na coluna for menor que 10.
Todas as outras colunas aninhadas ou de tipo de dados complexo (como registro, matriz, JSON) ou qualquer coluna com repetido modo.
  • Porcentagem de valores nulos.

Os resultados incluem o número de registros verificados em cada job.

Relatórios e monitoramento

É possível monitorar e analisar os resultados da criação de perfil de dados usando os seguintes relatórios e métodos:

  • Relatórios publicados com a tabela de origem nas páginas do BigQuery e do Dataplex Universal Catalog

    Se você configurar uma verificação do perfil de dados para publicar os resultados no BigQuery e no Dataplex Universal Catalog, poderá conferir os resultados mais recentes da verificação do perfil de dados na guia Perfil de dados da tabela de origem no BigQuery e no Dataplex Universal Catalog. Esses resultados podem ser acessados de qualquer projeto.

    Relatórios publicados.

  • Relatório histórico por job

    Na página Criação de perfil e qualidade de dados > Verificação do perfil de dados no Dataplex Universal Catalog e no BigQuery, é possível conferir os relatórios detalhados dos jobs mais recentes e históricos. Isso inclui informações de perfil no nível da coluna e a configuração usada.

    Relatório histórico por job.

  • Guia "Análise"

    Na página Qualidade e criação do perfil de dados > Verificação do perfil de dados no Dataplex Universal Catalog e no BigQuery, é possível usar a guia Análise para conferir as tendências de uma determinada estatística de uma coluna em vários jobs de perfil. Por exemplo, se você tiver uma verificação incremental, poderá conferir como a média de um valor tem apresentado tendência ao longo do tempo.

    Guia "Análise".

  • Crie seu próprio painel ou análise

    Se você configurou uma verificação do perfil de dados para exportar resultados para uma tabela do BigQuery, poderá criar seus próprios painéis usando ferramentas como o Looker Studio.

Limitações

  • A criação de perfil de dados é compatível com tabelas do BigQuery com todos os tipos de coluna, exceto BIGNUMERIC. Uma verificação criada para uma tabela com uma coluna BIGNUMERIC resulta em um erro de validação e não é criada.

Preços

Para mais informações sobre preços, consulte Preços do Dataplex Universal Catalog.

A seguir