Visão geral das tarefas de qualidade de dados

As tarefas de qualidade de dados do Knowledge Catalog permitem definir e executar verificações de qualidade de dados em tabelas no BigQuery e no Cloud Storage. As tarefas de qualidade de dados do Knowledge Catalog também permitem aplicar controles de dados regulares em ambientes do BigQuery.

Quando criar tarefas de qualidade de dados do Knowledge Catalog

As tarefas de qualidade de dados do Knowledge Catalog podem ajudar você com o seguinte:

  • Validar os dados como parte de um pipeline de produção de dados.
  • Monitorar rotineiramente a qualidade dos conjuntos de dados em relação às suas expectativas.
  • Criar relatórios de qualidade de dados para atender às exigências regulatórias.

Benefícios

  • Especificações personalizáveis. É possível usar a sintaxe YAML altamente flexível para declarar suas regras de qualidade de dados.
  • Implementação sem servidor. O Knowledge Catalog não precisa de configuração de infraestrutura.
  • Copiar sem cópia e pushdown automático. As verificações YAML são convertidas em SQL e enviadas para o BigQuery, resultando em nenhuma cópia de dados.
  • Verificações de qualidade de dados programáveis. É possível programar verificações de qualidade de dados pelo escalonador sem servidor no Knowledge Catalog ou usar a API Dataplex por escalonadores externos, como o Airflow Gerenciado, para integração de pipeline.
  • Experiência gerenciada. O Knowledge Catalog usa um mecanismo de qualidade de dados de código aberto, CloudDQ, para executar verificações de qualidade de dados. No entanto, o Knowledge Catalog oferece uma experiência gerenciada perfeita para realizar suas verificações de qualidade de dados.

Como as tarefas de qualidade de dados funcionam

O diagrama a seguir mostra como as tarefas de qualidade de dados do Knowledge Catalog funcionam:

imagem

  • Entrada dos usuários
    • Especificação YAML: um conjunto de um ou mais arquivos YAML que definem regras de qualidade de dados com base na sintaxe de especificação. Os arquivos YAML são armazenados em um bucket do Cloud Storage no seu projeto. Os usuários podem executar várias regras simultaneamente, e essas regras podem ser aplicadas a diferentes tabelas do BigQuery incluindo tabelas em diferentes conjuntos de dados ou Google Cloud projetos. A especificação oferece suporte a execuções incrementais apenas para validar novos dados. Para criar uma especificação YAML, consulte Criar um arquivo de especificação.
    • Tabela de resultados do BigQuery: uma tabela especificada pelo usuário em que os resultados da validação de qualidade de dados são armazenados. O Google Cloud projeto em que essa tabela reside pode ser diferente daquele em que a tarefa de qualidade de dados do Knowledge Catalog é usada.
  • Tabelas a serem validadas
    • Na especificação YAML, é necessário especificar quais tabelas você quer validar para quais regras, também conhecidas como vinculação de regra. As tabelas podem ser tabelas nativas do BigQuery ou tabelas externas do BigQuery no Cloud Storage. A especificação YAML permite especificar tabelas dentro ou fora de uma zona do Knowledge Catalog.
    • As tabelas do BigQuery e do Cloud Storage validadas em uma única execução podem pertencer a projetos diferentes.
  • Tarefa de qualidade de dados do Knowledge Catalog: uma tarefa de qualidade de dados do Knowledge Catalog é configurada com um binário PySpark do CloudDQ pré-criado e mantido e usa a especificação YAML e a tabela de resultados do BigQuery como entrada. Semelhante a outras tarefas do Knowledge Catalog, a tarefa de qualidade de dados do Knowledge Catalog é executada em um ambiente Spark sem servidor, converte a especificação YAML em consultas do BigQuery e executa essas consultas nas tabelas definidas no arquivo de especificação.

Preços

Quando você executa tarefas de qualidade de dados do Knowledge Catalog, você é cobrado pelo uso do BigQuery e do Serviço Gerenciado para Apache Spark (Batches).

Não há cobranças pelo uso do Knowledge Catalog para organizar dados ou pelo uso do programador sem servidor no Knowledge Catalog para programar verificações de qualidade de dados. Consulte os preços do Knowledge Catalog.

A seguir