A partir de 10 de abril de 2026, o Dataplex Universal Catalog será chamado de Knowledge Catalog. Os nomes da API, da biblioteca de cliente, da CLI e do IAM permanecem inalterados. Para mais informações, consulte Apresentação do Knowledge Catalog do Google Cloud.

O Google usa tecnologia de IA na tradução de conteúdos para seu idioma de preferência. As traduções com IA podem ter erros.

Visão geral da qualidade de dados automática

Com o Knowledge Catalog (antigo Dataplex Universal Catalog), é possível definir e medir a qualidade dos dados nas tabelas do BigQuery e do catálogo REST do Iceberg. É possível automatizar a verificação de dados, validar os dados em relação às regras definidas e registrar alertas se eles não atenderem aos requisitos de qualidade. Com a qualidade de dados automática, é possível gerenciar regras e implantações de qualidade de dados como código, melhorando a integridade dos pipelines de produção de dados.

Para verificar se há anomalias nos dados, consulte Verificação do perfil de dados do Knowledge Catalog. A verificação pode gerar regras de qualidade de dados. Você também pode usar regras de qualidade integradas ou criar regras personalizadas.

O Knowledge Catalog oferece monitoramento, solução de problemas e alertas do Cloud Logging integrados à qualidade de dados automática.

Modelo conceitual

Uma verificação de qualidade de dados aplica regras de qualidade aos dados da tabela para gerar resultados.

Uma verificação de qualidade de dados é um tipo de verificação de dados do Knowledge Catalog que valida seus dados em relação a um conjunto de regras integradas. Uma verificação de dados é um job do Knowledge Catalog que coleta amostras de dados do BigQuery e do Cloud Storage (usando tabelas externas do BigQuery) e infere vários tipos de metadados. Para medir a qualidade de uma tabela usando a qualidade de dados automática, crie um objeto DataScan do tipo data quality. A verificação é executada em apenas uma tabela do BigQuery. A verificação usa recursos em um projeto de locatário do Google, então você não precisa configurar sua própria infraestrutura.

A criação e o uso de uma verificação de qualidade de dados consistem nas seguintes etapas:

Definir regras de qualidade de dados
Configurar a execução de regras
Analisar os resultados da verificação de qualidade de dados
Configurar o monitoramento e os alertas
Resolver falhas na qualidade de dados

Definição da regra

As regras de qualidade de dados associadas a uma verificação definem expectativas de dados. É possível criar regras de qualidade de dados das seguintes maneiras:

Usar recomendações da criação de perfil de dados do Knowledge Catalog
Usar as regras integradas ou os modelos de regra do sistema
Criar regras SQL personalizadas
Reutilizar regras de qualidade de dados

Regras integradas

O Knowledge Catalog é compatível com as seguintes categorias de regras integradas:

No nível da linha

Para regras de categoria no nível da linha, a expectativa é aplicada a cada linha de dados. Cada linha passa ou falha na condição de forma independente. Por exemplo, column_A_value < 1

As verificações no nível da linha exigem que você especifique um limite de aprovação. Quando a porcentagem de linhas que passam na regra fica abaixo do valor limite, a regra falha.

Agregar

Para regras agregadas, a expectativa é aplicada a um único valor agregado em todos os dados. Por exemplo, Avg(someCol) >= 10. Para ser aprovada, a verificação precisa ser avaliada como o booleano true. As regras de agregação não fornecem uma contagem independente de aprovação ou reprovação para cada linha.

Para as duas categorias de regras, é possível definir os seguintes parâmetros:

A coluna a que a regra se aplica
Uma dimensão

A tabela a seguir lista os tipos de regras agregadas e no nível da linha compatíveis:

Tipo de regra (nome no console Google Cloud )	Regra de nível de linha ou de agregação	Descrição	Tipos de colunas compatíveis	Parâmetros específicos da regra
`RangeExpectation` (Verificação de intervalo)	No nível da linha	Verifica se o valor está entre o mínimo e o máximo.	Todas as colunas numéricas, de data e de carimbo de data/hora.	Obrigatório: Porcentagem mínima de aprovação Valores `min` ou `max`: especifique pelo menos um valor. Opcional: Ativar `strict min`: se ativada, a verificação de regra usa ">" em vez de ">=". Ativar `strict max`: se ativada, a verificação de regra usa "<" em vez de "<=". Ative `ignore null`: se ativado, os valores nulos serão ignorados na verificação da regra.
`NonNullExpectation` (Verificação de valores nulos)	No nível da linha	Valide se os valores da coluna não são NULL.	Todos os tipos de coluna compatíveis.	Obrigatório: Porcentagem mínima de acertos para aprovação.
`SetExpectation` (Definir verificação)	No nível da linha	Verifique se os valores em uma coluna são um dos valores especificados em um conjunto.	Todos os tipos de colunas compatíveis, exceto `Record` e `Struct`.	Obrigatório: Conjunto de valores de string a serem verificados. Porcentagem mínima de acertos para aprovação. Opcional: Ative `ignore null`: se ativado, os valores nulos serão ignorados na verificação da regra.
`RegexExpectation` (Verificação de expressão regular)	No nível da linha	Verifique os valores em relação a uma expressão regular especificada.	String	Obrigatório: Padrão de expressão regular usado para verificação. Porcentagem mínima de acertos para aprovação. Observação: o GoogleSQL oferece suporte a expressões regulares usando a biblioteca re2. Consulte essa documentação para conferir a sintaxe de expressão regular. Opcional: Ative `ignore null`: se ativado, os valores nulos serão ignorados na verificação da regra.
`Uniqueness` (Verificação de exclusividade)	Agregar	Verifique se todos os valores em uma coluna são exclusivos.	Todos os tipos de colunas compatíveis, exceto `Record` e `Struct`.	Obrigatório: Coluna e dimensão dos parâmetros compatíveis. Opcional: Ative `ignore null`: se ativado, os valores nulos serão ignorados na verificação da regra.
`StatisticRangeExpectation` (Verificação de estatísticas)	Agregar	Verifica se a medida estatística fornecida corresponde à expectativa de intervalo.	Todos os tipos de colunas numéricas compatíveis.	Obrigatório: Valores `mean`, `min` ou `max`: especifique pelo menos um valor. Opcional: Ativar `strict min`: se ativada, a verificação de regra usa ">" em vez de ">=". Ativar `strict max`: se ativada, a verificação de regra usa "<" em vez de "<=".

Tipos de regras SQL personalizadas compatíveis

As regras de SQL oferecem flexibilidade para expandir a validação com lógica personalizada. Essas regras são dos seguintes tipos.

Tipo de regra Regra de nível de linha ou de agregação Descrição Tipos de colunas compatíveis Parâmetros específicos da regra Exemplo

Condição da linha

No nível da linha

Tipo de regra	Regra de nível de linha ou de agregação	Descrição	Tipos de colunas compatíveis	Parâmetros específicos da regra	Exemplo
Condição da linha	No nível da linha	Especifique uma expectativa para cada linha definindo uma expressão SQL em uma cláusula `WHERE`. A expressão SQL precisa ser avaliada como `true` (aprovação) ou `false` (reprovação) por linha. O Knowledge Catalog calcula a porcentagem de linhas que atendem a essa expectativa e compara esse valor com a porcentagem de limite de aprovação para determinar o sucesso ou a falha da regra. A expressão pode incluir uma referência a outra tabela, por exemplo, para criar verificações de integridade referencial.	Todas as colunas	Obrigatório: Condição SQL a ser usada Porcentagem mínima de aprovação Dimensão Opcional: Coluna a ser associada a esta regra.	`grossWeight` <= `netWeight`
Condição de tabela (expressão SQL de agregação)	Agregar	Essas regras são executadas uma vez por tabela. Use uma expressão SQL que seja avaliada como booleana `true` (aprovação) ou `false` (reprovação). A expressão SQL pode incluir uma referência a outra tabela usando subconsultas de expressão.	Todas as colunas	Obrigatório: Condição SQL a ser usada Dimensão Opcional: Coluna a ser associada a esta regra	Exemplo de agregação simples: `avg(price) > 100` Usar uma subconsulta de expressão para comparar valores em uma tabela diferente: (SELECT COUNT() FROM `example_project.example_dataset.different-table`) < COUNT()
Declaração SQL	Agregar	Uma regra de declaração usa uma consulta de qualidade de dados para encontrar linhas que não atendem a uma ou mais condições especificadas na consulta. Informe uma instrução SQL que seja avaliada para retornar as linhas que correspondem ao estado inválido. Se a consulta retornar linhas, a regra vai falhar. Omita o ponto e vírgula final da instrução SQL. A instrução SQL pode incluir uma referência a outra tabela usando subconsultas de expressão.	Todas as colunas	Obrigatório: Instrução SQL para verificar o estado inválido Dimensão Opcional: Coluna a ser associada a esta regra.	Exemplo de agregação simples para garantir que `discount_pct` não seja maior que 100: `SELECT * FROM example_project.example_dataset.table WHERE discount_pct > 100` Usando uma subconsulta de expressão para comparar valores em uma tabela diferente: SELECT * FROM `example_project.example_dataset.different-table` WHERE gross_weight > (SELECT avg(gross_weight) FROM `example_project.example_dataset.different-table`)

Especifique uma expectativa para cada linha definindo uma expressão SQL em uma cláusula WHERE. A expressão SQL precisa ser avaliada como true (aprovação) ou false (reprovação) por linha.

O Knowledge Catalog calcula a porcentagem de linhas que atendem a essa expectativa e compara esse valor com a porcentagem de limite de aprovação para determinar o sucesso ou a falha da regra.

A expressão pode incluir uma referência a outra tabela, por exemplo, para criar verificações de integridade referencial.

Todas as colunas

Obrigatório:

Condição SQL a ser usada
Porcentagem mínima de aprovação
Dimensão

Opcional:

Coluna a ser associada a esta regra.

grossWeight <= netWeight

Condição de tabela
(expressão SQL de agregação)

Agregar

Essas regras são executadas uma vez por tabela. Use uma expressão SQL que seja avaliada como booleana true (aprovação) ou false (reprovação).

A expressão SQL pode incluir uma referência a outra tabela usando subconsultas de expressão.

Todas as colunas

Obrigatório:

Condição SQL a ser usada
Dimensão

Opcional:

Coluna a ser associada a esta regra

Exemplo de agregação simples:
avg(price) > 100
Usar uma subconsulta de expressão para comparar valores em uma tabela diferente:
(SELECT COUNT(*) FROM `example_project.example_dataset.different-table`) < COUNT(*)

Declaração SQL

Agregar

Uma regra de declaração usa uma consulta de qualidade de dados para encontrar linhas que não atendem a uma ou mais condições especificadas na consulta. Informe uma instrução SQL que seja avaliada para retornar as linhas que correspondem ao estado inválido. Se a consulta retornar linhas, a regra vai falhar.

Omita o ponto e vírgula final da instrução SQL. A instrução SQL pode incluir uma referência a outra tabela usando subconsultas de expressão.

Todas as colunas

Obrigatório:

Instrução SQL para verificar o estado inválido
Dimensão

Opcional:

Coluna a ser associada a esta regra.

Exemplo de agregação simples para garantir que discount_pct não seja maior que 100:
SELECT * FROM example_project.example_dataset.table WHERE discount_pct > 100

Usando uma subconsulta de expressão para comparar valores em uma tabela diferente:

SELECT * FROM `example_project.example_dataset.different-table` WHERE gross_weight > (SELECT avg(gross_weight) FROM `example_project.example_dataset.different-table`)

Para exemplos de regras, consulte regras de exemplo de qualidade de dados automática.

Para ver as funções SQL compatíveis, consulte a referência do GoogleSQL.

Reutilizar regras de qualidade de dados

É possível reutilizar as regras de qualidade de dados do Knowledge Catalog para compartilhar definições de regras de negócios complexas ou padronizadas em várias regras de qualidade de dados usando modelos de regras. Por exemplo, é possível criar um modelo de regra para validação de e-mail ou de chave externa entre duas tabelas e reutilizar esses modelos em todas as verificações de dados.

A reutilização de regras oferece os seguintes recursos principais:

Modelos de regras de qualidade de dados: crie modelos de regras personalizados para armazenar definições de regras de negócios complexas ou padronizadas que podem ser compartilhadas em várias regras de qualidade de dados. Crie uma entrada data-quality-rule-template e adicione um aspecto data-quality-rule-template a ela para definir a lógica do modelo.
Regras de dados como metadados: declare regras de qualidade de dados como aspectos no Knowledge Catalog em entradas como tabelas do BigQuery ou termos do glossário empresarial. Use o tipo de aspecto data-rules para anexar essas regras às entradas.
Modelos de regras do sistema: use modelos de regras do sistema para regras usadas com frequência.

Para mais informações, consulte Reutilizar regras de qualidade de dados.

Dimensões

Com as dimensões, é possível agregar os resultados de várias regras de qualidade de dados para monitoramento e alertas. Você precisa associar cada regra de qualidade de dados a uma dimensão. O Knowledge Catalog oferece as seguintes dimensões:

Atualização: A atualização mede quando os dados foram atualizados pela última vez. Com essas informações, você pode determinar se os dados são recentes o suficiente para serem úteis.
Volume: O volume mede se todos os dados esperados estão presentes.
Integridade: A integridade avalia se os dados contêm todas as informações necessárias para a finalidade pretendida.
Validade: A validade avalia se os dados estão em conformidade com os padrões integrados de formato, intervalos aceitáveis ou outros critérios. Por exemplo, se uma data válida precisar ter o formato YYYY/mm/dd, então 08-12-2019 é um dado inválido. Por exemplo, se um preço promocional válido para um item estiver entre US $10 e US $20, um preço promocional de US $100 será um dado inválido.
Consistência: A consistência se refere a ter os mesmos valores para dados em várias instâncias, como tabelas e colunas. A inconsistência nos dados surge quando, por exemplo, a receita de um produto é diferente quando lida em um banco de dados de vendas ou de uso.
Precisão: A acurácia reflete a correção dos dados. Dados válidos não são necessariamente precisos. Por exemplo, uma cor de cabelo válida pode ser castanho, mas se uma pessoa não tem cabelo castanho, isso é um dado impreciso.
Exclusividade: A exclusividade mede se os dados são distintos e não têm duplicidades.

Entrada por digitação em regras

Todos os parâmetros de valor são transmitidos como valores de string para a API. O Knowledge Catalog exige que as entradas sigam o formato especificado do BigQuery.

Parâmetros de tipo binário podem ser transmitidos como uma string codificada em base64.

Tipo	Formatos compatíveis	Exemplos
Binário	Valor codificado em Base64	YXBwbGU=
Carimbo de data/hora	AAAA-[M]M-[D]D[( \|T)[H]H:[M]M:[S]S[.F]] [time_zone] OU AAAA-[M]M-[D]D[( \|T)[H]H:[M]M:[S]S[.F]][time_zone_offset]	2014-09-27 12:30:00.45-08
Data	AAAA-M[M]-D[D]	2014-09-27
Hora	[H]H:[M]M:[S]S[.DDDDDD]	12:30:00.45
DateTime	YYYY-[M]M-[D]D [[H]H:[M]M:[S]S[.DDDDDD]]	2014-09-27 12:30:00.45

Parâmetro de referência de dados

Ao criar uma regra SQL personalizada, é possível se referir a uma tabela de fonte de dados e a todos os filtros de pré-condição dela usando o parâmetro de referência de dados ${data()} na regra, em vez de mencionar explicitamente a tabela de origem e os filtros dela. O Knowledge Catalog interpreta o parâmetro como uma referência à tabela de origem e aos filtros dela. Exemplos de filtros de pré-condição incluem filtros de linha, porcentagens de amostragem e filtros incrementais.

Por exemplo, digamos que você tenha uma tabela de fonte de dados chamada my_project_id.dim_dataset.dim_currency. Você quer executar uma verificação incremental da qualidade dos dados que verifica apenas os novos dados diários. Um filtro de linha que filtra as entradas de hoje, transaction_timestamp >= current_date(), é aplicado à tabela.

Uma regra SQL personalizada para encontrar linhas com discount_pct para hoje é assim:

discount_pct IN (SELECT discount_pct FROM my_project_id.dim_dataset.dim_currency WHERE transaction_timestamp >= current_date())

Se você usar o parâmetro de referência de dados, poderá simplificar a regra. Substitua a menção da tabela e os filtros de pré-condição pelo parâmetro ${data()}:

discount_pct IN (SELECT discount_pct FROM ${data()})

O Knowledge Catalog interpreta o parâmetro ${data()} como uma referência à tabela da fonte de dados com as entradas de hoje, my_project_id.dim_dataset.dim_currency WHERE transaction_timestamp >= current_date(). Neste exemplo, o parâmetro de referência de dados se refere apenas aos dados incrementais.

O parâmetro ${data()} diferencia maiúsculas de minúsculas.

Ao usar um alias em uma subconsulta para se referir a colunas na tabela de origem, use o parâmetro de referência de dados para se referir à tabela de origem ou omita a referência de tabela. Não se refira às colunas na tabela de origem usando uma referência direta na cláusula WHERE.

Recomendação:

Use o parâmetro de referência de dados para se referir à tabela de origem:

discount_pct IN (
SELECT discount_pct FROM
`my_project_id.dim_dataset.dim_currency` AS temp-table
WHERE
temp-table.transaction_timestamp = ${data()}.timestamp
)

Omitir a referência da tabela:

discount_pct IN (
SELECT discount_pct FROM
`another_project.another_dataset.another_table` AS temp-table
WHERE
temp-table.transaction_timestamp = timestamp

Não recomendado:

Não use uma referência direta para se referir a colunas na tabela de origem:

discount_pct IN (
SELECT discount_pct FROM
`my_project_id.dim_dataset.dim_currency` AS temp-table
WHERE
temp-table.transaction_timestamp = `my_project_id.dim_dataset.dim_currency`.timestamp
)

Uso válido de tabelas diferentes:

É possível usar uma referência direta de tabela ao comparar colunas de uma tabela diferente:

discount_pct IN (
SELECT discount_pct FROM
`my_project_id.dim_dataset.dim_currency` AS temp-table
WHERE
temp-table.transaction_timestamp = `another_project.another_dataset.another_table`.timestamp
)

Consultas de depuração

Ao criar uma regra, você pode incluir uma consulta de depuração para executar junto com ela. Uma consulta de depuração é uma instrução SQL que retorna até 10 valores escalares. Esses valores podem ajudar a diagnosticar a causa se a regra falhar. Você pode adicionar no máximo uma consulta de depuração por regra, e ela não pode ter mais de 1.024 caracteres.

Considere a seguinte regra de declaração SQL na tabela example_project.example_dataset.table, que verifica se a receita média por item excede 100:

SELECT
  *
FROM
  `example_project.example_dataset.table`
WHERE
  SUM(revenue) / COUNT(DISTINCT item_id) > 100

Se a regra anterior falhar, você poderá conferir métricas como receita total, número de itens distintos e receita média por item para ajudar a diagnosticar o problema. A consulta de depuração a seguir retorna estas métricas:

SELECT
  SUM(revenue),
  COUNT(DISTINCT item_id),
  SUM(revenue) / COUNT(DISTINCT item_id)
FROM `example_project.example_dataset.table`

Execução de regras

É possível programar verificações de qualidade de dados para serem executadas em um intervalo específico ou executar uma verificação sob demanda.

Identidade de execução

Por padrão, o Knowledge Catalog usa um agente de serviço centralizado (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) para executar verificações de qualidade de dados.

É possível substituir essa identidade de execução padrão especificando uma conta de serviço personalizada ou usando suas próprias credenciais de usuário final (EUC, na sigla em inglês). Isso oferece vários benefícios:

Princípio de privilégio mínimo:conceda apenas as permissões exatas do IAM necessárias para tarefas específicas de qualidade de dados a uma conta de serviço dedicada, minimizando o acesso excessivo.
Controle de acesso refinado:escopo de permissões para recursos específicos, permitindo a integração com políticas de acesso no nível da linha e da coluna no BigQuery.
Auditoria aprimorada:atribua contas de serviço personalizadas ou credenciais de usuário a verificações específicas, tornando o rastreamento e o registro de atividades muito mais claros nos registros de auditoria.
Unificação do faturamento:quando você usa uma identidade de execução personalizada, as cobranças de processamento e armazenamento são centralizadas diretamente no BigQuery, ignorando as SKUs Premium do Knowledge Catalog. Isso permite aproveitar os descontos empresariais e os compromissos de slot do BigQuery.

Para instruções sobre como configurar uma identidade de execução personalizada, consulte Configurar identidade de execução.

Quando você executa uma verificação de qualidade de dados, o Knowledge Catalog cria um job. Se um job estiver mal configurado ou sendo executado por mais tempo do que o esperado, você poderá cancelar o job.

Como parte da especificação de uma verificação de qualidade de dados, é possível definir o escopo de um job como um dos seguintes:

Tabela completa: Cada job valida a tabela inteira.
Incremental: Cada job valida os dados incrementais. Para determinar incrementos, forneça uma coluna Date / Timestamp na tabela que possa ser usada como um marcador. Normalmente, essa é a coluna em que a tabela é particionada.

Filtrar dados

É possível filtrar os dados que serão verificados para garantir a qualidade de dados usando um filtro de linha. Com um filtro de linha, você pode se concentrar em dados de um período ou segmento específico, como uma determinada região. O uso de filtros pode reduzir o tempo de execução e o custo. Por exemplo, é possível filtrar dados com um carimbo de data/hora anterior a uma determinada data.

Dados de amostra

É possível especificar uma porcentagem de registros dos seus dados para amostragem ao executar uma verificação de qualidade de dados. Criar verificações de qualidade de dados em uma amostra menor pode reduzir o tempo de execução e o custo em relação à consulta do conjunto de dados inteiro.

Regras de filtro

Ao executar uma análise de qualidade de dados, é possível usar a sintaxe de filtro AIP-160 para executar regras específicas de maneira seletiva. O Knowledge Catalog filtra os metadados das regras definidas na verificação ou anexadas à entrada do catálogo pelo aspecto data-rules.

Sintaxe do filtro

A sintaxe do filtro segue as diretrizes da AIP-160. É possível usar operadores padrão da AIP-160 (como =, !=, >, <, =~) e combinar várias condições usando AND ou OR.

Ao usar uma string de filtro AIP-160, faça o seguinte:

No console Google Cloud : insira o filtro diretamente usando a sintaxe AIP-160, por exemplo, name = "critical_check".
Em uma chamada de API: a string de filtro geralmente é um valor em outro literal de string JSON. Isso exige o uso de escape em aspas duplas na string AIP-160. Por exemplo, "filter": "name = \"critical_check\"".

Campos que aceitam filtros

É possível filtrar a maioria dos campos disponíveis na definição da regra:

name: o nome de exibição da regra.
dimension: a dimensão de qualidade de dados (por exemplo, VALIDITY).
column: o nome da coluna a que a regra se aplica.
threshold: o limite de aprovação da regra.
ignore_null: um valor booleano. Quando as linhas true e NULL são consideradas aprovadas.
attributes: pares de chave-valor personalizados atribuídos à regra.

Os exemplos a seguir mostram padrões de filtro comuns. Valores numéricos e booleanos não são colocados entre aspas.

Filtrar por nome

Correspondência exata: name = "critical_check"
Corresponde a um padrão: name =~ "temp_.*"

Filtrar por dimensão

Corresponder a uma dimensão específica: dimension = "COMPLETENESS"
Corresponder a várias dimensões: dimension = "VALIDITY" OR dimension = "ACCURACY"

Filtrar por coluna e limite

Corresponder a uma coluna específica: column = "user_id"
Corresponder a um limite: threshold > 0.95
Corresponder a um intervalo: threshold >= 0.8 AND threshold < 0.9

Filtrar por ignore_null

Valor booleano de correspondência: ignore_null = true

Filtrar por atributos personalizados

Verificar a presença da chave: attributes:environment
Chave e valor correspondentes: attributes.environment = "prod"
Ajustar de acordo com expressões regulares: attributes.tag =~ "prio-.*"
Combinações correspondentes: attributes.environment = "prod" AND attributes.criticality = "high"

Resultados da verificação de qualidade de dados

Os resultados das suas verificações de qualidade de dados estão disponíveis no Knowledge Catalog e no BigQuery. Você também pode analisar os resultados da verificação usando os seguintes métodos:

Exportar resultados para o BigQuery

É possível exportar os resultados da verificação para uma tabela do BigQuery e fazer uma análise mais detalhada. Para personalizar os relatórios, conecte os dados da tabela do BigQuery a um painel do Looker. É possível criar um relatório agregado usando a mesma tabela de resultados em várias verificações.
Publicar resultados como metadados do Knowledge Catalog

É possível publicar os resultados da verificação de qualidade de dados como metadados do Knowledge Catalog. Os resultados mais recentes são salvos na entrada do Knowledge Catalog que representa a tabela de origem, no tipo de aspecto do sistema data-quality-scorecard. É possível conferir os resultados nas páginas do BigQuery e do Knowledge Catalog da tabela de origem no console Google Cloud , na guia Qualidade de dados. Também é possível recuperar os resultados usando a API.

Observação: se uma verificação de qualidade de dados já tiver publicado os resultados nas páginas do BigQuery e do Knowledge Catalog no consoleGoogle Cloud , e você quiser publicar os resultados de verificações futuras como metadados do Knowledge Catalog, edite a verificação para reativar a publicação.

Para mais informações sobre os metadados do Knowledge Catalog, consulte Sobre o gerenciamento de metadados no Knowledge Catalog.
Analisar as pontuações de qualidade de dados

Cada resultado de verificação fornece pontuações de qualidade de dados que indicam a porcentagem de regras aprovadas. As pontuações são informadas no nível geral do job, da coluna (se a regra for avaliada em relação a uma coluna) e da dimensão. Use as pontuações de qualidade de dados para normalizar a qualidade em tabelas ou colunas, acompanhar tendências e identificar dados que não atendem aos requisitos de qualidade.

Para mais informações, consulte Ver os resultados da verificação de qualidade de dados.

Monitoramento e alertas

É possível monitorar e receber alertas sobre verificações de qualidade de dados usando os seguintes métodos:

Definir alertas no Cloud Logging

É possível monitorar os jobs de qualidade de dados usando os registros data_scan e data_quality_scan_rule_result na Análise de registros.

Para cada job de qualidade de dados, o registro data_scan com o campo data_scan_type definido como DATA_QUALITY contém as seguintes informações:
- Fonte de dados usada para a verificação de dados.
- Detalhes da execução do job, como horário de criação, início e término, além do estado do job.
- Resultado do job de qualidade de dados: aprovado ou reprovado.
- Aprovação ou reprovação no nível da dimensão.
Todo job concluído contém um registro data_quality_scan_rule_result com as seguintes informações detalhadas sobre cada regra nesse job:
- Informações de configuração, como nome, tipo e avaliação da regra e dimensão.
- Informações sobre o resultado, como aprovação ou reprovação, contagem total de linhas, contagem de linhas aprovadas, contagem de linhas nulas e contagem de linhas avaliadas.
As informações nos registros estão disponíveis pela API e pelo console doGoogle Cloud . Você pode usar essas informações para configurar alertas. Para mais informações, consulte Definir alertas no Logging.

Observação: para o último job concluído, essas informações também estão disponíveis na verificação de qualidade de dados principal.
Enviar relatórios de notificação por e-mail

É possível enviar relatórios de notificação por e-mail para alertar as pessoas sobre o status e os resultados de um job de qualidade de dados. Os relatórios de notificação estão disponíveis para os seguintes cenários:
- O índice de qualidade de dados é menor do que um índice de meta especificado
- O job falhou
- O trabalho foi concluído
Você configura relatórios de notificação ao criar uma verificação de qualidade de dados.

Resolver falhas na qualidade de dados

Quando a execução de uma regra falha, o Knowledge Catalog fornece uma consulta para receber os registros com falha. Execute esta consulta para conferir os registros que não corresponderam à sua regra. Para mais informações, consulte Resolver problemas de falha na qualidade de dados.

Limitações

As recomendações de regras não são compatíveis com a CLI gcloud.
A escolha de dimensões é fixa em uma das sete dimensões predefinidas.
O número de regras por verificação de qualidade de dados é limitado a 1.000.
As pontuações de qualidade de dados informadas no nível da coluna são compatíveis apenas na API.
É possível executar regras de qualidade de dados apenas em tabelas do catálogo REST do BigQuery e do Iceberg.

Preços

Para mais informações sobre preços, consulte Preços do Knowledge Catalog.

A seguir

Saiba como usar a qualidade de dados automática.
Saiba como reutilizar regras de qualidade de dados.
Saiba como gerenciar suas regras de qualidade de dados como código.
Siga um tutorial para criar um fluxo de trabalho de qualidade de dados de política como código.
Saiba mais sobre os recursos do Terraform disponíveis para criação de perfil de dados. Confira o seguinte:
- Recurso de verificação de dados do Dataplex no registro do Terraform.
- A documentação do recurso de verificação de dados do Dataplex no GitHub, que oferece suporte à configuração de regras com base em YAML.
Saiba mais sobre a criação do perfil dos dados.
Saiba como usar a criação de perfil de dados.

Visão geral da qualidade de dados automática Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelo conceitual

Definição da regra

Regras integradas

Tipos de regras SQL personalizadas compatíveis

Reutilizar regras de qualidade de dados

Dimensões

Entrada por digitação em regras

Parâmetro de referência de dados

Consultas de depuração

Execução de regras

Identidade de execução

Filtrar dados

Dados de amostra

Regras de filtro

Sintaxe do filtro

Campos que aceitam filtros

Resultados da verificação de qualidade de dados

Monitoramento e alertas

Resolver falhas na qualidade de dados

Limitações

Preços

A seguir

Visão geral da qualidade de dados automática