Verificar problemas de qualidade de dados
Neste documento, explicamos como usar o BigQuery e o Dataplex Universal Catalog juntos para garantir que os dados atendam às suas expectativas de qualidade. Com a qualidade de dados automática do Dataplex Universal Catalog, é possível definir e medir a qualidade dos dados nas tabelas do BigQuery. É possível automatizar a verificação de dados, validar dados em relação a regras definidas e registrar alertas se os dados não atenderem aos requisitos de qualidade.
Para mais informações sobre a qualidade de dados automática, consulte a Visão geral da qualidade de dados automática.
Antes de começar
-
Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - Opcional: se você quiser que o Dataplex Universal Catalog gere recomendações de regras de qualidade de dados com base nos resultados de uma verificação do perfil de dados, crie e execute a verificação do perfil de dados.
Funções exigidas
Para executar uma verificação de qualidade de dados em uma tabela do BigQuery, é preciso ter permissão para ler a tabela e para criar um job do BigQuery no projeto usado para verificar a tabela.
Se a tabela do BigQuery e a verificação de qualidade de dados estiverem em projetos diferentes, conceda à conta de serviço do Dataplex Universal Catalog do projeto que contém a verificação de qualidade de dados a permissão de leitura na tabela correspondente do BigQuery.
Se as regras de qualidade de dados se referirem a outras tabelas, a conta de serviço do projeto de verificação precisará ter permissões de leitura nas mesmas tabelas.
Para receber as permissões necessárias para exportar os resultados da verificação para uma tabela do BigQuery, peça ao administrador para conceder à conta de serviço do Dataplex Universal Catalog o papel do IAM de editor de dados do BigQuery (
roles/bigquery.dataEditor
) no conjunto de dados e na tabela de resultados. Isso concede as seguintes permissões:bigquery.datasets.get
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.update
bigquery.tables.updateData
Se os dados do BigQuery estiverem organizados em um data lake do Dataplex Universal Catalog, conceda à conta de serviço do Dataplex Universal Catalog os papéis do IAM de leitor de metadados do Dataplex (
roles/dataplex.metadataReader
) e leitor do Dataplex (roles/dataplex.viewer
). Como alternativa, você precisa de todas as seguintes permissões:dataplex.lakes.list
dataplex.lakes.get
dataplex.zones.list
dataplex.zones.get
dataplex.entities.list
dataplex.entities.get
dataplex.operations.get
Se você estiver verificando uma tabela externa do BigQuery no Cloud Storage, conceda à conta de serviço do Dataplex Universal Catalog o papel de Leitor de objetos do Storage (
roles/storage.objectViewer
) para o bucket. Como alternativa, atribua à conta de serviço do Dataplex Universal Catalog as seguintes permissões:storage.buckets.get
storage.objects.get
Para publicar os resultados da verificação de qualidade de dados como metadados do Dataplex Universal Catalog, é necessário ter o papel do IAM de editor de dados do BigQuery (
roles/bigquery.dataEditor
) na tabela e a permissãodataplex.entryGroups.useDataQualityScorecardAspect
no grupo de entradas@bigquery
no mesmo local da tabela. Como alternativa, você precisa receber a função de editor do Dataplex Catalog (roles/dataplex.catalogEditor
) para o grupo de entrada@bigquery
no mesmo local da tabela.Como alternativa, você precisa de todas as seguintes permissões:
bigquery.tables.update
: na mesadataplex.entryGroups.useDataQualityScorecardAspect
no grupo de entradas@bigquery
Ou você precisa de todas as seguintes permissões:
dataplex.entries.update
no grupo de entradas@bigquery
dataplex.entryGroups.useDataQualityScorecardAspect
no grupo de entradas@bigquery
Se precisar acessar colunas protegidas por políticas de acesso no nível da coluna do BigQuery, atribua à conta de serviço do Dataplex Universal Catalog permissões para essas colunas. O usuário que cria ou atualiza uma verificação de dados também precisa de permissões para as colunas.
Se uma tabela tiver políticas de acesso no nível da linha do BigQuery habilitadas, só será possível verificar as linhas visíveis para a conta de serviço do Dataplex Universal Catalog. Os privilégios de acesso do usuário individual não são avaliados para fins de políticas no nível da linha.
Funções necessárias para verificação de dados
Para usar a qualidade de dados automática, peça ao administrador para conceder a você um dos seguintes papéis do IAM:
- Acesso total aos recursos
DataScan
: administrador do DataScan Dataplex (roles/dataplex.dataScanAdmin
) - Para criar recursos
DataScan
: criador de DataScan do Dataplex (roles/dataplex.dataScanCreator
) no projeto - Acesso de gravação aos recursos
DataScan
: editor do DataScan Dataplex (roles/dataplex.dataScanEditor
) - Acesso de leitura aos recursos
DataScan
, exceto regras e resultados: Leitor do DataScan Dataplex (roles/dataplex.dataScanViewer
) - Acesso de leitura aos recursos
DataScan
, incluindo regras e resultados: Leitor de dados do DataScan Dataplex (roles/dataplex.dataScanDataViewer
)
A tabela a seguir lista as permissões do DataScan
:
Nome da permissão | Concede permissão para as seguintes ações: |
---|---|
dataplex.datascans.create |
Criar um DataScan |
dataplex.datascans.delete |
Excluir um DataScan |
dataplex.datascans.get |
Ver metadados operacionais, como ID ou programação, mas não resultados e regras |
dataplex.datascans.getData |
Ver detalhes de DataScan , incluindo regras e resultados |
dataplex.datascans.list |
Listar DataScan s |
dataplex.datascans.run |
Executar um DataScan |
dataplex.datascans.update |
Atualizar a descrição de um DataScan |
dataplex.datascans.getIamPolicy |
Conferir as permissões atuais do IAM na verificação |
dataplex.datascans.setIamPolicy |
Definir permissões do IAM na verificação |
Criar uma verificação de qualidade de dados
Console
No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.
Clique em Criar verificação de qualidade de dados.
Na janela Definir verificação, preencha os seguintes campos:
Opcional: insira um Nome de exibição.
Insira um ID. Consulte as convenções de nomenclatura de recursos.
Opcional: digite uma Descrição.
No campo Tabela, clique em Procurar. Escolha a tabela para verificar e clique em Selecionar. Apenas tabelas padrão do BigQuery são compatíveis.
Para tabelas em conjuntos de dados multirregionais, escolha uma região para criar a verificação de dados.
Para procurar as tabelas organizadas nos lakes do Dataplex Universal Catalog, clique em Procurar dentro de lakes do Dataplex.
No campo Escopo, escolha Incremental ou Dados completos.
- Se você escolher Incremental: no campo Coluna de carimbo de data/hora,
selecione uma coluna do tipo
DATE
ouTIMESTAMP
na tabela do BigQuery que aumente à medida que novos registros são adicionados e que possa ser usada para identificar novos registros. Essa coluna pode ser uma que particiona a tabela.
- Se você escolher Incremental: no campo Coluna de carimbo de data/hora,
selecione uma coluna do tipo
Para filtrar seus dados, marque a caixa de seleção Filtrar linhas. Forneça um filtro de linha que consiste em uma expressão SQL válida que pode ser usada como parte de uma cláusula
WHERE
na sintaxe do GoogleSQL. Por exemplo,col1 >= 0
. O filtro pode ser uma combinação de várias condições de coluna. Por exemplo,col1 >= 0 AND col2 < 10
.Para fazer uma amostragem dos seus dados, na lista Tamanho da amostragem, selecione uma porcentagem de amostragem. Escolha uma porcentagem entre 0,0% e 100,0% com até três casas decimais. Para conjuntos de dados maiores, escolha uma porcentagem de amostragem menor. Por exemplo, para uma tabela de 1 PB, se você inserir um valor entre 0,1% e 1,0%, a verificação de qualidade de dados vai amostrar entre 1 e 10 TB de dados. Nas verificações de dados incrementais, a verificação de qualidade de dados aplica amostragem ao incremento mais recente.
Para publicar os resultados da verificação de qualidade de dados como metadados do Dataplex Universal Catalog, marque a caixa de seleção Publicar resultados no BigQuery e no Dataplex Catalog.
É possível conferir os resultados mais recentes da verificação na guia Qualidade de dados nas páginas do BigQuery e do Dataplex Universal Catalog para a tabela de origem. Para permitir que os usuários acessem os resultados publicados da verificação, consulte a seção Conceder acesso aos resultados da verificação de perfil de dados deste documento.
Na seção Programação, escolha uma das seguintes opções:
Repetir: execute a verificação de qualidade de dados em uma programação: por hora, diária, semanal, mensal ou personalizada. Especifique a frequência e o horário da verificação. Se você escolher "Personalizado", use o formato cron para especificar a programação.
Sob demanda: execute a verificação da qualidade de dados sob demanda.
Clique em Continuar.
Na janela Regras de qualidade de dados, defina as regras a serem configuradas para essa verificação de qualidade de dados.
Clique em Adicionar regras e escolha uma das seguintes opções:
Recomendações com base no perfil: crie regras com base nas recomendações de uma verificação de perfil de dados.
Escolher colunas: selecione as colunas para receber regras recomendadas.
Escolher projeto de verificação: se a verificação de criação de perfil de dados estiver em um projeto diferente daquele em que você está criando a verificação de qualidade de dados, selecione o projeto para extrair as verificações de perfil.
Escolher resultados de perfil: selecione um ou mais resultados de perfil e clique em OK. Isso preenche uma lista de regras sugeridas que você pode usar como ponto de partida.
Marque a caixa de seleção das regras que você quer adicionar e clique em Selecionar. Depois de selecionadas, as regras são adicionadas à sua lista de regras atual. Em seguida, edite as regras.
Tipos de regra integrados: crie regras com base em regras predefinidas. Consulte a lista de regras predefinidas.
Escolher colunas: selecione as colunas para as quais você quer selecionar regras.
Escolher tipos de regra: selecione os tipos de regra que você quer escolher e clique em OK. Os tipos de regra que aparecem dependem das colunas selecionadas.
Marque a caixa de seleção das regras que você quer adicionar e clique em Selecionar. Depois de selecionadas, as regras são adicionadas à sua lista de regras atual. Em seguida, edite as regras.
Regra de verificação de linhas SQL: crie uma regra SQL personalizada para aplicar a cada linha.
Em Dimensão, escolha uma opção.
Em Limite de aprovação, escolha uma porcentagem de registros que precisam passar na verificação.
Em Nome da coluna, escolha uma coluna.
No campo Forneça uma expressão SQL, insira uma expressão SQL que seja avaliada como um booleano
true
(aprovação) oufalse
(reprovação). Para mais informações, consulte Tipos de regras SQL personalizadas compatíveis e os exemplos em Definir regras de qualidade de dados.Clique em Adicionar.
Regra de verificação agregada do SQL: crie uma regra de condição de tabela SQL personalizada.
Em Dimensão, escolha uma opção.
Em Nome da coluna, escolha uma coluna.
No campo Forneça uma expressão SQL, insira uma expressão SQL que seja avaliada como um booleano
true
(aprovação) oufalse
(reprovação). Para mais informações, consulte Tipos de regras SQL personalizadas compatíveis e os exemplos em Definir regras de qualidade de dados.Clique em Adicionar.
Regra de declaração do SQL: crie uma regra de declaração do SQL personalizada para verificar um estado inválido dos dados.
Em Dimensão, escolha uma opção.
Opcional: em Nome da coluna, escolha uma coluna.
No campo Forneça uma instrução SQL, insira uma instrução SQL que retorne linhas que correspondam ao estado inválido. Se alguma linha for retornada, essa regra vai falhar. Omita o ponto e vírgula final da instrução SQL. Para mais informações, consulte Tipos de regras SQL personalizadas compatíveis e os exemplos em Definir regras de qualidade de dados.
Clique em Adicionar.
Opcional: para qualquer regra de qualidade de dados, é possível atribuir um nome personalizado para usar no monitoramento e nos alertas, além de uma descrição. Para fazer isso, edite uma regra e especifique os seguintes detalhes:
- Nome da regra: insira um nome personalizado com até 63 caracteres. O nome da regra pode incluir letras (a-z, A-Z), dígitos (0-9) e hifens (-), além de precisar começar com uma letra e terminar com um número ou uma letra.
- Descrição: insira uma descrição da regra com comprimento máximo de 1.024 caracteres.
Repita as etapas anteriores para adicionar mais regras à verificação da qualidade de dados. Quando terminar, clique em Continuar.
Opcional: exporte os resultados da verificação para uma tabela padrão do BigQuery. Na seção Exportar os resultados da verificação para a tabela do BigQuery, faça o seguinte:
No campo Selecionar conjunto de dados do BigQuery, clique em Procurar. Selecione um conjunto de dados do BigQuery para armazenar os resultados da verificação de qualidade de dados.
No campo Tabela do BigQuery, especifique a tabela para armazenar os resultados da verificação de qualidade de dados. Se você estiver usando uma tabela, verifique se ela é compatível com o esquema da tabela de exportação. Se a tabela especificada não existir, o Dataplex Universal Catalog vai criá-la.
Opcional: adicione rótulos. Rótulos são pares de chave-valor que permitem agrupar objetos relacionados entre si ou com outros recursos Google Cloud .
Opcional: configure relatórios de notificação por e-mail para alertar as pessoas sobre o status e os resultados de um job de verificação da qualidade de dados. Na seção Relatório de notificação, clique em
Adicionar ID de e-mail e insira até cinco endereços de e-mail. Em seguida, selecione os cenários para os quais você quer enviar relatórios:- Índice de qualidade (<=): envia um relatório quando um job é concluído com um índice de qualidade de dados menor que o índice de destino especificado. Insira uma meta de qualidade entre 0 e 100.
- Falhas de job: envia um relatório quando o job falha, independente dos resultados da qualidade dos dados.
- Conclusão do job (sucesso ou falha): envia um relatório quando o job termina, independente dos resultados da qualidade dos dados.
Clique em Criar.
Depois que a verificação for criada, você poderá executá-la a qualquer momento clicando em Executar agora.
gcloud
Para criar uma verificação de qualidade de dados, use o
comando gcloud dataplex datascans create data-quality
.
Se os dados de origem estiverem organizados em um data lake do Dataplex Universal Catalog, inclua a flag --data-source-entity
:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-entity=DATA_SOURCE_ENTITY
Se os dados de origem não estiverem organizados em um data lake do Dataplex Universal Catalog, inclua a flag --data-source-resource
:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-resource=DATA_SOURCE_RESOURCE
Substitua as seguintes variáveis:
DATASCAN
: o nome da verificação da qualidade de dados.LOCATION
: a região Google Cloud em que a verificação de qualidade de dados será criada.DATA_QUALITY_SPEC_FILE
: o caminho para o arquivo JSON ou YAML que contém as especificações da verificação de qualidade de dados. Pode ser um arquivo local ou um caminho do Cloud Storage com o prefixogs://
. Use esse arquivo para especificar as regras de qualidade de dados da verificação. Também é possível especificar outros detalhes nesse arquivo, como filtros, porcentagem de amostragem e ações pós-verificação, como exportar para o BigQuery ou enviar relatórios de notificação por e-mail. Consulte a documentação sobre representação JSON e o exemplo de representação YAML.DATA_SOURCE_ENTITY
: a entidade do Dataplex Universal Catalog que contém os dados da verificação da qualidade dos dados. Por exemplo,projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
.DATA_SOURCE_RESOURCE
: o nome do recurso que contém os dados da verificação da qualidade dos dados. Por exemplo,//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
.
REST
Para criar uma verificação de qualidade de dados, use o
método dataScans.create
.
Se você quiser criar regras para a verificação de qualidade de dados usando recomendações de regras baseadas nos resultados de uma verificação de perfil de dados, chame o método dataScans.jobs.generateDataQualityRules
na verificação de perfil de dados.
Executar uma verificação de qualidade de dados
Console
No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.
Clique na verificação de qualidade de dados para executar.
Clique em Executar agora.
gcloud
Para executar uma verificação de qualidade de dados, use o
comando gcloud dataplex datascans run
:
gcloud dataplex datascans run DATASCAN \ --location=LOCATION \
Substitua as seguintes variáveis:
LOCATION
: a Google Cloud região em que a verificação de qualidade de dados foi criada.DATASCAN
: o nome da verificação da qualidade de dados.
REST
Para executar uma verificação de qualidade de dados, use o
método dataScans.run
.
Ver resultados da verificação de qualidade de dados
Console
No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.
Clique no nome de uma verificação da qualidade de dados.
A seção Visão geral mostra informações sobre os jobs mais recentes, incluindo quando a verificação foi executada, o número de registros verificados em cada job, se todas as verificações de qualidade de dados foram aprovadas e, em caso de falhas, o número de verificações de qualidade de dados que falharam.
A seção Configuração da verificação de qualidade de dados mostra detalhes sobre a verificação.
Para ver informações detalhadas sobre um job, como pontuações de qualidade de dados que indicam a porcentagem de regras aprovadas, as regras com falha e os registros do job, clique na guia Histórico de jobs. Em seguida, clique em um ID do job.
gcloud
Para conferir os resultados de um job de verificação da qualidade de dados, use o
comando gcloud dataplex datascans jobs describe
:
gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
Substitua as seguintes variáveis:
JOB
: o ID do job de verificação da qualidade de dados.LOCATION
: a região Google Cloud em que a verificação da qualidade de dados foi criada.DATASCAN
: o nome da verificação de qualidade de dados a que o job pertence.--view=FULL
: para conferir o resultado do job de verificação, especifiqueFULL
.
REST
Para ver os resultados de uma verificação de qualidade de dados, use o
método dataScans.get
.
Ver resultados publicados
Se os resultados da verificação de qualidade de dados forem publicados como metadados do Dataplex Universal Catalog, você poderá conferir os resultados mais recentes nas páginas do BigQuery e do Dataplex Universal Catalog no consoleGoogle Cloud , na guia Qualidade de dados da tabela de origem.
No console do Google Cloud , acesse a página BigQuery.
No painel à esquerda, clique em
Explorer:Se o painel esquerdo não aparecer, clique em
Expandir painel esquerdo para abrir.No painel Explorer, clique em Conjuntos de dados e depois no seu conjunto de dados.
Clique em Visão geral > Tabelas e selecione a tabela com os resultados da verificação da qualidade de dados que você quer conferir.
Clique na guia Qualidade dos dados.
Os resultados publicados mais recentes são mostrados.
Ver o histórico de resultados das verificações
O Dataplex Universal Catalog salva o histórico de verificação da qualidade de dados dos últimos 300 jobs ou do ano anterior, o que ocorrer primeiro.
Console
No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.
Clique no nome de uma verificação da qualidade de dados.
Clique na guia Histórico de jobs.
A guia Histórico de jobs fornece informações sobre jobs anteriores, como o número de registros verificados em cada job, o status do job, o tempo de execução do job e se cada regra foi aprovada ou reprovada.
Para ver informações detalhadas sobre um job, clique em qualquer um deles na coluna ID do job.
gcloud
Para conferir os jobs históricos de verificação da qualidade de dados, use o
comando gcloud dataplex datascans jobs list
:
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN \
Substitua as seguintes variáveis:
LOCATION
: a região Google Cloud em que a verificação da qualidade de dados foi criada.DATASCAN
: o nome da verificação da qualidade de dados para conferir jobs históricos.
REST
Para conferir os jobs históricos de verificação da qualidade de dados, use o
método dataScans.jobs.list
.
Conceder acesso aos resultados da verificação de qualidade de dados
Para permitir que os usuários da sua organização vejam os resultados da verificação, faça o seguinte:
No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.
Clique na verificação de qualidade de dados cujos resultados você quer compartilhar.
Clique na guia Permissões.
Faça o seguinte:
- Para conceder acesso a um principal, clique em Conceder acesso. Conceda o papel Leitor de dados do DataScan do Dataplex ao principal associado.
- Para remover o acesso de um principal, selecione o principal de quem você quer remover o papel Leitor de dados do DataScan do Dataplex. Clique em Remover acesso e confirme quando solicitado.
Resolver problemas de falha na qualidade de dados
É possível definir alertas para falhas na qualidade dos dados usando os registros no Cloud Logging. Para mais informações, incluindo exemplos de consultas, consulte Definir alertas no Cloud Logging.
Para cada job com falha nas regras no nível da linha, o Dataplex Universal Catalog fornece uma consulta para receber os registros com falha. Execute esta consulta para conferir os registros que não corresponderam à sua regra.
Console
No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.
Clique no nome da verificação de qualidade de dados cujos registros você quer resolver.
Clique na guia Histórico de jobs.
Clique no ID do job que identificou falhas na qualidade dos dados.
Na janela de resultados do job que é aberta, na seção Regras, encontre a coluna Consulta para receber registros com falha. Clique em Copiar consulta para a área de transferência na regra com falha.
Execute a consulta no BigQuery para conferir os registros que causaram a falha do job.
gcloud
Incompatível.
REST
Para receber o job que identificou falhas na qualidade dos dados, use o método
dataScans.get
.No objeto de resposta, o campo
failingRowsQuery
mostra a consulta.Execute a consulta no BigQuery para conferir os registros que causaram a falha do job.
Gerenciar verificações de qualidade de dados para uma tabela específica
As etapas neste documento mostram como gerenciar verificações de qualidade de dados em todo o projeto usando a página Criação de metadados > Criação de perfil e qualidade de dados do BigQuery no consoleGoogle Cloud .
Também é possível criar e gerenciar verificações de qualidade de dados ao trabalhar com uma tabela específica. No console Google Cloud , na página do BigQuery para a tabela, use a guia Qualidade dos dados. Faça o seguinte:
No console do Google Cloud , acesse a página BigQuery.
No painel Explorer (à esquerda), clique em Conjuntos de dados e depois no seu conjunto de dados. Clique em Visão geral > Tabelas e selecione a tabela cujos resultados da verificação da qualidade de dados você quer conferir.
Clique na guia Qualidade dos dados.
Dependendo de se a tabela tem uma verificação de qualidade de dados cujos resultados são publicados como metadados do Dataplex Universal Catalog, é possível trabalhar com as verificações de qualidade de dados da tabela das seguintes maneiras:
Os resultados da verificação de qualidade de dados são publicados: os resultados da verificação mais recente são mostrados na página.
Para gerenciar as verificações da qualidade de dados dessa tabela, clique em Verificação da qualidade de dados e selecione uma das seguintes opções:
Criar nova verificação: crie uma verificação de qualidade de dados. Para mais informações, consulte a seção Criar uma verificação de qualidade de dados deste documento. Quando você cria uma verificação na página de detalhes de uma tabela, ela é pré-selecionada.
Executar agora: executa a verificação.
Editar configuração de verificação: edite as configurações, incluindo o nome de exibição, os filtros e a programação.
Para editar as regras de qualidade de dados, clique na guia Qualidade de dados e depois em Regras. Clique em Modificar regras. Atualize as regras e clique em Salvar.
Gerenciar permissões de verificação: controle quem pode acessar os resultados da verificação. Para mais informações, consulte a seção Conceder acesso aos resultados da verificação de qualidade de dados deste documento.
Ver resultados históricos: confira informações detalhadas sobre jobs anteriores de verificação da qualidade de dados. Para mais informações, consulte as seções Ver resultados da verificação de qualidade de dados e Ver resultados históricos da verificação deste documento.
Conferir todas as verificações: veja uma lista de verificações de qualidade de dados que se aplicam a essa tabela.
Os resultados da verificação de qualidade de dados não são publicados: selecione uma das seguintes opções:
Criar verificação de qualidade de dados: crie uma nova verificação de qualidade de dados. Para mais informações, consulte a seção Criar uma verificação de qualidade de dados deste documento. Quando você cria uma verificação na página de detalhes de uma tabela, ela é pré-selecionada.
Conferir verificações atuais: veja uma lista de verificações de qualidade de dados que se aplicam a essa tabela.
Conferir as verificações de qualidade de dados de uma tabela
Para conferir as verificações de qualidade de dados que se aplicam a uma tabela específica, faça o seguinte:
No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.
Filtre a lista por nome da tabela e tipo de verificação.
Atualizar uma verificação de qualidade de dados
É possível editar várias configurações de uma verificação de qualidade de dados, como o nome de exibição, os filtros, a programação e as regras de qualidade de dados.
Console
No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.
Clique no nome de uma verificação da qualidade de dados.
Para editar as configurações, incluindo o nome de exibição, os filtros e a programação, clique em Editar. Edite os valores e clique em Salvar.
Para editar as regras de qualidade de dados, na página de detalhes da verificação, clique na guia Regras atuais. Clique em Modificar regras. Atualize as regras e clique em Salvar.
gcloud
Para atualizar a descrição de uma verificação da qualidade de dados, use o
comando gcloud dataplex datascans update data-quality
:
gcloud dataplex datascans update data-quality DATASCAN \ --location=LOCATION \ --description=DESCRIPTION
Substitua:
DATASCAN
: o nome da verificação da qualidade de dados a ser atualizada.LOCATION
: a região Google Cloud em que a verificação da qualidade de dados foi criada.DESCRIPTION
: a nova descrição da verificação da qualidade de dados.
REST
Para editar uma verificação de qualidade de dados, use o
método dataScans.patch
.
Excluir uma verificação de qualidade de dados
Console
No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.
Clique na verificação que você quer excluir.
Clique em Excluir e confirme quando solicitado.
gcloud
Para excluir uma verificação de qualidade de dados, use o
comando gcloud dataplex datascans delete
:
gcloud dataplex datascans delete DATASCAN \ --location=LOCATION \ --async
Substitua as seguintes variáveis:
DATASCAN
: o nome da verificação da qualidade de dados a ser excluída.LOCATION
: a região Google Cloud em que a verificação da qualidade de dados foi criada.
REST
Para excluir uma verificação de qualidade de dados, use o
método dataScans.delete
.
A seguir
- Saiba mais sobre a governança de dados no BigQuery.