Monitorar os registros do Catálogo universal do Dataplex

Neste documento, explicamos como acessar, consultar e interpretar os registros do Dataplex Universal Catalog usando o Cloud Logging. O acesso aos registros de jobs e serviços do Dataplex Universal Catalog ajuda a resolver problemas e monitorar atividades de gerenciamento de dados, incluindo descoberta de dados e verificação de qualidade de dados com tecnologia de IA. Ao centralizar registros no Logging, é possível analisar o desempenho do job, configurar alertas para falhas ou anomalias e rotear registros para outros serviços do Google Cloud , como o BigQuery, para retenção e análise de longo prazo.

Para entender os custos, consulte Preços do Google Cloud Observability.

Para mais informações sobre a retenção de registros, consulte Períodos de retenção dos registros.

Para desativar todos os registros ou excluir registros do Logging, consulte Filtros de exclusão.

Para rotear registros do Logging para o Cloud Storage, BigQuery ou Pub/Sub, consulte Visão geral de roteamento e armazenamento.

Casos de uso

O registro em registros do Dataplex Universal Catalog é compatível com casos de uso em diferentes setores:

  • Resolver falhas de pipeline de dados:quando uma tarefa do Dataplex Universal Catalog para processamento de dados falha, os registros do process fornecem mensagens de erro detalhadas que ajudam os engenheiros de dados a identificar e resolver problemas nos jobs do Spark ou em tarefas personalizadas.
  • Monitorar a qualidade dos dados:uma empresa de serviços financeiros pode monitorar registros de data_quality_scan_rule_result para acompanhar as tendências de qualidade dos dados ao longo do tempo, receber alertas sobre degradações de qualidade em recursos de dados críticos e fornecer aos auditores evidências de verificações de qualidade de dados para conformidade regulatória.
  • Rastrear o enriquecimento de metadados:uma empresa de varejo que usa jobs de importação de metadados para enriquecer o catálogo pode usar os registros do metadata_job para verificar se as importações estão sendo concluídas e se todos os itens de metadados estão sendo processados corretamente.
  • Auditoria da descoberta de dados:as organizações podem usar os registros do discovery para monitorar como e quando novas fontes de dados são descobertas e registradas no Dataplex Universal Catalog, fornecendo um rastreamento de auditoria para processos de integração de dados.

Como funciona o registro em log do Dataplex Universal Catalog

O Dataplex Universal Catalog envia registros de operações de serviço e execuções de jobs para o Cloud Logging. Cada entrada de registro contém detalhes sobre a operação ou o job, como status, horário de início e término, recursos associados (como uma verificação de dados ou tarefa) e resultado. Diferentes tipos de operações, como verificação de dados, descoberta, importação de metadados e processamento de dados, geram tipos de registros diferentes, que podem ser consultados usando logName no Logging.

É possível acessar e analisar esses registros usando a Análise de registros no console doGoogle Cloud ou encaminhando-os para outros destinos, como buckets do Cloud Storage ou tabelas do BigQuery, para uma análise mais detalhada.

Acessar os registros de serviço do Dataplex Universal Catalog no Logging

O Dataplex Universal Catalog publica os seguintes registros de serviço no Cloud Logging.

Tipo de registro Nome do registro logName consulta Descrição do registro
Registros de eventos de verificação de dados dataplex.googleapis.com/data_scan logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) Registros de eventos para jobs de verificação de dados que indicam o estado, os resultados e as estatísticas do job
Registros de resultados de regras de verificação de qualidade de dados dataplex.googleapis.com/data_quality_scan_rule_result logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) Resultados das regras de verificação de qualidade de dados em um job de qualidade de dados
Registros de descoberta dataplex.googleapis.com/discovery logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) Progresso e atualizações da descoberta em recursos em uma zona
Registros de jobs de metadados dataplex.googleapis.com/metadata_job logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) Registros sobre jobs de importação de metadados e itens de importação no arquivo de importação de metadados
Registros de processos dataplex.googleapis.com/process logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) Execuções de jobs resultantes de tarefas de tratamento de dados

Substitua:

  • PROJECT_ID: ID do projeto

Para acessar a geração de registros, use a Análise de registros no console doGoogle Cloud , os comandos gcloud logging ou a API Logging.

Consultar registros de eventos de verificação de dados

Ao usar o Dataplex Universal Catalog para criar e executar uma verificação de dados, um registro de eventos de verificação de dados é gerado no Cloud Logging para o job resultante.

Console

  1. No console Google Cloud , acesse a página Explorador de registros.

    Acessar o "Explorador de registros"

  2. Na visualização Análise de registros, encontre a guia Consulta.

  3. Clique no menu Recurso.

  4. Selecione DataScan do Cloud Dataplex. Clique em Aplicar.

  5. Clique no menu Nome do registro.

  6. No campo Pesquisar nomes de registros, insira dataplex.googleapis.com%2Fdata_scan. Selecione data_scan e clique em Aplicar.

  7. Opcional: filtre os registros para um ID ou local específico de verificação de dados adicionando os seguintes filtros à consulta de registro:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. Clique em Executar consulta.

gcloud

Para ler as entradas de registro de eventos de verificação de dados, use o comando gcloud logging read com a seguinte consulta:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

Para listar entradas de registro, use o método entries.list.

Consultar registros de resultados de regras de verificação de qualidade de dados

Ao usar o Dataplex Universal Catalog para criar e executar uma verificação de qualidade de dados, um registro de resultados da regra de verificação de qualidade de dados é gerado no Logging para o job resultante.

Console

  1. No console Google Cloud , acesse a página Explorador de registros.

    Acessar o "Explorador de registros"

  2. Na visualização Análise de registros, encontre a guia Consulta.

  3. Clique no menu Recurso.

  4. Selecione DataScan do Cloud Dataplex. Clique em Aplicar.

  5. Clique no menu Nome do registro.

  6. No campo Pesquisar nomes de registros, insira dataplex.googleapis.com%2Fdata_quality_scan_rule_result. Selecione data_quality_scan_rule_result e clique em Aplicar.

  7. Opcional: filtre os registros para um ID ou local específico de verificação de dados adicionando os seguintes filtros à consulta de registro:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. Clique em Executar consulta.

gcloud

Para ler as entradas de registro de resultados das regras de verificação de qualidade de dados, use o comando gcloud logging read com a seguinte consulta:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

Para listar entradas de registro, use o método entries.list.

Consultar registros de descoberta

Quando você usa o Dataplex Universal Catalog para descobrir dados em recursos, um registro de descoberta é gerado no Logging.

Console

  1. No console Google Cloud , acesse a página Explorador de registros.

    Acessar o "Explorador de registros"

  2. Na visualização Análise de registros, encontre a guia Consulta.

  3. Clique no menu Recurso.

  4. Selecione Zona do Cloud Dataplex. Clique em Aplicar.

  5. Clique no menu Nome do registro.

  6. No campo Pesquisar nomes de registros, insira dataplex.googleapis.com%2Fdiscovery. Selecione discovery e clique em Aplicar.

  7. Opcional: filtre os registros para um recurso específico adicionando os seguintes filtros à consulta de registro:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.zone_id="ZONE_ID"
    jsonPayload.assetId="ASSET_ID"
    
  8. Clique em Executar consulta.

gcloud

Para ler as entradas de registro de descoberta, use o comando gcloud logging read com a seguinte consulta:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Zone" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.zone_id=ZONE_ID AND
    jsonPayload.assetId=ASSET_ID'
    --limit 10

REST

Para listar entradas de registro, use o método entries.list.

Consultar registros de jobs de metadados

Quando você executa um job de importação de metadados, os registros do job de metadados são gerados no Logging.

Console

  1. No console Google Cloud , acesse a página Explorador de registros.

    Acessar o "Explorador de registros"

  2. Na visualização Análise de registros, encontre a guia Consulta.

  3. Clique no menu Recurso.

  4. Selecione Job de metadados do Cloud Dataplex.

  5. Opcional: para filtrar os registros em um local ou ID de job de metadados específico, selecione um local ou ID de job.

  6. Clique em Aplicar.

  7. Clique no menu Nome do registro.

  8. Digite dataplex.googleapis.com%2Fmetadata_job e selecione metadata_job.

  9. Clique em Aplicar.

gcloud

Para ler as entradas de registro do job de metadados, use o comando gcloud logging read com a seguinte consulta:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/MetadataJob" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
    resource.labels.location=LOCATION AND
    resource.labels.metadata_job_id=METADATA_JOB_ID
    --limit 10

REST

Para listar entradas de registro, use o método entries.list.

Consultar registros de processos

Quando você usa o Dataplex Universal Catalog para programar e executar tarefas, um registro de processo é gerado no Cloud Logging para o job resultante.

Console

  1. No console Google Cloud , acesse a página Explorador de registros.

    Acessar o "Explorador de registros"

  2. Na visualização Análise de registros, encontre a guia Consulta.

  3. Clique no menu Recurso.

  4. Selecione Tarefa do Cloud Dataplex. Clique em Aplicar.

  5. Clique no menu Nome do registro.

  6. No campo Pesquisar nomes de registros, insira dataplex.googleapis.com%2Fprocess. Selecione process e clique em Aplicar.

  7. Opcional: filtre os registros para uma tarefa específica adicionando os seguintes filtros na consulta de registro:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.task_id="TASK_ID"
    
  8. Clique em Executar consulta.

gcloud

Para ler as entradas de registro do processo, use o comando gcloud logging read com a seguinte consulta:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Task" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.task_id=TASK_ID'
    --limit 10

REST

Para listar entradas de registro, use o método entries.list.

A seguir