Monitorar registros do Catálogo de Conhecimento

Este documento explica como acessar, consultar e interpretar os registros do Catálogo de Conhecimento (antigo Dataplex Universal Catalog) usando o Cloud Logging. O acesso aos registros de jobs e serviços do Catálogo de Conhecimento ajuda a resolver problemas e monitorar atividades de gerenciamento de dados, incluindo descoberta de dados com tecnologia de IA e verificação de qualidade de dados. Ao centralizar os registros no Logging, é possível analisar a performance do job, configurar alertas para falhas ou anomalias e encaminhar registros para outros Google Cloud serviços, como o BigQuery, para retenção e análise de longo prazo.

Para entender os custos, consulte Preços do Google Cloud Observability.

Para mais informações sobre a retenção de registros, consulte Períodos de retenção de registros.

Para desativar todos os registros ou excluir registros do Logging, consulte Filtros de exclusão.

Para encaminhar registros do Logging para o Cloud Storage, o BigQuery ou o Pub/Sub, consulte Visão geral de roteamento e armazenamento.

Casos de uso

O registro do Catálogo de Conhecimento oferece suporte a casos de uso em diferentes setores:

  • Resolver falhas de pipeline de dados:quando uma tarefa do Catálogo de Conhecimento para processamento de dados falha, os registros process fornecem mensagens de erro detalhadas que ajudam os engenheiros de dados a identificar e resolver problemas nos jobs do Spark ou nas tarefas personalizadas.
  • Monitorar a qualidade dos dados:uma empresa de serviços financeiros pode monitorar os registros data_quality_scan_rule_result para acompanhar as tendências de qualidade de dados ao longo do tempo, receber alertas sobre degradações de qualidade para ativos de dados críticos e fornecer aos auditores evidências de verificações de qualidade de dados para conformidade regulatória.
  • Acompanhar o enriquecimento de metadados:uma empresa de varejo que usa jobs de importação de metadados para enriquecer o catálogo pode usar registros metadata_job para verificar se as importações estão sendo concluídas e se todos os itens de metadados estão sendo processados corretamente.
  • Auditar a descoberta de dados:as organizações podem usar registros discovery para monitorar como e quando novas fontes de dados estão sendo descobertas e registradas no Catálogo de Conhecimento, fornecendo uma trilha de auditoria para processos de integração de dados.

Como funciona o registro do Catálogo de Conhecimento

O Catálogo de Conhecimento envia registros de operações de serviço e execuções de jobs para o Cloud Logging. Cada entrada de registro contém detalhes sobre a operação ou o job, como status, hora de início e término, recursos associados (como uma verificação ou tarefa de dados) e resultado. Diferentes tipos de operações, como verificação de dados, descoberta, importação de metadados e processamento de dados, geram diferentes tipos de registros, que podem ser consultados usando logName no Logging.

É possível acessar e analisar esses registros usando a Análise de registros no Google Cloud console ou encaminhando-os para outros destinos, como buckets do Cloud Storage ou tabelas do BigQuery, para análise mais detalhada.

Acessar registros de serviço do Catálogo de Conhecimento no Logging

O Catálogo de Conhecimento publica os seguintes registros de serviço no Cloud Logging.

Tipo de registro Nome do registro Consulta logName Descrição do registro
Registros de eventos de verificação de dados dataplex.googleapis.com/data_scan logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) Registros de eventos para jobs de verificação de dados que indicam o estado, os resultados e as estatísticas do job
Registros de resultados de regras de verificação de qualidade de dados dataplex.googleapis.com/data_quality_scan_rule_result logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) Resultados das regras de verificação de qualidade de dados em um job de qualidade de dados
Registros de descoberta dataplex.googleapis.com/discovery logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) Progresso e atualizações de descoberta em ativos em uma zona
Registros de jobs de metadados dataplex.googleapis.com/metadata_job logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) Registros sobre jobs de importação de metadados e itens de importação no arquivo de importação de metadados
Registros de processos dataplex.googleapis.com/process logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) Execuções de jobs resultantes de tarefas de processamento de dados

Substitua:

  • PROJECT_ID: ID do projeto

Para acessar o Logging, use o Análise de registros no Google Cloud console, os gcloud logging comandos ou a API Logging.

Consultar registros de eventos de verificação de dados

Quando você usa o Catálogo de Conhecimento para criar e executar uma verificação de dados, um registro de eventos de verificação de dados é produzido no Logging para o job resultante.

Console

  1. No Google Cloud console, acesse a página Explorador de registros.

    Acessar o "Explorador de registros"

  2. Na visualização Análise de registros, encontre a guia Consulta.

  3. Clique no menu Recurso.

  4. Selecione Cloud Dataplex DataScan. Clique em Aplicar.

  5. Clique no menu Nome do registro.

  6. No campo Pesquisar nomes de registros, insira dataplex.googleapis.com%2Fdata_scan. Selecione data_scan e clique em Aplicar.

  7. Opcional: filtre os registros para um ID ou local de verificação de dados específico adicionando os seguintes filtros na consulta de registro:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. Clique em Executar consulta.

gcloud

Para ler as entradas de log de eventos de verificação de dados, use o gcloud logging read comando com a seguinte consulta:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

Para listar entradas de registro, use o entries.list método.

Consultar registros de resultados de regras de verificação de qualidade de dados

Quando você usa o Catálogo de Conhecimento para criar e executar uma verificação de qualidade de dados, um registro de resultados de regras de verificação de qualidade de dados é produzido no Logging para o job resultante.

Console

  1. No Google Cloud console, acesse a página Explorador de registros.

    Acessar o "Explorador de registros"

  2. Na visualização Análise de registros, encontre a guia Consulta.

  3. Clique no menu Recurso.

  4. Selecione Cloud Dataplex DataScan. Clique em Aplicar.

  5. Clique no menu Nome do registro.

  6. No campo Pesquisar nomes de registros, insira dataplex.googleapis.com%2Fdata_quality_scan_rule_result. Selecione data_quality_scan_rule_result e clique em Aplicar.

  7. Opcional: filtre os registros para um ID ou local de verificação de dados específico adicionando os seguintes filtros na consulta de registro:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. Clique em Executar consulta.

gcloud

Para ler as entradas de registro de resultados de regras de verificação de qualidade de dados, use o gcloud logging read comando com a seguinte consulta:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

Para listar entradas de registro, use o entries.list método.

Consultar registros de descoberta

Quando você usa o Catálogo de Conhecimento para descobrir dados em ativos, um registro de descoberta é produzido no Logging.

Console

  1. No Google Cloud console, acesse a página Explorador de registros.

    Acessar o "Explorador de registros"

  2. Na visualização Análise de registros, encontre a guia Consulta.

  3. Clique no menu Recurso.

  4. Selecione Zona do Cloud Dataplex. Clique em Aplicar.

  5. Clique no menu Nome do registro.

  6. No campo Pesquisar nomes de registros, insira dataplex.googleapis.com%2Fdiscovery. Selecione discovery e clique em Aplicar.

  7. Opcional: filtre os registros para um ativo específico adicionando os seguintes filtros na consulta de registro:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.zone_id="ZONE_ID"
    jsonPayload.assetId="ASSET_ID"
    
  8. Clique em Executar consulta.

gcloud

Para ler as entradas de registro de descoberta, use o gcloud logging read comando com a seguinte consulta:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Zone" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.zone_id=ZONE_ID AND
    jsonPayload.assetId=ASSET_ID'
    --limit 10

REST

Para listar entradas de registro, use o entries.list método.

Consultar registros de jobs de metadados

Quando você executa um job de importação de metadados, os registros de jobs de metadados são produzidos no Logging.

Console

  1. No Google Cloud console, acesse a página Explorador de registros.

    Acessar o "Explorador de registros"

  2. Na visualização Análise de registros, encontre a guia Consulta.

  3. Clique no menu Recurso.

  4. Selecione Job de metadados do Cloud Dataplex.

  5. Opcional: para filtrar os registros para um local ou ID de job de metadados específico, selecione um local ou ID de job.

  6. Clique em Aplicar.

  7. Clique no menu Nome do registro.

  8. Digite dataplex.googleapis.com%2Fmetadata_job e selecione metadata_job.

  9. Clique em Aplicar.

gcloud

Para ler as entradas de registro de jobs de metadados, use o gcloud logging read comando com a seguinte consulta:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/MetadataJob" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
    resource.labels.location=LOCATION AND
    resource.labels.metadata_job_id=METADATA_JOB_ID
    --limit 10

REST

Para listar entradas de registro, use o entries.list método.

Consultar registros de processos

Quando você usa o Catálogo de Conhecimento para programar e executar tarefas, um registro de processo é produzido no Logging para o job resultante.

Console

  1. No Google Cloud console, acesse a página Explorador de registros.

    Acessar o "Explorador de registros"

  2. Na visualização Análise de registros, encontre a guia Consulta.

  3. Clique no menu Recurso.

  4. Selecione Tarefa do Cloud Dataplex. Clique em Aplicar.

  5. Clique no menu Nome do registro.

  6. No campo Pesquisar nomes de registros, insira dataplex.googleapis.com%2Fprocess. Selecione process e clique em Aplicar.

  7. Opcional: filtre os registros para uma tarefa específica adicionando os seguintes filtros na consulta de registro:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.task_id="TASK_ID"
    
  8. Clique em Executar consulta.

gcloud

Para ler as entradas de registro de processos, use o gcloud logging read comando com a seguinte consulta:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Task" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.task_id=TASK_ID'
    --limit 10

REST

Para listar entradas de registro, use o entries.list método.

A seguir