Este documento explica como acessar, consultar e interpretar os registros do Catálogo de Conhecimento (antigo Dataplex Universal Catalog) usando o Cloud Logging. O acesso aos registros de jobs e serviços do Catálogo de Conhecimento ajuda a resolver problemas e monitorar atividades de gerenciamento de dados, incluindo descoberta de dados com tecnologia de IA e verificação de qualidade de dados. Ao centralizar os registros no Logging, é possível analisar a performance do job, configurar alertas para falhas ou anomalias e encaminhar registros para outros Google Cloud serviços, como o BigQuery, para retenção e análise de longo prazo.
Para entender os custos, consulte Preços do Google Cloud Observability.
Para mais informações sobre a retenção de registros, consulte Períodos de retenção de registros.
Para desativar todos os registros ou excluir registros do Logging, consulte Filtros de exclusão.
Para encaminhar registros do Logging para o Cloud Storage, o BigQuery ou o Pub/Sub, consulte Visão geral de roteamento e armazenamento.
Casos de uso
O registro do Catálogo de Conhecimento oferece suporte a casos de uso em diferentes setores:
- Resolver falhas de pipeline de dados:quando uma tarefa do Catálogo de Conhecimento para processamento de dados falha, os registros
processfornecem mensagens de erro detalhadas que ajudam os engenheiros de dados a identificar e resolver problemas nos jobs do Spark ou nas tarefas personalizadas. - Monitorar a qualidade dos dados:uma empresa de serviços financeiros pode monitorar os registros
data_quality_scan_rule_resultpara acompanhar as tendências de qualidade de dados ao longo do tempo, receber alertas sobre degradações de qualidade para ativos de dados críticos e fornecer aos auditores evidências de verificações de qualidade de dados para conformidade regulatória. - Acompanhar o enriquecimento de metadados:uma empresa de varejo que usa jobs de importação de metadados para enriquecer o catálogo pode usar registros
metadata_jobpara verificar se as importações estão sendo concluídas e se todos os itens de metadados estão sendo processados corretamente. - Auditar a descoberta de dados:as organizações podem usar registros
discoverypara monitorar como e quando novas fontes de dados estão sendo descobertas e registradas no Catálogo de Conhecimento, fornecendo uma trilha de auditoria para processos de integração de dados.
Como funciona o registro do Catálogo de Conhecimento
O Catálogo de Conhecimento envia registros de operações de serviço e execuções de jobs para o Cloud Logging. Cada entrada de registro contém detalhes sobre a operação ou o job, como status, hora de início e término, recursos associados (como uma verificação ou tarefa de dados) e resultado. Diferentes tipos de operações, como verificação de dados, descoberta, importação de metadados e processamento de dados, geram diferentes tipos de registros, que podem ser consultados usando logName no Logging.
É possível acessar e analisar esses registros usando a Análise de registros no Google Cloud console ou encaminhando-os para outros destinos, como buckets do Cloud Storage ou tabelas do BigQuery, para análise mais detalhada.
Acessar registros de serviço do Catálogo de Conhecimento no Logging
O Catálogo de Conhecimento publica os seguintes registros de serviço no Cloud Logging.
| Tipo de registro | Nome do registro | Consulta logName |
Descrição do registro |
|---|---|---|---|
| Registros de eventos de verificação de dados | dataplex.googleapis.com/data_scan |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) |
Registros de eventos para jobs de verificação de dados que indicam o estado, os resultados e as estatísticas do job |
| Registros de resultados de regras de verificação de qualidade de dados | dataplex.googleapis.com/data_quality_scan_rule_result |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) |
Resultados das regras de verificação de qualidade de dados em um job de qualidade de dados |
| Registros de descoberta | dataplex.googleapis.com/discovery |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) |
Progresso e atualizações de descoberta em ativos em uma zona |
| Registros de jobs de metadados | dataplex.googleapis.com/metadata_job |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) |
Registros sobre jobs de importação de metadados e itens de importação no arquivo de importação de metadados |
| Registros de processos | dataplex.googleapis.com/process |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) |
Execuções de jobs resultantes de tarefas de processamento de dados |
Substitua:
- PROJECT_ID: ID do projeto
Para acessar o Logging, use o
Análise de registros no
Google Cloud console, os
gcloud logging comandos ou
a API Logging.
Consultar registros de eventos de verificação de dados
Quando você usa o Catálogo de Conhecimento para criar e executar uma verificação de dados, um registro de eventos de verificação de dados é produzido no Logging para o job resultante.
Console
No Google Cloud console, acesse a página Explorador de registros.
Na visualização Análise de registros, encontre a guia Consulta.
Clique no menu Recurso.
Selecione Cloud Dataplex DataScan. Clique em Aplicar.
Clique no menu Nome do registro.
No campo Pesquisar nomes de registros, insira
dataplex.googleapis.com%2Fdata_scan. Selecione data_scan e clique em Aplicar.Opcional: filtre os registros para um ID ou local de verificação de dados específico adicionando os seguintes filtros na consulta de registro:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
Clique em Executar consulta.
gcloud
Para ler as entradas de log de eventos de verificação de dados, use o
gcloud logging read comando
com a seguinte consulta:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
Para listar entradas de registro, use o
entries.list método.
Consultar registros de resultados de regras de verificação de qualidade de dados
Quando você usa o Catálogo de Conhecimento para criar e executar uma verificação de qualidade de dados, um registro de resultados de regras de verificação de qualidade de dados é produzido no Logging para o job resultante.
Console
No Google Cloud console, acesse a página Explorador de registros.
Na visualização Análise de registros, encontre a guia Consulta.
Clique no menu Recurso.
Selecione Cloud Dataplex DataScan. Clique em Aplicar.
Clique no menu Nome do registro.
No campo Pesquisar nomes de registros, insira
dataplex.googleapis.com%2Fdata_quality_scan_rule_result. Selecione data_quality_scan_rule_result e clique em Aplicar.Opcional: filtre os registros para um ID ou local de verificação de dados específico adicionando os seguintes filtros na consulta de registro:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
Clique em Executar consulta.
gcloud
Para ler as entradas de registro de resultados de regras de verificação de qualidade de dados, use o
gcloud logging read comando
com a seguinte consulta:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
Para listar entradas de registro, use o
entries.list método.
Consultar registros de descoberta
Quando você usa o Catálogo de Conhecimento para descobrir dados em ativos, um registro de descoberta é produzido no Logging.
Console
No Google Cloud console, acesse a página Explorador de registros.
Na visualização Análise de registros, encontre a guia Consulta.
Clique no menu Recurso.
Selecione Zona do Cloud Dataplex. Clique em Aplicar.
Clique no menu Nome do registro.
No campo Pesquisar nomes de registros, insira
dataplex.googleapis.com%2Fdiscovery. Selecione discovery e clique em Aplicar.Opcional: filtre os registros para um ativo específico adicionando os seguintes filtros na consulta de registro:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.zone_id="ZONE_ID" jsonPayload.assetId="ASSET_ID"
Clique em Executar consulta.
gcloud
Para ler as entradas de registro de descoberta, use o
gcloud logging read comando
com a seguinte consulta:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Zone" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.zone_id=ZONE_ID AND
jsonPayload.assetId=ASSET_ID'
--limit 10
REST
Para listar entradas de registro, use o
entries.list método.
Consultar registros de jobs de metadados
Quando você executa um job de importação de metadados, os registros de jobs de metadados são produzidos no Logging.
Console
No Google Cloud console, acesse a página Explorador de registros.
Na visualização Análise de registros, encontre a guia Consulta.
Clique no menu Recurso.
Selecione Job de metadados do Cloud Dataplex.
Opcional: para filtrar os registros para um local ou ID de job de metadados específico, selecione um local ou ID de job.
Clique em Aplicar.
Clique no menu Nome do registro.
Digite
dataplex.googleapis.com%2Fmetadata_jobe selecione metadata_job.Clique em Aplicar.
gcloud
Para ler as entradas de registro de jobs de metadados, use o
gcloud logging read comando
com a seguinte consulta:
gcloud logging read \
'resource.type="dataplex.googleapis.com/MetadataJob" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
resource.labels.location=LOCATION AND
resource.labels.metadata_job_id=METADATA_JOB_ID
--limit 10
REST
Para listar entradas de registro, use o
entries.list método.
Consultar registros de processos
Quando você usa o Catálogo de Conhecimento para programar e executar tarefas, um registro de processo é produzido no Logging para o job resultante.
Console
No Google Cloud console, acesse a página Explorador de registros.
Na visualização Análise de registros, encontre a guia Consulta.
Clique no menu Recurso.
Selecione Tarefa do Cloud Dataplex. Clique em Aplicar.
Clique no menu Nome do registro.
No campo Pesquisar nomes de registros, insira
dataplex.googleapis.com%2Fprocess. Selecione process e clique em Aplicar.Opcional: filtre os registros para uma tarefa específica adicionando os seguintes filtros na consulta de registro:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.task_id="TASK_ID"
Clique em Executar consulta.
gcloud
Para ler as entradas de registro de processos, use o
gcloud logging read comando
com a seguinte consulta:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Task" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.task_id=TASK_ID'
--limit 10
REST
Para listar entradas de registro, use o
entries.list método.
A seguir
- Saiba mais sobre Cloud Logging.
- Saiba mais sobre o monitoramento do Catálogo de Conhecimento.