Neste documento, explicamos como acessar, consultar e interpretar os registros do Dataplex Universal Catalog usando o Cloud Logging. O acesso aos registros de jobs e serviços do Dataplex Universal Catalog ajuda a resolver problemas e monitorar atividades de gerenciamento de dados, incluindo descoberta de dados e verificação de qualidade de dados com tecnologia de IA. Ao centralizar registros no Logging, é possível analisar o desempenho do job, configurar alertas para falhas ou anomalias e rotear registros para outros serviços do Google Cloud , como o BigQuery, para retenção e análise de longo prazo.
Para entender os custos, consulte Preços do Google Cloud Observability.
Para mais informações sobre a retenção de registros, consulte Períodos de retenção dos registros.
Para desativar todos os registros ou excluir registros do Logging, consulte Filtros de exclusão.
Para rotear registros do Logging para o Cloud Storage, BigQuery ou Pub/Sub, consulte Visão geral de roteamento e armazenamento.
Casos de uso
O registro em registros do Dataplex Universal Catalog é compatível com casos de uso em diferentes setores:
- Resolver falhas de pipeline de dados:quando uma tarefa do Dataplex Universal Catalog para processamento de dados falha, os registros do
processfornecem mensagens de erro detalhadas que ajudam os engenheiros de dados a identificar e resolver problemas nos jobs do Spark ou em tarefas personalizadas. - Monitorar a qualidade dos dados:uma empresa de serviços financeiros pode monitorar registros de
data_quality_scan_rule_resultpara acompanhar as tendências de qualidade dos dados ao longo do tempo, receber alertas sobre degradações de qualidade em recursos de dados críticos e fornecer aos auditores evidências de verificações de qualidade de dados para conformidade regulatória. - Rastrear o enriquecimento de metadados:uma empresa de varejo que usa jobs de importação de metadados
para enriquecer o catálogo pode usar os registros do
metadata_jobpara verificar se as importações estão sendo concluídas e se todos os itens de metadados estão sendo processados corretamente. - Auditoria da descoberta de dados:as organizações podem usar os registros do
discoverypara monitorar como e quando novas fontes de dados são descobertas e registradas no Dataplex Universal Catalog, fornecendo um rastreamento de auditoria para processos de integração de dados.
Como funciona o registro em log do Dataplex Universal Catalog
O Dataplex Universal Catalog envia registros de operações de serviço e execuções de jobs para o Cloud Logging. Cada entrada de registro contém detalhes sobre a operação ou o job,
como status, horário de início e término, recursos associados (como uma verificação de dados
ou tarefa) e resultado. Diferentes tipos de operações, como verificação de dados, descoberta, importação de metadados e processamento de dados, geram tipos de registros diferentes, que podem ser consultados usando logName no Logging.
É possível acessar e analisar esses registros usando a Análise de registros no console doGoogle Cloud ou encaminhando-os para outros destinos, como buckets do Cloud Storage ou tabelas do BigQuery, para uma análise mais detalhada.
Acessar os registros de serviço do Dataplex Universal Catalog no Logging
O Dataplex Universal Catalog publica os seguintes registros de serviço no Cloud Logging.
| Tipo de registro | Nome do registro | logName consulta |
Descrição do registro |
|---|---|---|---|
| Registros de eventos de verificação de dados | dataplex.googleapis.com/data_scan |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) |
Registros de eventos para jobs de verificação de dados que indicam o estado, os resultados e as estatísticas do job |
| Registros de resultados de regras de verificação de qualidade de dados | dataplex.googleapis.com/data_quality_scan_rule_result |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) |
Resultados das regras de verificação de qualidade de dados em um job de qualidade de dados |
| Registros de descoberta | dataplex.googleapis.com/discovery |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) |
Progresso e atualizações da descoberta em recursos em uma zona |
| Registros de jobs de metadados | dataplex.googleapis.com/metadata_job |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) |
Registros sobre jobs de importação de metadados e itens de importação no arquivo de importação de metadados |
| Registros de processos | dataplex.googleapis.com/process |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) |
Execuções de jobs resultantes de tarefas de tratamento de dados |
Substitua:
- PROJECT_ID: ID do projeto
Para acessar a geração de registros, use a
Análise de registros no
console doGoogle Cloud , os
comandos gcloud logging ou
a API Logging.
Consultar registros de eventos de verificação de dados
Ao usar o Dataplex Universal Catalog para criar e executar uma verificação de dados, um registro de eventos de verificação de dados é gerado no Cloud Logging para o job resultante.
Console
No console Google Cloud , acesse a página Explorador de registros.
Na visualização Análise de registros, encontre a guia Consulta.
Clique no menu Recurso.
Selecione DataScan do Cloud Dataplex. Clique em Aplicar.
Clique no menu Nome do registro.
No campo Pesquisar nomes de registros, insira
dataplex.googleapis.com%2Fdata_scan. Selecione data_scan e clique em Aplicar.Opcional: filtre os registros para um ID ou local específico de verificação de dados adicionando os seguintes filtros à consulta de registro:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
Clique em Executar consulta.
gcloud
Para ler as entradas de registro de eventos de verificação de dados, use o comando gcloud logging read com a seguinte consulta:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
Para listar entradas de registro, use o
método entries.list.
Consultar registros de resultados de regras de verificação de qualidade de dados
Ao usar o Dataplex Universal Catalog para criar e executar uma verificação de qualidade de dados, um registro de resultados da regra de verificação de qualidade de dados é gerado no Logging para o job resultante.
Console
No console Google Cloud , acesse a página Explorador de registros.
Na visualização Análise de registros, encontre a guia Consulta.
Clique no menu Recurso.
Selecione DataScan do Cloud Dataplex. Clique em Aplicar.
Clique no menu Nome do registro.
No campo Pesquisar nomes de registros, insira
dataplex.googleapis.com%2Fdata_quality_scan_rule_result. Selecione data_quality_scan_rule_result e clique em Aplicar.Opcional: filtre os registros para um ID ou local específico de verificação de dados adicionando os seguintes filtros à consulta de registro:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
Clique em Executar consulta.
gcloud
Para ler as entradas de registro de resultados das regras de verificação de qualidade de dados, use o comando gcloud logging read com a seguinte consulta:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
Para listar entradas de registro, use o
método entries.list.
Consultar registros de descoberta
Quando você usa o Dataplex Universal Catalog para descobrir dados em recursos, um registro de descoberta é gerado no Logging.
Console
No console Google Cloud , acesse a página Explorador de registros.
Na visualização Análise de registros, encontre a guia Consulta.
Clique no menu Recurso.
Selecione Zona do Cloud Dataplex. Clique em Aplicar.
Clique no menu Nome do registro.
No campo Pesquisar nomes de registros, insira
dataplex.googleapis.com%2Fdiscovery. Selecione discovery e clique em Aplicar.Opcional: filtre os registros para um recurso específico adicionando os seguintes filtros à consulta de registro:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.zone_id="ZONE_ID" jsonPayload.assetId="ASSET_ID"
Clique em Executar consulta.
gcloud
Para ler as entradas de registro de descoberta, use o
comando gcloud logging read
com a seguinte consulta:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Zone" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.zone_id=ZONE_ID AND
jsonPayload.assetId=ASSET_ID'
--limit 10
REST
Para listar entradas de registro, use o
método entries.list.
Consultar registros de jobs de metadados
Quando você executa um job de importação de metadados, os registros do job de metadados são gerados no Logging.
Console
No console Google Cloud , acesse a página Explorador de registros.
Na visualização Análise de registros, encontre a guia Consulta.
Clique no menu Recurso.
Selecione Job de metadados do Cloud Dataplex.
Opcional: para filtrar os registros em um local ou ID de job de metadados específico, selecione um local ou ID de job.
Clique em Aplicar.
Clique no menu Nome do registro.
Digite
dataplex.googleapis.com%2Fmetadata_jobe selecione metadata_job.Clique em Aplicar.
gcloud
Para ler as entradas de registro do job de metadados, use o
comando gcloud logging read
com a seguinte consulta:
gcloud logging read \
'resource.type="dataplex.googleapis.com/MetadataJob" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
resource.labels.location=LOCATION AND
resource.labels.metadata_job_id=METADATA_JOB_ID
--limit 10
REST
Para listar entradas de registro, use o
método entries.list.
Consultar registros de processos
Quando você usa o Dataplex Universal Catalog para programar e executar tarefas, um registro de processo é gerado no Cloud Logging para o job resultante.
Console
No console Google Cloud , acesse a página Explorador de registros.
Na visualização Análise de registros, encontre a guia Consulta.
Clique no menu Recurso.
Selecione Tarefa do Cloud Dataplex. Clique em Aplicar.
Clique no menu Nome do registro.
No campo Pesquisar nomes de registros, insira
dataplex.googleapis.com%2Fprocess. Selecione process e clique em Aplicar.Opcional: filtre os registros para uma tarefa específica adicionando os seguintes filtros na consulta de registro:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.task_id="TASK_ID"
Clique em Executar consulta.
gcloud
Para ler as entradas de registro do processo, use o comando gcloud logging read com a seguinte consulta:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Task" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.task_id=TASK_ID'
--limit 10
REST
Para listar entradas de registro, use o
método entries.list.
A seguir
- Saiba mais sobre o Cloud Logging.
- Saiba mais sobre o monitoramento do Dataplex Universal Catalog.