Crie e use análises de perfis de dados

O catálogo universal do Dataplex permite-lhe identificar características estatísticas comuns (valores comuns, distribuição de dados, contagens nulas) das colunas nas suas tabelas do BigQuery. Estas informações ajudam a compreender e analisar os seus dados de forma mais eficaz.

Para mais informações sobre as análises de perfis de dados do Dataplex Universal Catalog, consulte o artigo Acerca da criação de perfis de dados.

Antes de começar

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Funções necessárias

Para criar perfis de tabelas do BigQuery, precisa das seguintes autorizações:

  • Para executar uma análise de perfil de dados numa tabela do BigQuery, precisa de autorização para ler a tabela do BigQuery e autorização para criar uma tarefa do BigQuery no projeto usado para analisar a tabela.

  • Se a tabela do BigQuery e a análise do perfil de dados estiverem em projetos diferentes, tem de conceder autorização de leitura à conta de serviço do catálogo universal do Dataplex na tabela do BigQuery correspondente.

  • Se os dados do BigQuery estiverem organizados num lake do Dataplex Universal Catalog, para criar uma análise de perfil de dados, precisa das funções do Dataplex Universal Catalog roles/dataplex.metadataReader e roles/dataplex.viewer. Isto concede as seguintes autorizações:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Se estiver a analisar uma tabela externa do BigQuery a partir do Cloud Storage, atribua à conta de serviço do catálogo universal do Dataplex a função Storage Object Viewer (roles/storage.objectViewer) ou as seguintes autorizações no contentor:

    • storage.buckets.get
    • storage.objects.get
  • Se quiser publicar os resultados da análise do perfil de dados nas páginas do catálogo universal do BigQuery e do Dataplex na consolaGoogle Cloud roles/bigquery.dataEditor para as tabelas de origem, tem de lhe ser atribuída a função de editor de dados do BigQuery (roles/bigquery.dataEditor) na tabela. Em alternativa, precisa de todas as seguintes autorizações:

    • bigquery.tables.get
    • bigquery.tables.update
    • bigquery.tables.updateData
    • bigquery.tables.delete
  • Para exportar os resultados da análise para uma tabela do BigQuery, a conta de serviço do catálogo universal do Dataplex precisa da função de editor de dados do BigQuery (roles/bigquery.dataEditor). Isto concede as seguintes autorizações:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Se precisar de aceder a colunas protegidas por políticas de acesso ao nível da coluna do BigQuery, atribua autorizações da conta de serviço do Dataplex Universal Catalog a essas colunas. O utilizador que cria ou atualiza uma análise de dados também precisa de autorizações nas colunas.

  • Se uma tabela tiver políticas de acesso ao nível da linha do BigQuery ativadas, só pode analisar linhas visíveis para a conta de serviço do catálogo universal do Dataplex. Tenha em atenção que os privilégios de acesso do utilizador individual não são avaliados para políticas ao nível da linha.

Funções e autorizações de análise de dados

Para usar a criação de perfis de dados, peça ao seu administrador para lhe conceder uma das seguintes funções de IAM:

  • roles/dataplex.dataScanAdmin: acesso total aos recursos do DataScan.
  • roles/dataplex.dataScanEditor: acesso de escrita aos recursos DataScan.
  • roles/dataplex.dataScanViewer: acesso de leitura aos recursos DataScan, excluindo os resultados.
  • roles/dataplex.dataScanDataViewer: acesso de leitura aos recursos DataScan, incluindo os resultados.

A tabela seguinte apresenta as autorizações de análise de dados:

Nome da autorização Concede autorização para realizar as seguintes ações:
dataplex.datascans.create Crie um DataScan
dataplex.datascans.delete Elimine um DataScan
dataplex.datascans.get Veja os detalhes de DataScan excluindo os resultados
dataplex.datascans.getData Veja os detalhes de DataScan, incluindo os resultados
dataplex.datascans.list Lista de DataScans
dataplex.datascans.run Execute um DataScan
dataplex.datascans.update Atualize a descrição de um DataScan
dataplex.datascans.getIamPolicy Veja as autorizações IAM atuais na análise
dataplex.datascans.setIamPolicy Defina as autorizações da IAM na análise

Crie uma análise do perfil de dados

Consola

  1. Na Google Cloud consola, aceda à página Dataplex Universal Catalog Perfil e qualidade dos dados.

    Aceda a Criação de perfis e qualidade dos dados

  2. Clique em Criar análise do perfil de dados.

  3. Opcional: introduza um Nome a apresentar.

  4. Introduza um ID. Consulte as Convenções de nomenclatura de recursos.

  5. Opcional: introduza uma Descrição.

  6. No campo Tabela, clique em Procurar. Escolha a tabela a analisar e, de seguida, clique em Selecionar.

    Para tabelas em conjuntos de dados multirregionais, escolha uma região onde criar a análise de dados.

    Para procurar as tabelas organizadas nos lagos do Dataplex Universal Catalog, clique em Procurar nos lagos do Dataplex.

  7. No campo Âmbito, escolha Incremental ou Dados completos.

    • Se escolher Dados incrementais, no campo Coluna de data/hora, selecione uma coluna do tipo DATE ou TIMESTAMP na sua tabela do BigQuery que aumenta à medida que são adicionados novos registos e que pode ser usada para identificar novos registos. Para tabelas particionadas numa coluna do tipo DATE ou TIMESTAMP, recomendamos que use a coluna de partição como o campo de data/hora.
  8. Opcional: para filtrar os dados, faça qualquer uma das seguintes ações:

    • Para filtrar por linhas, clique na caixa de verificação Filtrar linhas. Introduza uma expressão SQL válida que possa ser usada numa cláusula WHERE na sintaxe GoogleSQL. Por exemplo: col1 >= 0.

      O filtro pode ser uma combinação de condições SQL em várias colunas. Por exemplo: col1 >= 0 AND col2 < 10.

    • Para filtrar por colunas, selecione a caixa de verificação Filtrar colunas.

      • Para incluir colunas na análise do perfil, no campo Incluir colunas, clique em Procurar. Selecione as colunas a incluir e, de seguida, clique em Selecionar.

      • Para excluir colunas da análise do perfil, no campo Excluir colunas, clique em Procurar. Selecione as colunas a excluir e, de seguida, clique em Selecionar.

  9. Para aplicar a amostragem à análise do perfil de dados, na lista Tamanho da amostragem, selecione uma percentagem de amostragem. Escolha um valor percentual entre 0,0% e 100,0% com um máximo de 3 dígitos decimais.

    • Para conjuntos de dados maiores, escolha uma percentagem de amostragem mais baixa. Por exemplo, para uma tabela de 1 PB, se introduzir um valor entre 0,1% e 1,0%, o perfil de dados faz a amostragem entre 1 e 10 TB de dados.

    • Tem de haver, pelo menos, 100 registos nos dados com amostragem para devolver um resultado.

    • Para verificações de dados incrementais, a verificação do perfil de dados aplica a amostragem ao incremento mais recente.

  10. Opcional: publique os resultados da análise do perfil de dados nas páginas do catálogo universal do BigQuery e Dataplex na consola para a tabela de origem.Google Cloud Selecione a caixa de verificação Publicar resultados na IU do BigQuery e do catálogo do Dataplex.

    Pode ver os resultados da análise mais recentes no separador Perfil de dados nas páginas do catálogo universal do BigQuery e do Dataplex para a tabela de origem. Para permitir que os utilizadores acedam aos resultados da análise publicados, consulte a secção Conceda acesso aos resultados da análise do perfil de dados deste documento.

    A opção de publicação pode não estar disponível nos seguintes casos:

    • Não tem as autorizações necessárias na tabela.
    • Está agendada outra análise da qualidade de dados para publicar resultados.
  11. Na secção Programação, escolha uma das seguintes opções:

    • Repetir: execute a análise do perfil de dados de acordo com um agendamento: de hora a hora, diariamente, semanalmente, mensalmente ou personalizado. Especifique a frequência com que a análise deve ser executada e a que horas. Se escolher a opção personalizada, use o formato cron para especificar a agenda.

    • A pedido: execute a análise do perfil de dados a pedido.

  12. Clique em Continuar.

  13. Opcional: exporte os resultados da análise para uma tabela padrão do BigQuery. Na secção Exporte os resultados da análise para a tabela do BigQuery, faça o seguinte:

    1. No campo Selecionar conjunto de dados do BigQuery, clique em Procurar. Selecione um conjunto de dados do BigQuery para armazenar os resultados da análise do perfil de dados.

    2. No campo Tabela do BigQuery, especifique a tabela para armazenar os resultados da análise detalhada do perfil de dados. Se estiver a usar uma tabela existente, certifique-se de que é compatível com o esquema da tabela de exportação. Se a tabela especificada não existir, o Dataplex Universal Catalog cria-a para si.

  14. Opcional: adicione etiquetas. As etiquetas são pares de chave-valor que lhe permitem agrupar objetos relacionados ou com outros Google Cloud recursos.

  15. Para criar a análise, clique em Criar.

    Se definir a programação como a pedido, também pode executar a análise agora clicando em Executar análise.

gcloud

Para criar uma análise de perfil de dados, use o comando gcloud dataplex datascans create data-profile.

Se os dados de origem estiverem organizados num lake do Dataplex Universal Catalog, inclua a flag --data-source-entity:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY

Se os dados de origem não estiverem organizados num lake do catálogo universal do Dataplex, inclua a flag --data-source-resource:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-resource=DATA_SOURCE_RESOURCE

Substitua as seguintes variáveis:

  • DATASCAN: o nome da análise do perfil de dados.
  • LOCATION: A Google Cloud região na qual criar a análise do perfil de dados.
  • DATA_SOURCE_ENTITY: a entidade do Dataplex Universal Catalog que contém os dados para a análise do perfil de dados. Por exemplo, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
  • DATA_SOURCE_RESOURCE: O nome do recurso que contém os dados para a análise do perfil de dados. Por exemplo, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

REST

Para criar uma análise de perfil de dados, use o método dataScans.create.

Exporte o esquema da tabela

Se quiser exportar os resultados da análise do perfil de dados para uma tabela do BigQuery existente, certifique-se de que é compatível com o seguinte esquema de tabela:

Nome da coluna Tipo de dados da coluna Nome do subcampo (se aplicável) Tipo de dados do subcampo Modo Exemplo
data_profile_scan struct/record resource_name string anulável //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string anulável test-project
location string anulável us-central1
data_scan_id string anulável test-datascan
data_source struct/record resource_name string anulável

Diferenciação entre maiúsculas e minúsculas da entidade: //dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity

Tabela de registos: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

dataplex_entity_project_id string anulável test-project
dataplex_entity_project_number integer anulável 123456789012
dataplex_lake_id string anulável

(Válido apenas se a origem for uma entidade)

test-lake

dataplex_zone_id string anulável

(Válido apenas se a origem for uma entidade)

test-zone

dataplex_entity_id string anulável

(Válido apenas se a origem for uma entidade)

test-entity

table_project_id string anulável dataplex-table
table_project_number int64 anulável 345678901234
dataset_id string anulável

(Válido apenas se a origem for uma tabela)

test-dataset

table_id string anulável

(Válido apenas se a origem for uma tabela)

test-table

data_profile_job_id string anulável caeba234-cfde-4fca-9e5b-fe02a9812e38
data_profile_job_configuration json trigger string anulável ondemand/schedule
incremental boolean anulável true/false
sampling_percent float anulável

(0-100)

20.0 (indica 20%)

row_filter string anulável col1 >= 0 AND col2 < 10
column_filter json anulável {"include_fields":["col1","col2"], "exclude_fields":["col3"]}
job_labels json anulável {"key1":value1}
job_start_time timestamp anulável 2023-01-01 00:00:00 UTC
job_end_time timestamp anulável 2023-01-01 00:00:00 UTC
job_rows_scanned integer anulável 7500
column_name string anulável column-1
column_type string anulável string
column_mode string anulável repeated
percent_null float anulável

(0,0-100,0)

20.0 (indica 20%)

percent_unique float anulável

(0,0-100,0)

92.5

min_string_length integer anulável

(Válido apenas se o tipo de coluna for string)

10

max_string_length integer anulável

(Válido apenas se o tipo de coluna for string)

4

average_string_length float anulável

(Válido apenas se o tipo de coluna for string)

7.2

min_value float anulável (Válido apenas se o tipo de coluna for numérico: inteiro/decimal)
max_value float anulável (Válido apenas se o tipo de coluna for numérico: inteiro/decimal)
average_value float anulável (Válido apenas se o tipo de coluna for numérico: inteiro/decimal)
standard_deviation float anulável (Válido apenas se o tipo de coluna for numérico: inteiro/decimal)
quartile_lower integer anulável (Válido apenas se o tipo de coluna for numérico: inteiro/decimal)
quartile_median integer anulável (Válido apenas se o tipo de coluna for numérico: inteiro/decimal)
quartile_upper integer anulável (Válido apenas se o tipo de coluna for numérico: inteiro/decimal)
top_n struct/record - repeated value string anulável "4009"
count integer anulável 20
percent float anulável 10 (indica 10%)

Configuração da tabela de exportação

Quando exporta para tabelas do BigQueryExport, siga estas diretrizes:

  • Para o campo resultsTable, use o formato: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
  • Use uma tabela padrão do BigQuery.
  • Se a tabela não existir quando a análise é criada ou atualizada, o catálogo universal do Dataplex cria a tabela por si.
  • Por predefinição, a tabela é particionada diariamente na coluna job_start_time.
  • Se quiser que a tabela seja particionada noutras configurações ou se não quiser a partição, recrie a tabela com o esquema e as configurações necessários e, em seguida, faculte a tabela pré-criada como a tabela de resultados.
  • Certifique-se de que a tabela de resultados está na mesma localização que a tabela de origem.
  • Se os VPC-SC estiverem configurados no projeto, a tabela de resultados tem de estar no mesmo perímetro dos VPC-SC que a tabela de origem.
  • Se a tabela for modificada durante a fase de execução da análise, a tarefa em execução exporta para a tabela de resultados anterior e a alteração da tabela entra em vigor a partir da tarefa de análise seguinte.
  • Não modifique o esquema da tabela. Se precisar de colunas personalizadas, crie uma vista com base na tabela.
  • Para reduzir os custos, defina uma data de validade para a partição com base no seu exemplo de utilização. Para mais informações, veja como definir o prazo de validade da partição.

Crie várias análises de perfis de dados

Pode configurar análises de perfis de dados para várias tabelas num conjunto de dados do BigQuery em simultâneo através da Google Cloud consola.

  1. Na Google Cloud consola, aceda à página Dataplex Universal Catalog Perfil e qualidade dos dados.

    Aceda a Criação de perfis e qualidade dos dados

  2. Clique em Criar análise do perfil de dados.

  3. Selecione a opção Várias análises do perfil de dados.

  4. Introduza um prefixo do ID. O Dataplex Universal Catalog gera automaticamente IDs de análise usando o prefixo fornecido e sufixos únicos.

  5. Introduza uma Descrição para todas as análises do perfil de dados.

  6. No campo Conjunto de dados, clique em Procurar. Selecione um conjunto de dados para escolher tabelas. Clique em Selecionar.

  7. Se o conjunto de dados for multirregional, selecione uma Região na qual criar as análises de perfil de dados.

  8. Configure as definições comuns para as análises:

    1. No campo Âmbito, escolha Incremental ou Dados completos.

    2. Para aplicar a amostragem às análises do perfil de dados, na lista Tamanho da amostragem, selecione uma percentagem de amostragem.

      Escolha um valor percentual entre 0,0% e 100,0% com até 3 casas decimais.

    3. Opcional: publique os resultados da análise do perfil de dados nas páginas do catálogo universal do BigQuery e Dataplex na consola para a tabela de origem.Google Cloud Selecione a caixa de verificação Publicar resultados na IU do BigQuery e do catálogo do Dataplex.

      Pode ver os resultados da análise mais recentes no separador Perfil de dados nas páginas do catálogo universal do BigQuery e do Dataplex para a tabela de origem. Para permitir que os utilizadores acedam aos resultados da análise publicados, consulte a secção Conceda acesso aos resultados da análise do perfil de dados deste documento.

    4. Na secção Programação, escolha uma das seguintes opções:

      • Repetir: execute as análises do perfil de dados de acordo com uma programação: de hora em hora, diariamente, semanalmente, mensalmente ou de forma personalizada. Especifique a frequência com que as análises devem ser executadas e a que horas. Se escolher a opção personalizada, use o formato cron para especificar a agenda.

      • A pedido: execute as análises de perfis de dados a pedido.

  9. Clique em Continuar.

  10. No campo Escolher tabelas, clique em Procurar. Escolha uma ou mais tabelas para analisar e, de seguida, clique em Selecionar.

  11. Clique em Continuar.

  12. Opcional: exporte os resultados da análise para uma tabela padrão do BigQuery. Na secção Exporte os resultados da análise para a tabela do BigQuery, faça o seguinte:

    1. No campo Selecionar conjunto de dados do BigQuery, clique em Procurar. Selecione um conjunto de dados do BigQuery para armazenar os resultados da análise do perfil de dados.

    2. No campo Tabela do BigQuery, especifique a tabela para armazenar os resultados da análise detalhada do perfil de dados. Se estiver a usar uma tabela existente, certifique-se de que é compatível com o esquema da tabela de exportação. Se a tabela especificada não existir, o Dataplex Universal Catalog cria-a para si.

      O Dataplex Universal Catalog usa a mesma tabela de resultados para todas as análises de perfil de dados.

  13. Opcional: adicione etiquetas. As etiquetas são pares de chave-valor que lhe permitem agrupar objetos relacionados ou com outros recursos Google Cloud .

  14. Para criar as digitalizações, clique em Criar.

    Se definir a programação como a pedido, também pode executar as análises agora clicando em Executar análise.

Execute uma análise do perfil de dados

Consola

  1. Na Google Cloud consola, aceda à página Dataplex Universal Catalog Perfil e qualidade dos dados.

    Aceda a Criação de perfis e qualidade dos dados

  2. Clique na análise do perfil de dados para executar.
  3. Clique em Executar agora.

gcloud

Para executar uma análise do perfil de dados, use o comando gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Substitua as seguintes variáveis:

  • DATASCAN: o nome da análise do perfil de dados.
  • LOCATION: A Google Cloud região na qual a análise do perfil de dados foi criada.

REST

Para executar uma análise de perfil de dados, use o método dataScans.run.

Veja os resultados da análise do perfil de dados

Consola

  1. Na Google Cloud consola, aceda à página Dataplex Universal Catalog Perfil e qualidade dos dados.

    Aceda a Criação de perfis e qualidade dos dados

  2. Clique no nome de uma análise de perfil de dados.

    • A secção Vista geral apresenta informações sobre as tarefas mais recentes, incluindo a data de execução da análise, o número de registos de tabelas analisados e o estado da tarefa.

    • A secção Configuração da análise do perfil de dados apresenta detalhes sobre a análise.

  3. Para ver informações detalhadas sobre uma tarefa, como as colunas da tabela analisada, as estatísticas sobre as colunas encontradas na análise e os registos de tarefas, clique no separador Histórico de tarefas. Em seguida, clique num ID da tarefa.

gcloud

Para ver os resultados de uma tarefa de análise de perfil de dados, use o comando gcloud dataplex datascans jobs describe:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Substitua as seguintes variáveis:

  • JOB: o ID da tarefa de análise do perfil de dados.
  • LOCATION: A Google Cloud região na qual a análise do perfil de dados foi criada.
  • DATASCAN: o nome da análise do perfil de dados a que a tarefa pertence.
  • --view=FULL: para ver o resultado da tarefa de análise, especifique FULL.

REST

Para ver os resultados de uma análise de perfil de dados, use o método dataScans.get.

Veja os resultados publicados

Se os resultados da análise do perfil de dados forem publicados nas páginas do BigQuery e do catálogo universal do Dataplex na consola, pode ver os resultados da análise mais recentes no separador Perfil de dados da tabela de origem. Google Cloud

  1. Na Google Cloud consola, aceda à página Pesquisa do Dataplex Universal Catalog.

    Aceda à pesquisa

  2. Pesquise e, de seguida, selecione a tabela.

  3. Clique no separador Perfil de dados.

    São apresentados os resultados publicados mais recentes.

Veja a tarefa de análise do perfil de dados mais recente

Consola

  1. Na Google Cloud consola, aceda à página Dataplex Universal Catalog Perfil e qualidade dos dados.

    Aceda a Criação de perfis e qualidade dos dados

  2. Clique no nome de uma análise de perfil de dados.

  3. Clique no separador Resultados de tarefas mais recentes.

    O separador Resultados da tarefa mais recente, quando existe, pelo menos, uma execução concluída com êxito, fornece informações sobre a tarefa mais recente. Apresenta as colunas da tabela analisada e estatísticas sobre as colunas encontradas na análise.

gcloud

Para ver a análise bem-sucedida mais recente do perfil de dados, use o comando gcloud dataplex datascans describe:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Substitua as seguintes variáveis:

  • DATASCAN: o nome da análise do perfil de dados para ver o trabalho mais recente.
  • LOCATION: A Google Cloud região em que a análise do perfil de dados foi criada.
  • --view=FULL: para ver o resultado da tarefa de análise, especifique FULL.

REST

Para ver a tarefa de análise mais recente, use o método dataScans.get.

Veja os resultados históricos da análise

O catálogo universal do Dataplex guarda o histórico de análise do perfil de dados dos últimos 300 trabalhos ou durante o último ano, consoante o que ocorrer primeiro.

Consola

  1. Na Google Cloud consola, aceda à página Dataplex Universal Catalog Perfil e qualidade dos dados.

    Aceda a Criação de perfis e qualidade dos dados

  2. Clique no nome de uma análise de perfil de dados.

  3. Clique no separador Histórico de trabalhos.

    O separador Histórico de tarefas fornece informações sobre tarefas anteriores, como o número de registos analisados em cada tarefa, o estado da tarefa e a hora em que a tarefa foi executada.

  4. Para ver informações detalhadas sobre uma tarefa, clique em qualquer uma das tarefas na coluna ID da tarefa.

gcloud

Para ver tarefas de análise do perfil de dados do histórico, use o comando gcloud dataplex datascans jobs list:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Substitua as seguintes variáveis:

  • LOCATION: A Google Cloud região em que a análise do perfil de dados foi criada.
  • DATASCAN: o nome da análise do perfil de dados para ver trabalhos.

REST

Para ver tarefas de análise do perfil de dados do histórico, use o método dataScans.jobs.list.

Conceda acesso aos resultados da análise do perfil de dados

Para permitir que os utilizadores na sua organização vejam os resultados da análise, faça o seguinte:

  1. Na Google Cloud consola, aceda à página Dataplex Universal Catalog Perfil e qualidade dos dados.

    Aceda a Criação de perfis e qualidade dos dados

  2. Clique na análise de qualidade de dados cujos resultados quer partilhar.

  3. Clique no separador Autorizações.

  4. Faça o seguinte:

    • Para conceder acesso a um principal, clique em Conceder acesso. Conceda a função Dataplex DataScan DataViewer ao principal associado.
    • Para remover o acesso de um principal, selecione o principal do qual quer remover a função Dataplex DataScan DataViewer. Clique em Remover acesso e, de seguida, confirme quando lhe for pedido.

Faça a gestão das análises de perfis de dados para uma tabela específica

Os passos neste documento mostram como gerir as análises de perfis de dados no seu projeto através da página Criação de perfis e qualidade dos dados do catálogo universal do Dataplex na Google Cloud consola.

Também pode criar e gerir análises de perfis de dados quando trabalha com uma tabela específica. Na Google Cloud consola, na página do catálogo universal do Dataplex para a tabela, use o separador Perfil de dados. Faça o seguinte:

  1. Na Google Cloud consola, aceda à página Pesquisa do Dataplex Universal Catalog.

    Aceda à pesquisa

    Pesquise e, de seguida, selecione a tabela.

  2. Clique no separador Perfil de dados.

  3. Consoante a tabela tenha uma análise do perfil de dados cujos resultados são publicados, pode trabalhar com as análises do perfil de dados da tabela das seguintes formas:

    • Os resultados da análise do perfil de dados são publicados: os resultados da análise publicados mais recentemente são apresentados na página.

      Para gerir as análises do perfil de dados desta tabela, clique em Análise do perfil de dados e, de seguida, selecione uma das seguintes opções:

      • Criar nova análise: crie uma nova análise do perfil de dados. Para mais informações, consulte a secção Crie uma análise de perfil de dados deste documento. Quando cria uma análise a partir da página de detalhes de uma tabela, a tabela é pré-selecionada.

      • Executar agora: execute a análise.

      • Editar configuração da análise: edite as definições, incluindo o nome a apresentar, os filtros, o tamanho da amostragem e a programação.

      • Faça a gestão das autorizações de análise: controle quem pode aceder aos resultados da análise. Para mais informações, consulte a secção Conceda acesso aos resultados da análise do perfil de dados deste documento.

      • Ver resultados do histórico: veja informações detalhadas sobre tarefas de análise de perfis de dados anteriores. Para mais informações, consulte as secções Ver resultados da análise do perfil de dados e Ver resultados da análise do histórico deste documento.

      • Ver todas as análises: veja uma lista de análises do perfil de dados que se aplicam a esta tabela.

    • Os resultados da análise do perfil de dados não são publicados: clique no menu junto a Perfil de dados rápido e, de seguida, selecione uma das seguintes opções:

      • Personalize a criação de perfis de dados: crie uma nova análise de perfil de dados. Para mais informações, consulte a secção Crie uma análise de perfil de dados deste documento. Quando cria uma análise a partir da página de detalhes de uma tabela, a tabela é pré-selecionada.

      • Ver perfis anteriores: veja uma lista de análises de perfis de dados que se aplicam a esta tabela.

Atualize uma análise do perfil de dados

Consola

  1. Na Google Cloud consola, aceda à página Dataplex Universal Catalog Perfil e qualidade dos dados.

    Aceda a Criação de perfis e qualidade dos dados

  2. Clique no nome de uma análise de perfil de dados.

  3. Clique em Editar e, de seguida, edite os valores.

  4. Clique em Guardar.

gcloud

Para atualizar uma análise de perfil de dados, use o comando gcloud dataplex datascans update data-profile:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Substitua as seguintes variáveis:

  • DATASCAN: o nome da análise do perfil de dados a atualizar.
  • LOCATION: A Google Cloud região em que a análise do perfil de dados foi criada.
  • DESCRIPTION: a nova descrição da análise do perfil de dados.

REST

Para editar uma análise de perfil de dados, use o método dataScans.patch.

Elimine uma análise do perfil de dados

Consola

  1. Na Google Cloud consola, aceda à página Dataplex Universal Catalog Perfil e qualidade dos dados.

    Aceda a Criação de perfis e qualidade dos dados

  2. Clique na análise que quer eliminar.

  3. Clique em Eliminar e, de seguida, confirme quando lhe for pedido.

gcloud

Para eliminar uma análise de perfil de dados, use o comando gcloud dataplex datascans delete:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION --async

Substitua as seguintes variáveis:

  • DATASCAN: o nome da análise do perfil de dados a eliminar.
  • LOCATION: A Google Cloud região em que a análise do perfil de dados foi criada.

REST

Para eliminar uma análise de um perfil de dados, use o método dataScans.delete.

O que se segue?