Criar o perfil dos seus dados

Este documento explica como usar as verificações de perfil de dados para entender melhor seus dados. O BigQuery usa o Dataplex Universal Catalog para analisar as características estatísticas dos dados, como valores médios, exclusivos e máximos. O Dataplex Universal Catalog também usa essas informações para recomendar regras para verificações de qualidade de dados.

Para mais informações sobre a criação de perfil de dados, consulte Sobre a criação de perfil de dados.

Antes de começar

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Funções exigidas

Para receber as permissões necessárias para criar e gerenciar verificações de perfil de dados, peça ao administrador para conceder a você os seguintes papéis do IAM no seu recurso, como o projeto ou a tabela:

  • Para criar, executar, atualizar e excluir verificações de perfil de dados: Função Editor do DataScan Dataplex (roles/dataplex.dataScanEditor) no projeto que contém a verificação de dados.
  • Para permitir que o Dataplex Universal Catalog execute verificações de perfil de dados nos dados do BigQuery, conceda os seguintes papéis à conta de serviço do Dataplex Universal Catalog: Papel de Usuário de jobs do BigQuery (roles/bigquery.jobUser) no projeto que executa a verificação; papel de Leitor de dados do BigQuery (roles/bigquery.dataViewer) nas tabelas que estão sendo verificadas.
  • Para executar verificações de perfil de dados em tabelas externas do BigQuery que usam dados do Cloud Storage: conceda à conta de serviço do Dataplex Universal Catalog os papéis de Leitor de objetos do Storage (roles/storage.objectViewer) e Leitor de buckets legados do Storage (roles/storage.legacyBucketReader) no bucket do Cloud Storage.
  • Para conferir os resultados, jobs e histórico da verificação do perfil de dados: Papel de Leitor do DataScan Dataplex (roles/dataplex.dataScanViewer) no projeto que contém a verificação de dados.
  • Para exportar os resultados da verificação de perfil de dados para uma tabela do BigQuery: Função Editor de dados do BigQuery (roles/bigquery.dataEditor) na tabela.
  • Para publicar os resultados da verificação do perfil de dados no Dataplex Universal Catalog: Função Editor do catálogo do Dataplex (roles/dataplex.catalogEditor) no grupo de entradas @bigquery.
  • Para conferir os resultados publicados da verificação de perfil de dados no BigQuery na guia Perfil de dados: Papel Leitor de dados do BigQuery (roles/bigquery.dataViewer) na tabela.

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.

Permissões necessárias

Se você usa papéis personalizados, conceda as seguintes permissões do IAM:

  • Para criar, executar, atualizar e excluir verificações de perfil de dados:
    • dataplex.datascans.create no projeto: crie um DataScan
    • dataplex.datascans.update na verificação de dados: atualize a descrição de um DataScan
    • dataplex.datascans.delete na verificação de dados: excluir um DataScan
    • dataplex.datascans.run na verificação de dados: execute um DataScan
    • dataplex.datascans.get na verificação de dados: ver detalhes de DataScan, excluindo resultados
    • dataplex.datascans.list no projeto: lista de DataScans
    • dataplex.dataScanJobs.get no job de verificação de dados: leia os recursos do job do DataScan.
    • dataplex.dataScanJobs.list na verificação de dados: lista recursos de job do DataScan em um projeto
  • Para permitir que o Dataplex Universal Catalog execute verificações de perfil de dados nos dados do BigQuery:
    • bigquery.jobs.create no projeto: executar jobs
    • bigquery.tables.get na tabela: recebe metadados da tabela
    • bigquery.tables.getData na tabela: receber dados da tabela
  • Para executar verificações de perfil de dados em tabelas externas do BigQuery que usam dados do Cloud Storage:
    • storage.buckets.get no bucket: ler metadados do bucket
    • storage.objects.get no objeto: ler dados do objeto
  • Para conferir os resultados, jobs e histórico da verificação do perfil de dados:
    • dataplex.datascans.getData na verificação de dados: veja detalhes de DataScan, incluindo resultados
    • dataplex.datascans.list no projeto: lista de DataScans
    • dataplex.dataScanJobs.get no job de verificação de dados: leia os recursos do job do DataScan.
    • dataplex.dataScanJobs.list na verificação de dados: lista recursos de job do DataScan em um projeto
  • Para exportar os resultados da verificação do perfil de dados para uma tabela do BigQuery:
    • bigquery.tables.create no conjunto de dados: criar tabelas
    • bigquery.tables.updateData em tabelas: gravar dados em tabelas
  • Para publicar os resultados da verificação do perfil de dados no Dataplex Universal Catalog:
    • dataplex.entryGroups.useDataProfileAspect no grupo de entrada: permite que as verificações do perfil de dados do Dataplex Universal Catalog salvem os resultados no Dataplex Universal Catalog
    • Além disso, você precisa de uma das seguintes permissões:
      • bigquery.tables.update na tabela: atualizar metadados da tabela
      • dataplex.entries.update na entrada: atualizar entradas
  • Para conferir os resultados publicados do perfil de dados de uma tabela no BigQuery ou no Dataplex Universal Catalog:
    • bigquery.tables.get na tabela: recebe metadados da tabela
    • bigquery.tables.getData na tabela: receber dados da tabela

Se uma tabela usar a segurança no nível da linha do BigQuery, o Dataplex Universal Catalog só poderá verificar as linhas visíveis para a conta de serviço do Dataplex Universal Catalog. Para permitir que o Dataplex Universal Catalog verifique todas as linhas, adicione a conta de serviço dele a um filtro de linha em que o predicado seja TRUE.

Se uma tabela usar a segurança no nível da coluna do BigQuery, o Dataplex Universal Catalog vai precisar de acesso para verificar as colunas protegidas. Para conceder acesso, atribua à conta de serviço do Dataplex Universal Catalog o papel de Leitor de controle refinado do Data Catalog (roles/datacatalog.fineGrainedReader) em todas as tags de política usadas na tabela. O usuário que cria ou atualiza uma verificação de dados também precisa de permissões nas colunas protegidas.

Conceder papéis à conta de serviço do Dataplex Universal Catalog

Para executar verificações de perfil de dados, o Dataplex Universal Catalog usa uma conta de serviço que precisa de permissões para executar jobs do BigQuery e ler dados de tabela do BigQuery. Para conceder os papéis necessários, siga estas etapas:

  1. Confira o endereço de e-mail da conta de serviço do Dataplex Universal Catalog. Se você ainda não criou uma verificação de perfil ou qualidade de dados neste projeto, execute o seguinte comando gcloud para gerar a identidade do serviço:

    gcloud beta services identity create --service=dataplex.googleapis.com
    

    O comando retorna o e-mail da conta de serviço, que tem o seguinte formato: service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com.

    Se a conta de serviço já existir, encontre o e-mail dela visualizando principais com o nome Dataplex na página do IAM no console do Google Cloud .

  2. Conceda à conta de serviço o papel Usuário de jobs do BigQuery (roles/bigquery.jobUser) no seu projeto. Esse papel permite que a conta de serviço execute jobs do BigQuery para a verificação.

    gcloud projects add-iam-policy-binding PROJECT_ID \
        --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \
        --role="roles/bigquery.jobUser"
    

    Substitua:

    • PROJECT_ID: o ID do projeto Google Cloud .
    • service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com: o e-mail da conta de serviço do Dataplex Universal Catalog.
  3. Conceda à conta de serviço o papel Leitor de dados do BigQuery (roles/bigquery.dataViewer) para cada tabela que você quer criar um perfil. Esse papel concede acesso somente leitura às tabelas.

    gcloud bigquery tables add-iam-policy-binding DATASET_ID.TABLE_ID \
        --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \
        --role="roles/bigquery.dataViewer"
    

    Substitua:

    • DATASET_ID: o ID do conjunto de dados que contém a tabela.
    • TABLE_ID: o ID da tabela a ser analisada.
    • service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com: o e-mail da conta de serviço do Dataplex Universal Catalog.

      Criar uma verificação do perfil de dados

      Console

      1. No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.

        Acessar "Qualidade e perfilamento de dados"

      2. Clique em Criar verificação do perfil de dados.

      3. Opcional: insira um Nome de exibição.

      4. Insira um ID. Consulte as Convenções de nomenclatura de recursos.

      5. Opcional: digite uma Descrição.

      6. No campo Tabela, clique em Procurar. Escolha a tabela para verificar e clique em Selecionar.

        Para tabelas em conjuntos de dados multirregionais, escolha uma região para criar a verificação de dados.

        Para procurar as tabelas organizadas nos lakes do Dataplex Universal Catalog, clique em Procurar dentro de lakes do Dataplex.

      7. No campo Escopo, escolha Incremental ou Dados completos.

        • Se você escolher Dados incrementais, no campo Coluna de carimbo de data/hora, selecione uma coluna do tipo DATE ou TIMESTAMP na tabela do BigQuery que aumente à medida que novos registros são adicionados e que possa ser usada para identificar novos registros. Para tabelas particionadas em uma coluna do tipo DATE ou TIMESTAMP, recomendamos usar a coluna de partição como o campo de carimbo de data/hora.
      8. Opcional: para filtrar seus dados, faça o seguinte:

        • Para filtrar por linhas, clique na caixa de seleção Filtrar linhas. Insira uma expressão SQL válida que possa ser usada em uma cláusula WHERE na sintaxe GoogleSQL. Exemplo: col1 >= 0.

          O filtro pode ser uma combinação de condições SQL em várias colunas. Por exemplo, col1 >= 0 AND col2 < 10.

        • Para filtrar por colunas, marque a caixa de seleção Filtrar colunas.

          • Para incluir colunas na verificação do perfil, no campo Incluir colunas, clique em Procurar. Selecione as colunas que você quer incluir e clique em Selecionar.

          • Para excluir colunas da verificação do perfil, no campo Excluir colunas, clique em Procurar. Selecione as colunas a serem excluídas e clique em Selecionar.

      9. Para aplicar a amostragem à verificação do perfil de dados, na lista Tamanho da amostragem, selecione uma porcentagem de amostragem. Escolha uma porcentagem entre 0,0% e 100,0% com até três casas decimais.

        • Para conjuntos de dados maiores, escolha uma porcentagem de amostragem menor. Por exemplo, para uma tabela de 1 PB, se você inserir um valor entre 0,1% e 1,0%, o perfil de dados vai amostrar entre 1 e 10 TB de dados.

        • É preciso ter pelo menos 100 registros nos dados amostrados para receber um resultado.

        • Nas verificações de dados incrementais, a verificação de perfil de dados aplica amostragem ao incremento mais recente.

      10. Opcional: publique os resultados da verificação do perfil de dados nas páginas do BigQuery e do Dataplex Universal Catalog no consoleGoogle Cloud da tabela de origem. Marque a caixa de seleção Publicar resultados no BigQuery e no Dataplex Catalog.

        É possível conferir os resultados mais recentes da verificação na guia Perfil de dados nas páginas do BigQuery e do Dataplex Universal Catalog para a tabela de origem. Para permitir que os usuários acessem os resultados publicados da verificação, consulte a seção Conceder acesso aos resultados da verificação de perfil de dados deste documento.

        A opção de publicação pode não estar disponível nos seguintes casos:

        • Você não tem as permissões necessárias na tabela.
        • Outra verificação de qualidade de dados está definida para publicar resultados.
      11. Na seção Programação, escolha uma das seguintes opções:

        • Repetir: execute a verificação do perfil de dados em uma programação: por hora, diária, semanal, mensal ou personalizada. Especifique a frequência e o horário da verificação. Se você escolher "Personalizado", use o formato cron para especificar a programação.

        • Sob demanda: execute a verificação do perfil de dados sob demanda.

      12. Clique em Continuar.

      13. Opcional: exporte os resultados da verificação para uma tabela padrão do BigQuery. Na seção Exportar resultados da verificação para a tabela do BigQuery, faça o seguinte:

        1. No campo Selecionar conjunto de dados do BigQuery, clique em Procurar. Selecione um conjunto de dados do BigQuery para armazenar os resultados da verificação do perfil de dados.

        2. No campo Tabela do BigQuery, especifique a tabela para armazenar os resultados da verificação do perfil de dados. Se você estiver usando uma tabela, verifique se ela é compatível com o esquema da tabela de exportação. Se a tabela especificada não existir, o Dataplex Universal Catalog vai criá-la.

      14. Opcional: adicione rótulos. Rótulos são pares de chave-valor que permitem agrupar objetos relacionados entre si ou com outros recursos Google Cloud .

      15. Para criar a verificação, clique em Criar.

        Se você definir a programação como "sob demanda", também poderá executar a verificação agora clicando em Executar verificação.

      gcloud

      Para criar uma verificação do perfil de dados, use o comando gcloud dataplex datascans create data-profile.

      Se os dados de origem estiverem organizados em um data lake do Dataplex Universal Catalog, inclua a flag --data-source-entity:

      gcloud dataplex datascans create data-profile DATASCAN \
      --location=LOCATION \
      --data-source-entity=DATA_SOURCE_ENTITY
      

      Se os dados de origem não estiverem organizados em um data lake do Dataplex Universal Catalog, inclua a flag --data-source-resource:

      gcloud dataplex datascans create data-profile DATASCAN \
      --location=LOCATION \
      --data-source-resource=DATA_SOURCE_RESOURCE
      

      Substitua as seguintes variáveis:

      • DATASCAN: o nome da verificação do perfil de dados.
      • LOCATION: a região Google Cloud em que a verificação do perfil de dados será criada.
      • DATA_SOURCE_ENTITY: a entidade do Dataplex Universal Catalog que contém os dados da verificação do perfil de dados. Por exemplo, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
      • DATA_SOURCE_RESOURCE: o nome do recurso que contém os dados da verificação do perfil de dados. Por exemplo, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

      C#

      C#

      Antes de testar este exemplo, siga as instruções de configuração do C# no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog C#.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      using Google.Api.Gax.ResourceNames;
      using Google.Cloud.Dataplex.V1;
      using Google.LongRunning;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for CreateDataScan</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void CreateDataScanRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              CreateDataScanRequest request = new CreateDataScanRequest
              {
                  ParentAsLocationName = LocationName.FromProjectLocation("[PROJECT]", "[LOCATION]"),
                  DataScan = new DataScan(),
                  DataScanId = "",
                  ValidateOnly = false,
              };
              // Make the request
              Operation<DataScan, OperationMetadata> response = dataScanServiceClient.CreateDataScan(request);
      
              // Poll until the returned long-running operation is complete
              Operation<DataScan, OperationMetadata> completedResponse = response.PollUntilCompleted();
              // Retrieve the operation result
              DataScan result = completedResponse.Result;
      
              // Or get the name of the operation
              string operationName = response.Name;
              // This name can be stored, then the long-running operation retrieved later by name
              Operation<DataScan, OperationMetadata> retrievedResponse = dataScanServiceClient.PollOnceCreateDataScan(operationName);
              // Check if the retrieved long-running operation has completed
              if (retrievedResponse.IsCompleted)
              {
                  // If it has completed, then access the result
                  DataScan retrievedResult = retrievedResponse.Result;
              }
          }
      }

      Go

      Go

      Antes de testar este exemplo, siga as instruções de configuração do Go no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Go.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.CreateDataScanRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#CreateDataScanRequest.
      	}
      	op, err := c.CreateDataScan(ctx, req)
      	if err != nil {
      		// TODO: Handle error.
      	}
      
      	resp, err := op.Wait(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	// TODO: Use resp.
      	_ = resp
      }
      

      Java

      Java

      Antes de testar este exemplo, siga as instruções de configuração do Java no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Java.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      import com.google.cloud.dataplex.v1.CreateDataScanRequest;
      import com.google.cloud.dataplex.v1.DataScan;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.LocationName;
      
      public class SyncCreateDataScan {
      
        public static void main(String[] args) throws Exception {
          syncCreateDataScan();
        }
      
        public static void syncCreateDataScan() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            CreateDataScanRequest request =
                CreateDataScanRequest.newBuilder()
                    .setParent(LocationName.of("[PROJECT]", "[LOCATION]").toString())
                    .setDataScan(DataScan.newBuilder().build())
                    .setDataScanId("dataScanId1260787906")
                    .setValidateOnly(true)
                    .build();
            DataScan response = dataScanServiceClient.createDataScanAsync(request).get();
          }
        }
      }

      Python

      Python

      Antes de testar este exemplo, siga as instruções de configuração do Python no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Python.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_create_data_scan():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          data_scan = dataplex_v1.DataScan()
          data_scan.data_quality_spec.rules.dimension = "dimension_value"
          data_scan.data.entity = "entity_value"
      
          request = dataplex_v1.CreateDataScanRequest(
              parent="parent_value",
              data_scan=data_scan,
              data_scan_id="data_scan_id_value",
          )
      
          # Make the request
          operation = client.create_data_scan(request=request)
      
          print("Waiting for operation to complete...")
      
          response = operation.result()
      
          # Handle the response
          print(response)
      
      

      Ruby

      Ruby

      Antes de testar este exemplo, siga as instruções de configuração do Ruby no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Ruby.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the create_data_scan call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#create_data_scan.
      #
      def create_data_scan
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::CreateDataScanRequest.new
      
        # Call the create_data_scan method.
        result = client.create_data_scan request
      
        # The returned object is of type Gapic::Operation. You can use it to
        # check the status of an operation, cancel it, or wait for results.
        # Here is how to wait for a response.
        result.wait_until_done! timeout: 60
        if result.response?
          p result.response
        else
          puts "No response received."
        end
      end

      REST

      Para criar uma verificação do perfil de dados, use o método dataScans.create.

      Criar várias verificações de perfil de dados

      É possível configurar verificações de perfil de dados para várias tabelas em um conjunto de dados do BigQuery ao mesmo tempo usando o console do Google Cloud .

      1. No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.

        Acessar "Qualidade e perfilamento de dados"

      2. Clique em Criar verificação do perfil de dados.

      3. Selecione a opção Várias verificações do perfil de dados.

      4. Insira um prefixo de ID. O Dataplex Universal Catalog gera automaticamente IDs de verificação usando o prefixo fornecido e sufixos exclusivos.

      5. Insira uma Descrição para todas as verificações do perfil de dados.

      6. No campo Conjunto de dados, clique em Procurar. Selecione um conjunto de dados para escolher tabelas. Clique em Selecionar.

      7. Se o conjunto de dados for multirregional, selecione uma região para criar as verificações do perfil de dados.

      8. Defina as configurações comuns para as verificações:

        1. No campo Escopo, escolha Incremental ou Dados completos.

        2. Para aplicar a amostragem às verificações do perfil de dados, na lista Tamanho da amostragem, selecione uma porcentagem de amostragem.

          Escolha uma porcentagem entre 0,0% e 100,0% com até três casas decimais.

        3. Opcional: publique os resultados da verificação do perfil de dados nas páginas do BigQuery e do Dataplex Universal Catalog no consoleGoogle Cloud da tabela de origem. Selecione a caixa de seleção Publicar resultados no BigQuery e no Dataplex Catalog.

          É possível conferir os resultados mais recentes da verificação na guia Perfil de dados nas páginas do BigQuery e do Dataplex Universal Catalog para a tabela de origem. Para permitir que os usuários acessem os resultados publicados da verificação, consulte a seção Conceder acesso aos resultados da verificação de perfil de dados deste documento.

        4. Na seção Programação, escolha uma das seguintes opções:

          • Repetir: execute as verificações de perfil de dados em uma programação: por hora, diária, semanal, mensal ou personalizada. Especifique a frequência e o horário das verificações. Se você escolher "Personalizado", use o formato cron para especificar a programação.

          • Sob demanda: execute as verificações do perfil de dados sob demanda.

      9. Clique em Continuar.

      10. No campo Escolher tabelas, clique em Procurar. Escolha uma ou mais tabelas para verificar e clique em Selecionar.

      11. Clique em Continuar.

      12. Opcional: exporte os resultados da verificação para uma tabela padrão do BigQuery. Na seção Exportar resultados da verificação para a tabela do BigQuery, faça o seguinte:

        1. No campo Selecionar conjunto de dados do BigQuery, clique em Procurar. Selecione um conjunto de dados do BigQuery para armazenar os resultados da verificação do perfil de dados.

        2. No campo Tabela do BigQuery, especifique a tabela para armazenar os resultados da verificação do perfil de dados. Se você estiver usando uma tabela, verifique se ela é compatível com o esquema da tabela de exportação. Se a tabela especificada não existir, o Dataplex Universal Catalog vai criá-la para você.

          O Dataplex Universal Catalog usa a mesma tabela de resultados para todas as verificações de perfil de dados.

      13. Opcional: adicione rótulos. Rótulos são pares de chave-valor que permitem agrupar objetos relacionados entre si ou com outros recursos Google Cloud .

      14. Para criar as verificações, clique em Criar.

        Se você definir a programação como "sob demanda", também poderá executar as verificações agora clicando em Executar verificação.

      Executar uma verificação do perfil de dados

      Console

      1. No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.

        Acessar "Qualidade e perfilamento de dados"

      2. Clique na verificação do perfil de dados para executar.
      3. Clique em Executar agora.

      gcloud

      Para executar uma verificação do perfil de dados, use o comando gcloud dataplex datascans run:

      gcloud dataplex datascans run DATASCAN \
      --location=LOCATION
      

      Substitua as seguintes variáveis:

      • DATASCAN: o nome da verificação do perfil de dados.
      • LOCATION: a Google Cloud região em que a verificação do perfil de dados foi criada.

      C#

      C#

      Antes de testar este exemplo, siga as instruções de configuração do C# no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog C#.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      using Google.Cloud.Dataplex.V1;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for RunDataScan</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void RunDataScanRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              RunDataScanRequest request = new RunDataScanRequest
              {
                  DataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
              };
              // Make the request
              RunDataScanResponse response = dataScanServiceClient.RunDataScan(request);
          }
      }

      Go

      Go

      Antes de testar este exemplo, siga as instruções de configuração do Go no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Go.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.RunDataScanRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#RunDataScanRequest.
      	}
      	resp, err := c.RunDataScan(ctx, req)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	// TODO: Use resp.
      	_ = resp
      }
      

      Java

      Java

      Antes de testar este exemplo, siga as instruções de configuração do Java no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Java.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      import com.google.cloud.dataplex.v1.DataScanName;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.RunDataScanRequest;
      import com.google.cloud.dataplex.v1.RunDataScanResponse;
      
      public class SyncRunDataScan {
      
        public static void main(String[] args) throws Exception {
          syncRunDataScan();
        }
      
        public static void syncRunDataScan() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            RunDataScanRequest request =
                RunDataScanRequest.newBuilder()
                    .setName(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
                    .build();
            RunDataScanResponse response = dataScanServiceClient.runDataScan(request);
          }
        }
      }

      Python

      Python

      Antes de testar este exemplo, siga as instruções de configuração do Python no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Python.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_run_data_scan():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          request = dataplex_v1.RunDataScanRequest(
              name="name_value",
          )
      
          # Make the request
          response = client.run_data_scan(request=request)
      
          # Handle the response
          print(response)
      
      

      Ruby

      Ruby

      Antes de testar este exemplo, siga as instruções de configuração do Ruby no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Ruby.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the run_data_scan call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#run_data_scan.
      #
      def run_data_scan
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::RunDataScanRequest.new
      
        # Call the run_data_scan method.
        result = client.run_data_scan request
      
        # The returned object is of type Google::Cloud::Dataplex::V1::RunDataScanResponse.
        p result
      end

      REST

      Para executar uma verificação do perfil de dados, use o método dataScans.run.

      Ver resultados da verificação do perfil de dados

      Console

      1. No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.

        Acessar "Qualidade e perfilamento de dados"

      2. Clique no nome de uma verificação do perfil de dados.

        • A seção Visão geral mostra informações sobre os jobs mais recentes, incluindo quando a verificação foi executada, o número de registros de tabela verificados e o status do job.

        • A seção Configuração da verificação de perfil de dados mostra detalhes sobre a verificação.

      3. Para ver informações detalhadas sobre um job, como as colunas da tabela verificada, estatísticas sobre as colunas encontradas na verificação e os registros do job, clique na guia Histórico de jobs. Em seguida, clique em um ID do job.

      gcloud

      Para conferir os resultados de um job de verificação do perfil de dados, use o comando gcloud dataplex datascans jobs describe:

      gcloud dataplex datascans jobs describe JOB \
      --location=LOCATION \
      --datascan=DATASCAN \
      --view=FULL
      

      Substitua as seguintes variáveis:

      • JOB: o ID do job de verificação do perfil de dados.
      • LOCATION: a Google Cloud região em que a verificação do perfil de dados foi criada.
      • DATASCAN: o nome da verificação do perfil de dados a que o job pertence.
      • --view=FULL: para conferir o resultado do job de verificação, especifique FULL.

      C#

      C#

      Antes de testar este exemplo, siga as instruções de configuração do C# no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog C#.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      using Google.Cloud.Dataplex.V1;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for GetDataScan</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void GetDataScanRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              GetDataScanRequest request = new GetDataScanRequest
              {
                  DataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
                  View = GetDataScanRequest.Types.DataScanView.Unspecified,
              };
              // Make the request
              DataScan response = dataScanServiceClient.GetDataScan(request);
          }
      }

      Go

      Go

      Antes de testar este exemplo, siga as instruções de configuração do Go no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Go.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.GetDataScanRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#GetDataScanRequest.
      	}
      	resp, err := c.GetDataScan(ctx, req)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	// TODO: Use resp.
      	_ = resp
      }
      

      Java

      Java

      Antes de testar este exemplo, siga as instruções de configuração do Java no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Java.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      import com.google.cloud.dataplex.v1.DataScan;
      import com.google.cloud.dataplex.v1.DataScanName;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.GetDataScanRequest;
      
      public class SyncGetDataScan {
      
        public static void main(String[] args) throws Exception {
          syncGetDataScan();
        }
      
        public static void syncGetDataScan() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            GetDataScanRequest request =
                GetDataScanRequest.newBuilder()
                    .setName(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
                    .build();
            DataScan response = dataScanServiceClient.getDataScan(request);
          }
        }
      }

      Python

      Python

      Antes de testar este exemplo, siga as instruções de configuração do Python no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Python.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_get_data_scan():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          request = dataplex_v1.GetDataScanRequest(
              name="name_value",
          )
      
          # Make the request
          response = client.get_data_scan(request=request)
      
          # Handle the response
          print(response)
      
      

      Ruby

      Ruby

      Antes de testar este exemplo, siga as instruções de configuração do Ruby no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Ruby.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the get_data_scan call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#get_data_scan.
      #
      def get_data_scan
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::GetDataScanRequest.new
      
        # Call the get_data_scan method.
        result = client.get_data_scan request
      
        # The returned object is of type Google::Cloud::Dataplex::V1::DataScan.
        p result
      end

      REST

      Para conferir os resultados de uma verificação do perfil de dados, use o método dataScans.get.

      Ver resultados publicados

      Se os resultados da verificação do perfil de dados forem publicados nas páginas do BigQuery e do Dataplex Universal Catalog no console Google Cloud , você poderá conferir os resultados mais recentes da verificação na guia Perfil de dados da tabela de origem.

      1. No Google Cloud console, acesse a página BigQuery.

        Acessar o BigQuery

      2. No painel à esquerda, clique em Explorer:

        Botão destacado para o painel &quot;Explorer&quot;.

        Se o painel esquerdo não aparecer, clique em Expandir painel esquerdo para abrir.

      3. No painel Explorer, clique em Conjuntos de dados e depois no seu conjunto de dados.

      4. Clique em Visão geral > Tabelas e selecione a tabela cujos resultados da verificação do perfil de dados você quer ver.

      5. Clique na guia Perfil de dados.

        Os resultados publicados mais recentes são mostrados.

      Ver o job de verificação do perfil de dados mais recente

      Console

      1. No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.

        Acessar "Qualidade e perfilamento de dados"

      2. Clique no nome de uma verificação do perfil de dados.

      3. Clique na guia Resultados do job mais recente.

        A guia Resultados do job mais recente, quando há pelo menos uma execução concluída com sucesso, exibe informações sobre o job mais recente. Ela lista as colunas e estatísticas da tabela verificada sobre as colunas encontradas na verificação.

      gcloud

      Para conferir a verificação do perfil de dados mais recente, use o comando gcloud dataplex datascans describe:

      gcloud dataplex datascans describe DATASCAN \
      --location=LOCATION \
      --view=FULL
      

      Substitua as seguintes variáveis:

      • DATASCAN: o nome da verificação do perfil de dados para conferir o job mais recente.
      • LOCATION: a região Google Cloud em que a verificação do perfil de dados foi criada.
      • --view=FULL: para conferir o resultado do job de verificação, especifique FULL.

      REST

      Para ver o job de verificação mais recente, use o método dataScans.get.

      Ver o histórico de resultados das verificações

      O Dataplex Universal Catalog salva o histórico de verificação do perfil de dados dos últimos 300 jobs ou do ano anterior, o que ocorrer primeiro.

      Console

      1. No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.

        Acessar "Qualidade e perfilamento de dados"

      2. Clique no nome de uma verificação do perfil de dados.

      3. Clique na guia Histórico de jobs.

        A guia Histórico de jobs fornece informações sobre jobs anteriores, como o número de registros verificados em cada job, o status do job e o tempo de execução do job.

      4. Para ver informações detalhadas sobre um job, clique em qualquer um deles na coluna ID do job.

      gcloud

      Para conferir os jobs históricos de verificação do perfil de dados, use o comando gcloud dataplex datascans jobs list:

      gcloud dataplex datascans jobs list \
      --location=LOCATION \
      --datascan=DATASCAN
      

      Substitua as seguintes variáveis:

      • LOCATION: a região Google Cloud em que a verificação do perfil de dados foi criada.
      • DATASCAN: o nome da verificação do perfil de dados para conferir os jobs.

      C#

      C#

      Antes de testar este exemplo, siga as instruções de configuração do C# no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog C#.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      using Google.Api.Gax;
      using Google.Cloud.Dataplex.V1;
      using System;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for ListDataScanJobs</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void ListDataScanJobsRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              ListDataScanJobsRequest request = new ListDataScanJobsRequest
              {
                  ParentAsDataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
                  Filter = "",
              };
              // Make the request
              PagedEnumerable<ListDataScanJobsResponse, DataScanJob> response = dataScanServiceClient.ListDataScanJobs(request);
      
              // Iterate over all response items, lazily performing RPCs as required
              foreach (DataScanJob item in response)
              {
                  // Do something with each item
                  Console.WriteLine(item);
              }
      
              // Or iterate over pages (of server-defined size), performing one RPC per page
              foreach (ListDataScanJobsResponse page in response.AsRawResponses())
              {
                  // Do something with each page of items
                  Console.WriteLine("A page of results:");
                  foreach (DataScanJob item in page)
                  {
                      // Do something with each item
                      Console.WriteLine(item);
                  }
              }
      
              // Or retrieve a single page of known size (unless it's the final page), performing as many RPCs as required
              int pageSize = 10;
              Page<DataScanJob> singlePage = response.ReadPage(pageSize);
              // Do something with the page of items
              Console.WriteLine($"A page of {pageSize} results (unless it's the final page):");
              foreach (DataScanJob item in singlePage)
              {
                  // Do something with each item
                  Console.WriteLine(item);
              }
              // Store the pageToken, for when the next page is required.
              string nextPageToken = singlePage.NextPageToken;
          }
      }

      Go

      Go

      Antes de testar este exemplo, siga as instruções de configuração do Go no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Go.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      	"google.golang.org/api/iterator"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.ListDataScanJobsRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#ListDataScanJobsRequest.
      	}
      	it := c.ListDataScanJobs(ctx, req)
      	for {
      		resp, err := it.Next()
      		if err == iterator.Done {
      			break
      		}
      		if err != nil {
      			// TODO: Handle error.
      		}
      		// TODO: Use resp.
      		_ = resp
      
      		// If you need to access the underlying RPC response,
      		// you can do so by casting the `Response` as below.
      		// Otherwise, remove this line. Only populated after
      		// first call to Next(). Not safe for concurrent access.
      		_ = it.Response.(*dataplexpb.ListDataScanJobsResponse)
      	}
      }
      

      Java

      Java

      Antes de testar este exemplo, siga as instruções de configuração do Java no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Java.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      import com.google.cloud.dataplex.v1.DataScanJob;
      import com.google.cloud.dataplex.v1.DataScanName;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.ListDataScanJobsRequest;
      
      public class SyncListDataScanJobs {
      
        public static void main(String[] args) throws Exception {
          syncListDataScanJobs();
        }
      
        public static void syncListDataScanJobs() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            ListDataScanJobsRequest request =
                ListDataScanJobsRequest.newBuilder()
                    .setParent(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
                    .setPageSize(883849137)
                    .setPageToken("pageToken873572522")
                    .setFilter("filter-1274492040")
                    .build();
            for (DataScanJob element : dataScanServiceClient.listDataScanJobs(request).iterateAll()) {
              // doThingsWith(element);
            }
          }
        }
      }

      Python

      Python

      Antes de testar este exemplo, siga as instruções de configuração do Python no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Python.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_list_data_scan_jobs():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          request = dataplex_v1.ListDataScanJobsRequest(
              parent="parent_value",
          )
      
          # Make the request
          page_result = client.list_data_scan_jobs(request=request)
      
          # Handle the response
          for response in page_result:
              print(response)
      
      

      Ruby

      Ruby

      Antes de testar este exemplo, siga as instruções de configuração do Ruby no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Ruby.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the list_data_scan_jobs call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#list_data_scan_jobs.
      #
      def list_data_scan_jobs
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::ListDataScanJobsRequest.new
      
        # Call the list_data_scan_jobs method.
        result = client.list_data_scan_jobs request
      
        # The returned object is of type Gapic::PagedEnumerable. You can iterate
        # over elements, and API calls will be issued to fetch pages as needed.
        result.each do |item|
          # Each element is of type ::Google::Cloud::Dataplex::V1::DataScanJob.
          p item
        end
      end

      REST

      Para conferir jobs históricos de verificação do perfil de dados, use o método dataScans.jobs.list.

      Conferir as verificações de perfil de dados de uma tabela

      Para conferir as verificações de perfil de dados que se aplicam a uma tabela específica, faça o seguinte:

      1. No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.

        Acessar "Qualidade e perfilamento de dados"

      2. Filtre a lista pelo nome da tabela e pelo tipo de verificação.

      Conceder acesso aos resultados da verificação do perfil de dados

      Para permitir que os usuários da sua organização vejam os resultados da verificação, faça o seguinte:

      1. No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.

        Acessar "Qualidade e perfilamento de dados"

      2. Clique na verificação de qualidade de dados cujos resultados você quer compartilhar.

      3. Clique na guia Permissões.

      4. Faça o seguinte:

        • Para conceder acesso a um principal, clique em Conceder acesso. Conceda o papel Leitor de dados do DataScan do Dataplex ao principal associado.
        • Para remover o acesso de um principal, selecione o principal de quem você quer remover o papel Leitor de dados do DataScan do Dataplex. Clique em Remover acesso e confirme quando solicitado.

      Gerenciar verificações de perfil de dados para uma tabela específica

      As etapas neste documento mostram como gerenciar verificações de perfil de dados em todo o projeto usando a página Criação de metadados > Criação de perfil e qualidade de dados do BigQuery no consoleGoogle Cloud .

      Também é possível criar e gerenciar verificações de perfil de dados ao trabalhar com uma tabela específica. No console Google Cloud , na página do BigQuery para a tabela, use a guia Perfil de dados. Faça o seguinte:

      1. No console do Google Cloud , acesse a página BigQuery.

        Acessar o BigQuery

        No painel Explorador (à esquerda), clique em Conjuntos de dados e depois no seu conjunto de dados. Agora clique em Visão geral > Tabelas e selecione a tabela cujos resultados da verificação do perfil de dados você quer conferir.

      2. Clique na guia Perfil de dados.

      3. Dependendo se a tabela tem uma verificação de perfil de dados com resultados publicados, é possível trabalhar com as verificações de perfil de dados da tabela das seguintes maneiras:

        • Os resultados da verificação do perfil de dados são publicados: os resultados da verificação mais recente publicada são mostrados na página.

          Para gerenciar as verificações do perfil de dados dessa tabela, clique em Verificação do perfil de dados e selecione uma das seguintes opções:

          • Criar nova verificação: crie uma verificação do perfil de dados. Para mais informações, consulte a seção Criar uma verificação de perfil de dados deste documento. Quando você cria uma verificação na página de detalhes de uma tabela, ela é pré-selecionada.

          • Executar agora: executa a verificação.

          • Editar configuração de verificação: edite as configurações, incluindo o nome de exibição, os filtros, o tamanho da amostra e a programação.

          • Gerenciar permissões de verificação: controle quem pode acessar os resultados da verificação. Para mais informações, consulte a seção Conceder acesso aos resultados da verificação de perfil de dados deste documento.

          • Ver resultados históricos: confira informações detalhadas sobre jobs de verificação do perfil de dados anteriores. Para mais informações, consulte as seções Ver resultados da verificação do perfil de dados e Ver resultados históricos da verificação deste documento.

          • Ver todas as verificações: confira uma lista de verificações de perfil de dados que se aplicam a esta tabela.

        • Os resultados da verificação de perfil de dados não são publicados: clique no menu ao lado de Perfil de dados rápido e selecione uma das seguintes opções:

          • Personalizar a criação de perfis de dados: crie uma nova verificação do perfil de dados. Para mais informações, consulte a seção Criar uma verificação de perfil de dados deste documento. Quando você cria uma verificação na página de detalhes de uma tabela, ela é pré-selecionada.

          • Ver perfis anteriores: confira uma lista de verificações de perfil de dados que se aplicam a essa tabela.

      Atualizar uma verificação do perfil de dados

      Console

      1. No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.

        Acessar "Qualidade e perfilamento de dados"

      2. Clique no nome de uma verificação do perfil de dados.

      3. Clique em Editar e mude os valores.

      4. Clique em Salvar.

      gcloud

      Para atualizar uma verificação do perfil de dados, use o comando gcloud dataplex datascans update data-profile:

      gcloud dataplex datascans update data-profile DATASCAN \
      --location=LOCATION \
      --description=DESCRIPTION
      

      Substitua as seguintes variáveis:

      • DATASCAN: o nome da verificação do perfil de dados a ser atualizada.
      • LOCATION: a região Google Cloud em que a verificação do perfil de dados foi criada.
      • DESCRIPTION: a nova descrição da verificação do perfil de dados.

      C#

      C#

      Antes de testar este exemplo, siga as instruções de configuração do C# no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog C#.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      using Google.Cloud.Dataplex.V1;
      using Google.LongRunning;
      using Google.Protobuf.WellKnownTypes;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for UpdateDataScan</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void UpdateDataScanRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              UpdateDataScanRequest request = new UpdateDataScanRequest
              {
                  DataScan = new DataScan(),
                  UpdateMask = new FieldMask(),
                  ValidateOnly = false,
              };
              // Make the request
              Operation<DataScan, OperationMetadata> response = dataScanServiceClient.UpdateDataScan(request);
      
              // Poll until the returned long-running operation is complete
              Operation<DataScan, OperationMetadata> completedResponse = response.PollUntilCompleted();
              // Retrieve the operation result
              DataScan result = completedResponse.Result;
      
              // Or get the name of the operation
              string operationName = response.Name;
              // This name can be stored, then the long-running operation retrieved later by name
              Operation<DataScan, OperationMetadata> retrievedResponse = dataScanServiceClient.PollOnceUpdateDataScan(operationName);
              // Check if the retrieved long-running operation has completed
              if (retrievedResponse.IsCompleted)
              {
                  // If it has completed, then access the result
                  DataScan retrievedResult = retrievedResponse.Result;
              }
          }
      }

      Go

      Go

      Antes de testar este exemplo, siga as instruções de configuração do Go no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Go.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.UpdateDataScanRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#UpdateDataScanRequest.
      	}
      	op, err := c.UpdateDataScan(ctx, req)
      	if err != nil {
      		// TODO: Handle error.
      	}
      
      	resp, err := op.Wait(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	// TODO: Use resp.
      	_ = resp
      }
      

      Java

      Java

      Antes de testar este exemplo, siga as instruções de configuração do Java no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Java.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      import com.google.cloud.dataplex.v1.DataScan;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.UpdateDataScanRequest;
      import com.google.protobuf.FieldMask;
      
      public class SyncUpdateDataScan {
      
        public static void main(String[] args) throws Exception {
          syncUpdateDataScan();
        }
      
        public static void syncUpdateDataScan() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            UpdateDataScanRequest request =
                UpdateDataScanRequest.newBuilder()
                    .setDataScan(DataScan.newBuilder().build())
                    .setUpdateMask(FieldMask.newBuilder().build())
                    .setValidateOnly(true)
                    .build();
            DataScan response = dataScanServiceClient.updateDataScanAsync(request).get();
          }
        }
      }

      Python

      Python

      Antes de testar este exemplo, siga as instruções de configuração do Python no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Python.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_update_data_scan():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          data_scan = dataplex_v1.DataScan()
          data_scan.data_quality_spec.rules.dimension = "dimension_value"
          data_scan.data.entity = "entity_value"
      
          request = dataplex_v1.UpdateDataScanRequest(
              data_scan=data_scan,
          )
      
          # Make the request
          operation = client.update_data_scan(request=request)
      
          print("Waiting for operation to complete...")
      
          response = operation.result()
      
          # Handle the response
          print(response)
      
      

      Ruby

      Ruby

      Antes de testar este exemplo, siga as instruções de configuração do Ruby no Guia de início rápido do catálogo universal do Dataplex: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Dataplex Universal Catalog Ruby.

      Para autenticar no Dataplex Universal Catalog, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the update_data_scan call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#update_data_scan.
      #
      def update_data_scan
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::UpdateDataScanRequest.new
      
        # Call the update_data_scan method.
        result = client.update_data_scan request
      
        # The returned object is of type Gapic::Operation. You can use it to
        # check the status of an operation, cancel it, or wait for results.
        # Here is how to wait for a response.
        result.wait_until_done! timeout: 60
        if result.response?
          p result.response
        else
          puts "No response received."
        end
      end

      REST

      Para editar uma verificação de perfil de dados, use o método dataScans.patch.

      Excluir uma verificação do perfil de dados

      Console

      1. No console Google Cloud , na página Criação de metadados do BigQuery, acesse a guia Qualidade e criação do perfil de dados.

        Acessar "Qualidade e perfilamento de dados"

      2. Clique na verificação que você quer excluir.

      3. Clique em Excluir e confirme quando solicitado.

      gcloud

      Para excluir uma verificação do perfil de dados, use o comando gcloud dataplex datascans delete:

      gcloud dataplex datascans delete DATASCAN \
      --location=LOCATION --async
      

      Substitua as seguintes variáveis:

      • DATASCAN: o nome da verificação do perfil de dados a ser excluída.
      • LOCATION: a região Google Cloud em que a verificação do perfil de dados foi criada.

      REST

      Para excluir uma verificação do perfil de dados, use o método dataScans.delete.

      A seguir