Procéder au profilage de vos données

Ce document explique comment utiliser les analyses de profil de données pour mieux comprendre vos données. BigQuery utilise Dataplex Universal Catalog pour analyser les caractéristiques statistiques de vos données, telles que les valeurs moyennes, les valeurs uniques et les valeurs maximales. Dataplex Universal Catalog utilise également ces informations pour recommander des règles pour les vérifications de la qualité des données.

Pour en savoir plus sur le profilage de données, consultez la page À propos du profilage de données.

Avant de commencer

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Rôles requis

Pour obtenir les autorisations nécessaires pour créer et gérer des analyses de profils de données, demandez à votre administrateur de vous accorder les rôles IAM suivants sur votre ressource, comme le projet ou la table :

  • Pour créer, exécuter, mettre à jour et supprimer des analyses de profil de données : Rôle Éditeur Dataplex DataScan (roles/dataplex.dataScanEditor) sur le projet contenant l'analyse de données.
  • Pour autoriser Dataplex Universal Catalog à exécuter des analyses de profilage des données sur les données BigQuery, accordez les rôles suivants au compte de service Dataplex Universal Catalog : Rôle Utilisateur de job BigQuery (roles/bigquery.jobUser) sur le projet exécutant l'analyse ; rôle Lecteur de données BigQuery (roles/bigquery.dataViewer) sur les tables analysées.
  • Pour exécuter des analyses de profilage des données pour les tables externes BigQuery qui utilisent des données Cloud Storage : accordez au compte de service Dataplex Universal Catalog les rôles Lecteur des objets Storage (roles/storage.objectViewer) et Lecteur de buckets Storage (ancienne version) (roles/storage.legacyBucketReader) sur le bucket Cloud Storage.
  • Pour afficher les résultats, les jobs et l'historique des analyses de profilage des données : Rôle Lecteur Dataplex DataScan (roles/dataplex.dataScanViewer) sur le projet contenant l'analyse de données.
  • Pour exporter les résultats d'analyse du profil de données vers une table BigQuery : Rôle Éditeur de données BigQuery (roles/bigquery.dataEditor) sur la table.
  • Pour publier les résultats de l'analyse du profil de données dans Dataplex Universal Catalog : Rôle Éditeur de catalogue Dataplex (roles/dataplex.catalogEditor) sur le groupe d'entrées @bigquery.
  • Pour afficher les résultats publiés de l'analyse du profil de données dans BigQuery, dans l'onglet Profil de données : Rôle Lecteur de données BigQuery (roles/bigquery.dataViewer) sur la table.

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Autorisations requises

Si vous utilisez des rôles personnalisés, vous devez accorder les autorisations IAM suivantes :

  • Pour créer, exécuter, mettre à jour et supprimer des analyses de profil de données :
    • dataplex.datascans.create sur un projet : créer un DataScan
    • dataplex.datascans.update sur l'analyse des données : mettre à jour la description d'une DataScan
    • dataplex.datascans.delete sur l'analyse de données : supprimer un dataplex.datascans.deleteDataScan
    • dataplex.datascans.run sur l'analyse de données : exécutez une DataScan.
    • dataplex.datascans.get sur l'analyse de données : afficher les détails de l'analyse DataScan, à l'exception des résultats
    • dataplex.datascans.list sur le projet : liste des DataScan
    • dataplex.dataScanJobs.get sur le job d'analyse de données : lire les ressources de job DataScan
    • dataplex.dataScanJobs.list sur l'analyse de données : liste les ressources de job DataScan dans un projet
  • Pour autoriser Dataplex Universal Catalog à exécuter des analyses de profilage des données sur les données BigQuery :
    • bigquery.jobs.create sur le projet : exécuter des jobs
    • bigquery.tables.get sur une table : obtenir les métadonnées de la table
    • bigquery.tables.getData sur le tableau : obtenir les données du tableau
  • Pour exécuter des analyses de profil de données pour les tables externes BigQuery qui utilisent des données Cloud Storage :
    • storage.buckets.get sur le bucket : lire les métadonnées du bucket
    • storage.objects.get sur l'objet : lire les données de l'objet
  • Pour afficher les résultats, les jobs et l'historique des analyses de profilage de données :
    • dataplex.datascans.getData sur l'analyse de données : affichez les détails de l'analyse DataScan, y compris les résultats.
    • dataplex.datascans.list sur le projet : liste des DataScan
    • dataplex.dataScanJobs.get sur le job d'analyse de données : lire les ressources de job DataScan
    • dataplex.dataScanJobs.list sur l'analyse de données : liste les ressources de job DataScan dans un projet
  • Pour exporter les résultats d'une analyse de profil de données vers une table BigQuery :
    • bigquery.tables.create sur l'ensemble de données : créer des tableaux
    • bigquery.tables.updateData sur table : écrire des données dans des tables
  • Pour publier les résultats de l'analyse du profil de données dans Dataplex Universal Catalog :
    • dataplex.entryGroups.useDataProfileAspect sur le groupe d'entrées : permet aux analyses de profilage des données Dataplex Universal Catalog d'enregistrer leurs résultats dans Dataplex Universal Catalog
    • Vous devez également disposer de l'une des autorisations suivantes :
      • bigquery.tables.update sur une table : mettre à jour les métadonnées de la table
      • dataplex.entries.update sur l'entrée : mettre à jour les entrées
  • Pour afficher les résultats de profil de données publiés pour une table dans BigQuery ou Dataplex Universal Catalog :
    • bigquery.tables.get sur une table : obtenir les métadonnées de la table
    • bigquery.tables.getData sur le tableau : obtenir les données du tableau

Si une table utilise la sécurité au niveau des lignes de BigQuery, Dataplex Universal Catalog ne peut analyser que les lignes visibles par le compte de service Dataplex Universal Catalog. Pour autoriser Dataplex Universal Catalog à analyser toutes les lignes, ajoutez son compte de service à un filtre de ligne où le prédicat est TRUE.

Si une table utilise la sécurité au niveau des colonnes de BigQuery, Dataplex Universal Catalog doit avoir accès aux colonnes protégées pour pouvoir les analyser. Pour accorder l'accès, attribuez au compte de service Dataplex Universal Catalog le rôle Lecteur détaillé Data Catalog (roles/datacatalog.fineGrainedReader) sur tous les tags avec stratégie utilisés dans la table. Un utilisateur qui crée ou met à jour une analyse des données doit également disposer des autorisations sur les colonnes protégées.

Attribuer des rôles au compte de service Dataplex Universal Catalog

Pour exécuter des analyses de profilage des données, Dataplex Universal Catalog utilise un compte de service qui nécessite des autorisations pour exécuter des jobs BigQuery et lire les données des tables BigQuery. Pour attribuer les rôles requis, procédez comme suit :

  1. Récupérez l'adresse e-mail du compte de service Dataplex Universal Catalog. Si vous n'avez jamais créé d'analyse de profilage des données ni d'analyse de la qualité des données dans ce projet, exécutez la commande gcloud suivante pour générer l'identité de service :

    gcloud beta services identity create --service=dataplex.googleapis.com
    

    La commande renvoie l'adresse e-mail du compte de service, qui est au format suivant : service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com.

    Si le compte de service existe déjà, vous pouvez trouver son adresse e-mail en affichant les comptes principaux portant le nom Dataplex sur la page IAM de la console Google Cloud .

  2. Attribuez au compte de service le rôle Utilisateur de job BigQuery (roles/bigquery.jobUser) sur votre projet. Ce rôle permet au compte de service d'exécuter des jobs BigQuery pour l'analyse.

    gcloud projects add-iam-policy-binding PROJECT_ID \
        --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \
        --role="roles/bigquery.jobUser"
    

    Remplacez les éléments suivants :

    • PROJECT_ID : ID de votre projet Google Cloud .
    • service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com : adresse e-mail du compte de service Dataplex Universal Catalog.
  3. Attribuez au compte de service le rôle Lecteur de données BigQuery (roles/bigquery.dataViewer) pour chaque table que vous souhaitez profiler. Ce rôle accorde un accès en lecture seule aux tables.

    gcloud bigquery tables add-iam-policy-binding DATASET_ID.TABLE_ID \
        --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \
        --role="roles/bigquery.dataViewer"
    

    Remplacez les éléments suivants :

    • DATASET_ID : ID de l'ensemble de données contenant la table.
    • TABLE_ID : ID de la table à profiler.
    • service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com : adresse e-mail du compte de service Dataplex Universal Catalog.

      Créer une analyse de profilage de données

      Console

      1. Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.

        Accéder à la page "Qualité et profilage des données"

      2. Cliquez sur Créer une analyse de profilage de données.

      3. Facultatif : Saisissez un nom à afficher.

      4. Saisissez un ID. Consultez les conventions d'attribution de noms pour les ressources.

      5. Facultatif : saisissez une description.

      6. Dans le champ Table, cliquez sur Parcourir. Choisissez la table à analyser, puis cliquez sur Sélectionner.

        Pour les tables des ensembles de données multirégionaux, choisissez une région dans laquelle créer l'analyse de données.

        Pour parcourir les tables organisées dans les lacs Dataplex Universal Catalog, cliquez sur Parcourir les lacs Dataplex.

      7. Dans le champ Champ d'application, sélectionnez Incrémentiel ou Intégralité des données.

        • Si vous choisissez des données incrémentielles, sélectionnez pour le champ Colonne de code temporel une colonne de votre table BigQuery (de type DATE ou TIMESTAMP) qui augmente à mesure que de nouveaux enregistrements sont ajoutés et qui permet d'identifier de nouveaux enregistrements. Pour les tables partitionnées sur une colonne de type DATE ou TIMESTAMP, nous vous recommandons d'utiliser la colonne de partition comme champ de code temporel.
      8. Facultatif : Pour filtrer vos données, effectuez l'une des opérations suivantes :

        • Pour filtrer par ligne, cochez la case Filtrer les lignes. Saisissez une expression SQL valide pouvant être utilisée dans une clause WHERE en syntaxe GoogleSQL. Exemple : col1 >= 0.

          Le filtre peut être une combinaison de conditions SQL sur plusieurs colonnes. Exemple : col1 >= 0 AND col2 < 10.

        • Pour filtrer par colonne, cochez la case Filtrer les colonnes.

          • Pour inclure des colonnes dans l'analyse de profilage, cliquez sur Parcourir dans le champ Inclure des colonnes. Sélectionnez les colonnes à inclure, puis cliquez sur Sélectionner.

          • Pour exclure des colonnes de l'analyse de profilage, dans le champ Exclure des colonnes, cliquez sur Parcourir. Sélectionnez les colonnes à exclure, puis cliquez sur Sélectionner.

      9. Pour appliquer l'échantillonnage à l'analyse de profilage des données, sélectionnez un pourcentage d'échantillonnage dans la liste Taille d'échantillonnage. Choisissez un pourcentage compris entre 0 et 100 %, avec un maximum de trois chiffres après la virgule.

        • Pour les ensembles de données plus volumineux, choisissez un pourcentage d'échantillonnage plus faible. Par exemple, pour une table de 1 Po, si vous saisissez une valeur comprise entre 0,1 et 1 %, le profil de données échantillonne entre 1 et 10 To de données.

        • Vous devez disposer d'au moins 100 enregistrements dans les données échantillonnées pour obtenir un résultat.

        • Pour les analyses de données incrémentielles, l'analyse de profilage des données applique l'échantillonnage au dernier incrément.

      10. Facultatif : Publiez les résultats de l'analyse de profilage des données sur les pages BigQuery et Dataplex Universal Catalog de laGoogle Cloud console pour la table source. Cochez la case Publier les résultats dans BigQuery et Dataplex Catalog.

        Vous pouvez consulter les derniers résultats d'analyse dans l'onglet Profil de données des pages BigQuery et Dataplex Universal Catalog pour la table source. Pour permettre aux utilisateurs d'accéder aux résultats d'analyse publiés, consultez la section Accorder l'accès aux résultats d'analyse de profilage de données de ce document.

        L'option de publication peut ne pas être disponible dans les cas suivants :

        • Vous ne disposez pas des autorisations requises pour cette table.
        • Une autre analyse de la qualité des données est configurée pour publier les résultats.
      11. Dans la section Planification, choisissez l'une des options suivantes :

        • Répétition : exécutez l'analyse de profilage des données selon une planification horaire, quotidienne, hebdomadaire, mensuelle ou personnalisée. Spécifiez la fréquence et l'heure d'exécution de l'analyse. Si vous choisissez "Personnalisée", utilisez le format cron pour spécifier la planification.

        • À la demande : exécutez l'analyse de profilage des données à la demande.

      12. Cliquez sur Continuer.

      13. Facultatif : exportez les résultats de l'analyse vers une table BigQuery standard. Dans la section Exporter les résultats d'analyse dans une table BigQuery, procédez comme suit :

        1. Dans le champ Sélectionnez un ensemble de données BigQuery, cliquez sur Parcourir. Sélectionnez un ensemble de données BigQuery dans lequel stocker les résultats de l'analyse de profilage des données.

        2. Dans le champ Table BigQuery, spécifiez la table dans laquelle stocker les résultats de l'analyse de profilage des données. Si vous utilisez une table existante, assurez-vous qu'elle est compatible avec le schéma de la table d'exportation. Si la table spécifiée n'existe pas, Dataplex Universal Catalog la crée pour vous.

      14. Facultatif : Ajoutez des étiquettes. Les étiquettes sont des paires clé/valeur qui vous permettent de regrouper des objets associés ou de les combiner à d'autres Google Cloud ressources.

      15. Pour créer l'analyse, cliquez sur Créer.

        Si vous définissez la planification sur "À la demande", vous pouvez également exécuter l'analyse maintenant en cliquant sur Exécuter l'analyse.

      gcloud

      Pour créer une analyse de profilage des données, utilisez la commande gcloud dataplex datascans create data-profile.

      Si les données source sont organisées dans un lac Dataplex Universal Catalog, incluez le flag --data-source-entity :

      gcloud dataplex datascans create data-profile DATASCAN \
      --location=LOCATION \
      --data-source-entity=DATA_SOURCE_ENTITY
      

      Si les données source ne sont pas organisées dans un lac Dataplex Universal Catalog, incluez le flag --data-source-resource :

      gcloud dataplex datascans create data-profile DATASCAN \
      --location=LOCATION \
      --data-source-resource=DATA_SOURCE_RESOURCE
      

      Remplacez les variables suivantes :

      • DATASCAN : nom de l'analyse de profilage des données.
      • LOCATION : Google Cloud région dans laquelle créer l'analyse de profilage des données.
      • DATA_SOURCE_ENTITY : entité Dataplex Universal Catalog contenant les données pour l'analyse de profilage des données. Exemple : projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
      • DATA_SOURCE_RESOURCE : nom de la ressource contenant les données pour l'analyse de profilage des données. Exemple : //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

      C#

      C#

      Avant d'essayer cet exemple, suivez les instructions de configuration pour C# décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour C#.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      using Google.Api.Gax.ResourceNames;
      using Google.Cloud.Dataplex.V1;
      using Google.LongRunning;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for CreateDataScan</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void CreateDataScanRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              CreateDataScanRequest request = new CreateDataScanRequest
              {
                  ParentAsLocationName = LocationName.FromProjectLocation("[PROJECT]", "[LOCATION]"),
                  DataScan = new DataScan(),
                  DataScanId = "",
                  ValidateOnly = false,
              };
              // Make the request
              Operation<DataScan, OperationMetadata> response = dataScanServiceClient.CreateDataScan(request);
      
              // Poll until the returned long-running operation is complete
              Operation<DataScan, OperationMetadata> completedResponse = response.PollUntilCompleted();
              // Retrieve the operation result
              DataScan result = completedResponse.Result;
      
              // Or get the name of the operation
              string operationName = response.Name;
              // This name can be stored, then the long-running operation retrieved later by name
              Operation<DataScan, OperationMetadata> retrievedResponse = dataScanServiceClient.PollOnceCreateDataScan(operationName);
              // Check if the retrieved long-running operation has completed
              if (retrievedResponse.IsCompleted)
              {
                  // If it has completed, then access the result
                  DataScan retrievedResult = retrievedResponse.Result;
              }
          }
      }

      Accéder

      Go

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Go décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Go.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.CreateDataScanRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#CreateDataScanRequest.
      	}
      	op, err := c.CreateDataScan(ctx, req)
      	if err != nil {
      		// TODO: Handle error.
      	}
      
      	resp, err := op.Wait(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	// TODO: Use resp.
      	_ = resp
      }
      

      Java

      Java

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Java.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      import com.google.cloud.dataplex.v1.CreateDataScanRequest;
      import com.google.cloud.dataplex.v1.DataScan;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.LocationName;
      
      public class SyncCreateDataScan {
      
        public static void main(String[] args) throws Exception {
          syncCreateDataScan();
        }
      
        public static void syncCreateDataScan() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            CreateDataScanRequest request =
                CreateDataScanRequest.newBuilder()
                    .setParent(LocationName.of("[PROJECT]", "[LOCATION]").toString())
                    .setDataScan(DataScan.newBuilder().build())
                    .setDataScanId("dataScanId1260787906")
                    .setValidateOnly(true)
                    .build();
            DataScan response = dataScanServiceClient.createDataScanAsync(request).get();
          }
        }
      }

      Python

      Python

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Python décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Python.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_create_data_scan():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          data_scan = dataplex_v1.DataScan()
          data_scan.data_quality_spec.rules.dimension = "dimension_value"
          data_scan.data.entity = "entity_value"
      
          request = dataplex_v1.CreateDataScanRequest(
              parent="parent_value",
              data_scan=data_scan,
              data_scan_id="data_scan_id_value",
          )
      
          # Make the request
          operation = client.create_data_scan(request=request)
      
          print("Waiting for operation to complete...")
      
          response = operation.result()
      
          # Handle the response
          print(response)
      
      

      Ruby

      Ruby

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Ruby décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Ruby.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the create_data_scan call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#create_data_scan.
      #
      def create_data_scan
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::CreateDataScanRequest.new
      
        # Call the create_data_scan method.
        result = client.create_data_scan request
      
        # The returned object is of type Gapic::Operation. You can use it to
        # check the status of an operation, cancel it, or wait for results.
        # Here is how to wait for a response.
        result.wait_until_done! timeout: 60
        if result.response?
          p result.response
        else
          puts "No response received."
        end
      end

      REST

      Pour créer une analyse de profilage de données, utilisez la méthode dataScans.create.

      Créer plusieurs analyses de profilage des données

      Vous pouvez configurer des analyses de profilage de données pour plusieurs tables d'un ensemble de données BigQuery en même temps à l'aide de la console Google Cloud .

      1. Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.

        Accéder à la page "Qualité et profilage des données"

      2. Cliquez sur Créer une analyse de profilage de données.

      3. Sélectionnez l'option Plusieurs analyses de profilage des données.

      4. Saisissez un préfixe d'ID. Dataplex Universal Catalog génère automatiquement des ID d'analyse en utilisant le préfixe fourni et des suffixes uniques.

      5. Saisissez une Description pour toutes les analyses de profilage des données.

      6. Dans le champ Ensemble de données, cliquez sur Parcourir. Sélectionnez un ensemble de données dans lequel choisir des tables. Cliquez sur Sélectionner.

      7. Si l'ensemble de données est multirégional, sélectionnez une région dans laquelle créer les analyses de profilage des données.

      8. Configurez les paramètres communs pour les analyses :

        1. Dans le champ Champ d'application, sélectionnez Incrémentiel ou Intégralité des données.

        2. Pour appliquer l'échantillonnage aux analyses de profilage des données, sélectionnez un pourcentage d'échantillonnage dans la liste Taille d'échantillonnage.

          Choisissez un pourcentage compris entre 0 et 100 %, avec un maximum de trois chiffres après la virgule.

        3. Facultatif : Publiez les résultats de l'analyse de profilage des données sur les pages BigQuery et Dataplex Universal Catalog de laGoogle Cloud console pour la table source. Cochez la case Publier les résultats dans BigQuery et Dataplex Catalog.

          Vous pouvez consulter les derniers résultats d'analyse dans l'onglet Profil de données des pages BigQuery et Dataplex Universal Catalog pour la table source. Pour permettre aux utilisateurs d'accéder aux résultats d'analyse publiés, consultez la section Accorder l'accès aux résultats d'analyse de profilage de données de ce document.

        4. Dans la section Planification, choisissez l'une des options suivantes :

          • Répétition : exécutez l'analyse de profilage des données selon une planification horaire, quotidienne, hebdomadaire, mensuelle ou personnalisée. Spécifiez la fréquence et l'heure d'exécution des analyses. Si vous choisissez "Personnalisée", utilisez le format cron pour spécifier la planification.

          • À la demande : exécutez les analyses de profilage des données à la demande.

      9. Cliquez sur Continuer.

      10. Pour l'option Choisir des tables, cliquez sur Parcourir. Choisissez une ou plusieurs tables à analyser, puis cliquez sur Sélectionner.

      11. Cliquez sur Continuer.

      12. Facultatif : exportez les résultats de l'analyse vers une table BigQuery standard. Dans la section Exporter les résultats d'analyse dans une table BigQuery, procédez comme suit :

        1. Dans le champ Sélectionnez un ensemble de données BigQuery, cliquez sur Parcourir. Sélectionnez un ensemble de données BigQuery dans lequel stocker les résultats de l'analyse de profilage des données.

        2. Dans le champ Table BigQuery, spécifiez la table dans laquelle stocker les résultats de l'analyse de profilage des données. Si vous utilisez une table existante, assurez-vous qu'elle est compatible avec le schéma de la table d'exportation. Si la table spécifiée n'existe pas, Dataplex Universal Catalog la crée pour vous.

          Dataplex Universal Catalog utilise la même table de résultats pour toutes les analyses de profilage des données.

      13. Facultatif : Ajoutez des étiquettes. Les étiquettes sont des paires clé/valeur qui vous permettent de regrouper des objets associés ou de les combiner à d'autres ressources Google Cloud .

      14. Pour créer les analyses, cliquez sur Créer.

        Si vous définissez la planification sur "À la demande", vous pouvez également exécuter les analyses maintenant en cliquant sur Exécuter l'analyse.

      Exécuter une analyse de profilage des données

      Console

      1. Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.

        Accéder à la page "Qualité et profilage des données"

      2. Cliquez sur l'analyse de profilage des données à exécuter.
      3. Cliquez sur Exécuter maintenant.

      gcloud

      Pour exécuter une analyse de profilage des données, utilisez la commande gcloud dataplex datascans run :

      gcloud dataplex datascans run DATASCAN \
      --location=LOCATION
      

      Remplacez les variables suivantes :

      • DATASCAN : nom de l'analyse de profilage des données.
      • LOCATION : Google Cloud région dans laquelle l'analyse de profilage des données a été créée.

      C#

      C#

      Avant d'essayer cet exemple, suivez les instructions de configuration pour C# décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour C#.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      using Google.Cloud.Dataplex.V1;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for RunDataScan</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void RunDataScanRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              RunDataScanRequest request = new RunDataScanRequest
              {
                  DataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
              };
              // Make the request
              RunDataScanResponse response = dataScanServiceClient.RunDataScan(request);
          }
      }

      Accéder

      Go

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Go décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Go.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.RunDataScanRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#RunDataScanRequest.
      	}
      	resp, err := c.RunDataScan(ctx, req)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	// TODO: Use resp.
      	_ = resp
      }
      

      Java

      Java

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Java.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      import com.google.cloud.dataplex.v1.DataScanName;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.RunDataScanRequest;
      import com.google.cloud.dataplex.v1.RunDataScanResponse;
      
      public class SyncRunDataScan {
      
        public static void main(String[] args) throws Exception {
          syncRunDataScan();
        }
      
        public static void syncRunDataScan() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            RunDataScanRequest request =
                RunDataScanRequest.newBuilder()
                    .setName(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
                    .build();
            RunDataScanResponse response = dataScanServiceClient.runDataScan(request);
          }
        }
      }

      Python

      Python

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Python décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Python.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_run_data_scan():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          request = dataplex_v1.RunDataScanRequest(
              name="name_value",
          )
      
          # Make the request
          response = client.run_data_scan(request=request)
      
          # Handle the response
          print(response)
      
      

      Ruby

      Ruby

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Ruby décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Ruby.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the run_data_scan call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#run_data_scan.
      #
      def run_data_scan
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::RunDataScanRequest.new
      
        # Call the run_data_scan method.
        result = client.run_data_scan request
      
        # The returned object is of type Google::Cloud::Dataplex::V1::RunDataScanResponse.
        p result
      end

      REST

      Pour exécuter une analyse de profilage des données, utilisez la méthode dataScans.run.

      Afficher les résultats d'analyse de profilage de données

      Console

      1. Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.

        Accéder à la page "Qualité et profilage des données"

      2. Cliquez sur le nom d'une analyse de profilage de données.

        • La section Vue d'ensemble affiche des informations sur les jobs les plus récents, y compris la date d'exécution de l'analyse, le nombre d'enregistrements de table analysés et l'état du job.

        • La section Configuration de l'analyse de profilage des données affiche des informations sur l'analyse.

      3. Pour afficher des informations détaillées sur un job, comme les colonnes de la table analysée, des statistiques sur les colonnes trouvées lors de l'analyse et les journaux de job, cliquez sur l'onglet Historique des jobs. Cliquez ensuite sur un ID de job.

      gcloud

      Pour afficher les résultats d'un job d'analyse de profilage des données, utilisez la commande gcloud dataplex datascans jobs describe :

      gcloud dataplex datascans jobs describe JOB \
      --location=LOCATION \
      --datascan=DATASCAN \
      --view=FULL
      

      Remplacez les variables suivantes :

      • JOB : ID du job d'analyse de profilage des données.
      • LOCATION : Google Cloud région dans laquelle l'analyse de profilage des données a été créée.
      • DATASCAN : nom de l'analyse de profilage des données à laquelle appartient le job.
      • --view=FULL : pour afficher le résultat du job d'analyse, spécifiez FULL.

      C#

      C#

      Avant d'essayer cet exemple, suivez les instructions de configuration pour C# décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour C#.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      using Google.Cloud.Dataplex.V1;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for GetDataScan</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void GetDataScanRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              GetDataScanRequest request = new GetDataScanRequest
              {
                  DataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
                  View = GetDataScanRequest.Types.DataScanView.Unspecified,
              };
              // Make the request
              DataScan response = dataScanServiceClient.GetDataScan(request);
          }
      }

      Accéder

      Go

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Go décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Go.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.GetDataScanRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#GetDataScanRequest.
      	}
      	resp, err := c.GetDataScan(ctx, req)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	// TODO: Use resp.
      	_ = resp
      }
      

      Java

      Java

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Java.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      import com.google.cloud.dataplex.v1.DataScan;
      import com.google.cloud.dataplex.v1.DataScanName;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.GetDataScanRequest;
      
      public class SyncGetDataScan {
      
        public static void main(String[] args) throws Exception {
          syncGetDataScan();
        }
      
        public static void syncGetDataScan() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            GetDataScanRequest request =
                GetDataScanRequest.newBuilder()
                    .setName(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
                    .build();
            DataScan response = dataScanServiceClient.getDataScan(request);
          }
        }
      }

      Python

      Python

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Python décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Python.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_get_data_scan():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          request = dataplex_v1.GetDataScanRequest(
              name="name_value",
          )
      
          # Make the request
          response = client.get_data_scan(request=request)
      
          # Handle the response
          print(response)
      
      

      Ruby

      Ruby

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Ruby décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Ruby.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the get_data_scan call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#get_data_scan.
      #
      def get_data_scan
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::GetDataScanRequest.new
      
        # Call the get_data_scan method.
        result = client.get_data_scan request
      
        # The returned object is of type Google::Cloud::Dataplex::V1::DataScan.
        p result
      end

      REST

      Pour afficher les résultats d'une analyse de profilage des données, utilisez la méthode dataScans.get.

      Afficher les résultats publiés

      Si les résultats de l'analyse de profilage des données sont publiés sur les pages BigQuery et Dataplex Universal Catalog de la console Google Cloud , vous pouvez consulter les derniers résultats de l'analyse dans l'onglet Profil de données de la table source.

      1. Dans la console Google Cloud , accédez à la page "BigQuery".

        Accéder à BigQuery

      2. Dans le panneau de gauche, cliquez sur Explorer :

        Bouton du volet &quot;Explorateur&quot; mis en évidence.

        Si le volet de gauche n'apparaît pas, cliquez sur Développer le volet de gauche pour l'ouvrir.

      3. Dans le volet Explorateur, cliquez sur Ensembles de données, puis sur votre ensemble de données.

      4. Cliquez sur Présentation > Tables, puis sélectionnez la table dont vous souhaitez afficher les résultats de l'analyse du profil de données.

      5. Cliquez sur l'onglet Profil de données.

        Les derniers résultats publiés s'affichent.

      Afficher le job d'analyse de profilage des données le plus récent

      Console

      1. Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.

        Accéder à la page "Qualité et profilage des données"

      2. Cliquez sur le nom d'une analyse de profilage de données.

      3. Cliquez sur l'onglet Résultats du dernier job.

        Lorsqu'au moins une exécution a été effectuée avec succès, l'onglet Résultats du dernier job fournit des informations sur le job le plus récent. Cet onglet recense les colonnes de la table analysée et les statistiques sur les colonnes trouvées lors de l'analyse.

      gcloud

      Pour afficher la dernière analyse de profilage des données réussie, utilisez la commande gcloud dataplex datascans describe :

      gcloud dataplex datascans describe DATASCAN \
      --location=LOCATION \
      --view=FULL
      

      Remplacez les variables suivantes :

      • DATASCAN : nom de l'analyse de profilage des données pour laquelle vous souhaitez afficher le job le plus récent.
      • LOCATION : Google Cloud région dans laquelle l'analyse de profilage des données a été créée.
      • --view=FULL : pour afficher le résultat du job d'analyse, spécifiez FULL.

      REST

      Pour afficher le job d'analyse le plus récent, utilisez la méthode dataScans.get.

      Afficher l'historique des résultats d'analyse

      Dataplex Universal Catalog enregistre l'historique des analyses de profilage des données pour les 300 derniers jobs ou l'année écoulée, selon la première échéance.

      Console

      1. Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.

        Accéder à la page "Qualité et profilage des données"

      2. Cliquez sur le nom d'une analyse de profilage de données.

      3. Cliquez sur l'onglet Historique des jobs.

        L'onglet Historique des jobs fournit des informations sur les anciens jobs, comme le nombre d'enregistrements analysés dans chaque job, l'état du job et l'heure à laquelle le job a été exécuté.

      4. Pour afficher des informations détaillées sur un job, cliquez sur l'un des jobs de la colonne ID de job.

      gcloud

      Pour afficher l'historique des jobs d'analyse de profilage des données, utilisez la commande gcloud dataplex datascans jobs list :

      gcloud dataplex datascans jobs list \
      --location=LOCATION \
      --datascan=DATASCAN
      

      Remplacez les variables suivantes :

      • LOCATION : Google Cloud région dans laquelle l'analyse de profilage des données a été créée.
      • DATASCAN : nom de l'analyse de profilage des données pour laquelle vous souhaitez afficher les jobs.

      C#

      C#

      Avant d'essayer cet exemple, suivez les instructions de configuration pour C# décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour C#.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      using Google.Api.Gax;
      using Google.Cloud.Dataplex.V1;
      using System;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for ListDataScanJobs</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void ListDataScanJobsRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              ListDataScanJobsRequest request = new ListDataScanJobsRequest
              {
                  ParentAsDataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
                  Filter = "",
              };
              // Make the request
              PagedEnumerable<ListDataScanJobsResponse, DataScanJob> response = dataScanServiceClient.ListDataScanJobs(request);
      
              // Iterate over all response items, lazily performing RPCs as required
              foreach (DataScanJob item in response)
              {
                  // Do something with each item
                  Console.WriteLine(item);
              }
      
              // Or iterate over pages (of server-defined size), performing one RPC per page
              foreach (ListDataScanJobsResponse page in response.AsRawResponses())
              {
                  // Do something with each page of items
                  Console.WriteLine("A page of results:");
                  foreach (DataScanJob item in page)
                  {
                      // Do something with each item
                      Console.WriteLine(item);
                  }
              }
      
              // Or retrieve a single page of known size (unless it's the final page), performing as many RPCs as required
              int pageSize = 10;
              Page<DataScanJob> singlePage = response.ReadPage(pageSize);
              // Do something with the page of items
              Console.WriteLine($"A page of {pageSize} results (unless it's the final page):");
              foreach (DataScanJob item in singlePage)
              {
                  // Do something with each item
                  Console.WriteLine(item);
              }
              // Store the pageToken, for when the next page is required.
              string nextPageToken = singlePage.NextPageToken;
          }
      }

      Accéder

      Go

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Go décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Go.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      	"google.golang.org/api/iterator"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.ListDataScanJobsRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#ListDataScanJobsRequest.
      	}
      	it := c.ListDataScanJobs(ctx, req)
      	for {
      		resp, err := it.Next()
      		if err == iterator.Done {
      			break
      		}
      		if err != nil {
      			// TODO: Handle error.
      		}
      		// TODO: Use resp.
      		_ = resp
      
      		// If you need to access the underlying RPC response,
      		// you can do so by casting the `Response` as below.
      		// Otherwise, remove this line. Only populated after
      		// first call to Next(). Not safe for concurrent access.
      		_ = it.Response.(*dataplexpb.ListDataScanJobsResponse)
      	}
      }
      

      Java

      Java

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Java.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      import com.google.cloud.dataplex.v1.DataScanJob;
      import com.google.cloud.dataplex.v1.DataScanName;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.ListDataScanJobsRequest;
      
      public class SyncListDataScanJobs {
      
        public static void main(String[] args) throws Exception {
          syncListDataScanJobs();
        }
      
        public static void syncListDataScanJobs() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            ListDataScanJobsRequest request =
                ListDataScanJobsRequest.newBuilder()
                    .setParent(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
                    .setPageSize(883849137)
                    .setPageToken("pageToken873572522")
                    .setFilter("filter-1274492040")
                    .build();
            for (DataScanJob element : dataScanServiceClient.listDataScanJobs(request).iterateAll()) {
              // doThingsWith(element);
            }
          }
        }
      }

      Python

      Python

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Python décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Python.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_list_data_scan_jobs():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          request = dataplex_v1.ListDataScanJobsRequest(
              parent="parent_value",
          )
      
          # Make the request
          page_result = client.list_data_scan_jobs(request=request)
      
          # Handle the response
          for response in page_result:
              print(response)
      
      

      Ruby

      Ruby

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Ruby décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Ruby.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the list_data_scan_jobs call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#list_data_scan_jobs.
      #
      def list_data_scan_jobs
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::ListDataScanJobsRequest.new
      
        # Call the list_data_scan_jobs method.
        result = client.list_data_scan_jobs request
      
        # The returned object is of type Gapic::PagedEnumerable. You can iterate
        # over elements, and API calls will be issued to fetch pages as needed.
        result.each do |item|
          # Each element is of type ::Google::Cloud::Dataplex::V1::DataScanJob.
          p item
        end
      end

      REST

      Pour afficher l'historique des jobs d'analyse de profilage des données, utilisez la méthode dataScans.jobs.list.

      Afficher les analyses de profil de données pour une table

      Pour afficher les analyses de profilage des données qui s'appliquent à une table spécifique, procédez comme suit :

      1. Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.

        Accéder à la page "Qualité et profilage des données"

      2. Filtrez la liste par nom de table et type d'analyse.

      Accorder l'accès aux résultats d'analyse de profilage de données

      Pour permettre aux utilisateurs de votre organisation d'afficher les résultats d'analyse, procédez comme suit :

      1. Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.

        Accéder à la page "Qualité et profilage des données"

      2. Cliquez sur l'analyse de la qualité des données dont vous souhaitez partager les résultats.

      3. Cliquez sur l'onglet Autorisations.

      4. Procédez comme suit :

        • Pour accorder l'accès à un compte principal, cliquez sur Accorder l'accès. Accordez le rôle Lecteur de données Dataplex DataScan au compte principal associé.
        • Pour supprimer l'accès d'un compte principal, sélectionnez le compte principal pour lequel vous souhaitez supprimer le rôle Lecteur de données Dataplex DataScan. Cliquez sur  > Supprimer l'accès, puis confirmez lorsque vous y êtes invité.

      Gérer les analyses de profilage des données pour une table spécifique

      Les étapes décrites dans ce document expliquent comment gérer les analyses de profilage des données dans votre projet à l'aide de la page BigQuery Curation des métadonnées > Qualité et profilage des données dans la consoleGoogle Cloud .

      Vous pouvez également créer et gérer des analyses de profilage de données lorsque vous travaillez avec une table spécifique. Dans la console Google Cloud , sur la page BigQuery de la table, utilisez l'onglet Profil de données. Procédez comme suit :

      1. Dans la console Google Cloud , accédez à la page BigQuery.

        Accéder à BigQuery

        Dans le volet Explorateur (à gauche), cliquez sur Ensembles de données, puis sur votre ensemble de données. Cliquez ensuite sur Présentation > Tables, puis sélectionnez la table dont vous souhaitez afficher les résultats de l'analyse du profil de données.

      2. Cliquez sur l'onglet Profil de données.

      3. Selon que la table comporte ou non une analyse de profilage des données dont les résultats sont publiés, vous pouvez effectuer les opérations suivantes :

        • Les résultats de l'analyse de profilage de données sont publiés : les derniers résultats de l'analyse publiée s'affichent sur la page.

          Pour gérer les analyses de profilage des données de ce tableau, cliquez sur Analyse de profilage des données, puis sélectionnez l'une des options suivantes :

          • Créer une analyse : créez une analyse de profilage des données. Pour en savoir plus, consultez la section Créer une analyse de profilage de données de ce document. Lorsque vous créez une analyse à partir de la page d'informations d'une table, celle-ci est présélectionnée.

          • Exécuter : exécutez l'analyse.

          • Modifier la configuration d'analyse : modifiez les paramètres, y compris le nom à afficher, les filtres, la taille de l'échantillon et la planification.

          • Gérer les autorisations d'analyse : contrôlez qui peut accéder aux résultats de l'analyse. Pour en savoir plus, consultez la section Accorder l'accès aux résultats d'analyse de profilage des données de ce document.

          • Afficher l'historique des résultats : affichez des informations détaillées sur les jobs d'analyse de profilage des données précédents. Pour en savoir plus, consultez les sections Afficher les résultats d'analyse de profilage de données et Afficher l'historique des résultats d'analyse de ce document.

          • Afficher toutes les analyses : affichez la liste des analyses de profilage des données qui s'appliquent à ce tableau.

        • Les résultats de l'analyse du profilage de données ne sont pas publiés : cliquez sur le menu à côté de Profil de données rapide, puis sélectionnez l'une des options suivantes :

          • Personnaliser le profilage des données : créez une analyse de profilage des données. Pour en savoir plus, consultez la section Créer une analyse de profilage de données de ce document. Lorsque vous créez une analyse à partir de la page d'informations d'une table, celle-ci est présélectionnée.

          • Afficher les profils précédents : affichez la liste des analyses de profilage des données qui s'appliquent à cette table.

      Mettre à jour une analyse de profilage des données

      Console

      1. Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.

        Accéder à la page "Qualité et profilage des données"

      2. Cliquez sur le nom d'une analyse de profilage de données.

      3. Cliquez sur Modifier, puis modifiez les valeurs.

      4. Cliquez sur Enregistrer.

      gcloud

      Pour mettre à jour une analyse de profilage des données, utilisez la commande gcloud dataplex datascans update data-profile :

      gcloud dataplex datascans update data-profile DATASCAN \
      --location=LOCATION \
      --description=DESCRIPTION
      

      Remplacez les variables suivantes :

      • DATASCAN : nom de l'analyse de profilage des données à mettre à jour.
      • LOCATION : Google Cloud région dans laquelle l'analyse de profilage des données a été créée.
      • DESCRIPTION : nouvelle description de l'analyse de profilage des données.

      C#

      C#

      Avant d'essayer cet exemple, suivez les instructions de configuration pour C# décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour C#.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      using Google.Cloud.Dataplex.V1;
      using Google.LongRunning;
      using Google.Protobuf.WellKnownTypes;
      
      public sealed partial class GeneratedDataScanServiceClientSnippets
      {
          /// <summary>Snippet for UpdateDataScan</summary>
          /// <remarks>
          /// This snippet has been automatically generated and should be regarded as a code template only.
          /// It will require modifications to work:
          /// - It may require correct/in-range values for request initialization.
          /// - It may require specifying regional endpoints when creating the service client as shown in
          ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
          /// </remarks>
          public void UpdateDataScanRequestObject()
          {
              // Create client
              DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
              // Initialize request argument(s)
              UpdateDataScanRequest request = new UpdateDataScanRequest
              {
                  DataScan = new DataScan(),
                  UpdateMask = new FieldMask(),
                  ValidateOnly = false,
              };
              // Make the request
              Operation<DataScan, OperationMetadata> response = dataScanServiceClient.UpdateDataScan(request);
      
              // Poll until the returned long-running operation is complete
              Operation<DataScan, OperationMetadata> completedResponse = response.PollUntilCompleted();
              // Retrieve the operation result
              DataScan result = completedResponse.Result;
      
              // Or get the name of the operation
              string operationName = response.Name;
              // This name can be stored, then the long-running operation retrieved later by name
              Operation<DataScan, OperationMetadata> retrievedResponse = dataScanServiceClient.PollOnceUpdateDataScan(operationName);
              // Check if the retrieved long-running operation has completed
              if (retrievedResponse.IsCompleted)
              {
                  // If it has completed, then access the result
                  DataScan retrievedResult = retrievedResponse.Result;
              }
          }
      }

      Accéder

      Go

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Go décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Go.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      
      package main
      
      import (
      	"context"
      
      	dataplex "cloud.google.com/go/dataplex/apiv1"
      	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
      )
      
      func main() {
      	ctx := context.Background()
      	// This snippet has been automatically generated and should be regarded as a code template only.
      	// It will require modifications to work:
      	// - It may require correct/in-range values for request initialization.
      	// - It may require specifying regional endpoints when creating the service client as shown in:
      	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
      	c, err := dataplex.NewDataScanClient(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	defer c.Close()
      
      	req := &dataplexpb.UpdateDataScanRequest{
      		// TODO: Fill request struct fields.
      		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#UpdateDataScanRequest.
      	}
      	op, err := c.UpdateDataScan(ctx, req)
      	if err != nil {
      		// TODO: Handle error.
      	}
      
      	resp, err := op.Wait(ctx)
      	if err != nil {
      		// TODO: Handle error.
      	}
      	// TODO: Use resp.
      	_ = resp
      }
      

      Java

      Java

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Java.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      import com.google.cloud.dataplex.v1.DataScan;
      import com.google.cloud.dataplex.v1.DataScanServiceClient;
      import com.google.cloud.dataplex.v1.UpdateDataScanRequest;
      import com.google.protobuf.FieldMask;
      
      public class SyncUpdateDataScan {
      
        public static void main(String[] args) throws Exception {
          syncUpdateDataScan();
        }
      
        public static void syncUpdateDataScan() throws Exception {
          // This snippet has been automatically generated and should be regarded as a code template only.
          // It will require modifications to work:
          // - It may require correct/in-range values for request initialization.
          // - It may require specifying regional endpoints when creating the service client as shown in
          // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
          try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
            UpdateDataScanRequest request =
                UpdateDataScanRequest.newBuilder()
                    .setDataScan(DataScan.newBuilder().build())
                    .setUpdateMask(FieldMask.newBuilder().build())
                    .setValidateOnly(true)
                    .build();
            DataScan response = dataScanServiceClient.updateDataScanAsync(request).get();
          }
        }
      }

      Python

      Python

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Python décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Python.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      # This snippet has been automatically generated and should be regarded as a
      # code template only.
      # It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      #   client as shown in:
      #   https://googleapis.dev/python/google-api-core/latest/client_options.html
      from google.cloud import dataplex_v1
      
      
      def sample_update_data_scan():
          # Create a client
          client = dataplex_v1.DataScanServiceClient()
      
          # Initialize request argument(s)
          data_scan = dataplex_v1.DataScan()
          data_scan.data_quality_spec.rules.dimension = "dimension_value"
          data_scan.data.entity = "entity_value"
      
          request = dataplex_v1.UpdateDataScanRequest(
              data_scan=data_scan,
          )
      
          # Make the request
          operation = client.update_data_scan(request=request)
      
          print("Waiting for operation to complete...")
      
          response = operation.result()
      
          # Handle the response
          print(response)
      
      

      Ruby

      Ruby

      Avant d'essayer cet exemple, suivez les instructions de configuration pour Ruby décrites dans le guide de démarrage rapide de Dataplex Universal Catalog à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Dataplex Universal Catalog pour Ruby.

      Pour vous authentifier auprès de Dataplex Universal Catalog, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

      require "google/cloud/dataplex/v1"
      
      ##
      # Snippet for the update_data_scan call in the DataScanService service
      #
      # This snippet has been automatically generated and should be regarded as a code
      # template only. It will require modifications to work:
      # - It may require correct/in-range values for request initialization.
      # - It may require specifying regional endpoints when creating the service
      # client as shown in https://cloud.google.com/ruby/docs/reference.
      #
      # This is an auto-generated example demonstrating basic usage of
      # Google::Cloud::Dataplex::V1::DataScanService::Client#update_data_scan.
      #
      def update_data_scan
        # Create a client object. The client can be reused for multiple calls.
        client = Google::Cloud::Dataplex::V1::DataScanService::Client.new
      
        # Create a request. To set request fields, pass in keyword arguments.
        request = Google::Cloud::Dataplex::V1::UpdateDataScanRequest.new
      
        # Call the update_data_scan method.
        result = client.update_data_scan request
      
        # The returned object is of type Gapic::Operation. You can use it to
        # check the status of an operation, cancel it, or wait for results.
        # Here is how to wait for a response.
        result.wait_until_done! timeout: 60
        if result.response?
          p result.response
        else
          puts "No response received."
        end
      end

      REST

      Pour modifier une analyse de profilage de données, utilisez la méthode dataScans.patch.

      Supprimer une analyse de profilage des données

      Console

      1. Dans la console Google Cloud , sur la page Curation des métadonnées de BigQuery, accédez à l'onglet Qualité et profilage des données.

        Accéder à la page "Qualité et profilage des données"

      2. Cliquez sur l'analyse que vous souhaitez supprimer.

      3. Cliquez sur Supprimer, puis confirmez l'opération lorsque vous y êtes invité.

      gcloud

      Pour supprimer une analyse de profilage des données, utilisez la commande gcloud dataplex datascans delete :

      gcloud dataplex datascans delete DATASCAN \
      --location=LOCATION --async
      

      Remplacez les variables suivantes :

      • DATASCAN : nom de l'analyse de profilage des données à supprimer.
      • LOCATION : Google Cloud région dans laquelle l'analyse de profilage des données a été créée.

      REST

      Pour supprimer une analyse de profilage des données, utilisez la méthode dataScans.delete.

      Étapes suivantes