Gérer les configurations des ensembles de données Storage Insights

Cette page explique comment gérer les configurations des ensembles de données Storage Insights pour contrôler la source, le champ d'application et la conservation de vos données. Vous apprendrez à afficher, lister, mettre à jour et supprimer des configurations, ainsi qu'à afficher, interroger et dissocier vos ensembles de données associés.

Obtenir les rôles requis

Pour obtenir les autorisations nécessaires pour gérer les configurations d'ensemble de données, demandez à votre administrateur de vous accorder les rôles IAM suivants sur vos projets sources :

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour gérer les configurations d'ensembles de données. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour gérer les configurations d'ensembles de données :

  • Afficher et lister la configuration de l'ensemble de données :
    • storageinsights.datasetConfigs.get
    • storageinsights.datasetConfigs.list
    • storage.buckets.getObjectInsights
  • Mettre à jour et supprimer la configuration de l'ensemble de données :
    • storageinsights.datasetConfigs.update
    • storageinsights.datasetConfigs.delete
    • storage.buckets.getObjectInsights
  • Dissocier l'ensemble de données BigQuery : storageinsights.datasetConfigs.unlinkDataset
  • Interrogez les ensembles de données associés à BigQuery : bigquery.jobs.create or bigquery.jobs.*

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Afficher et interroger des ensembles de données associés

Pour afficher et interroger les ensembles de données associés, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page Storage Insights de Cloud Storage.

    Accéder à Storage Insights

    Votre projet affiche la liste des configurations d'ensembles de données créées.

  2. Cliquez sur l'ensemble de données associé à BigQuery pour la configuration d'ensemble de données que vous souhaitez afficher.

    La console Google Cloud affiche l'ensemble de données associé à BigQuery. Pour en savoir plus sur le schéma de métadonnées de l'ensemble de données, consultez Schéma de métadonnées de l'ensemble de données.

  3. Vous pouvez interroger les tables et les vues de vos ensembles de données associés de la même manière que vous interrogez n'importe quelle autre table BigQuery.

Pour empêcher la publication de la configuration de l'ensemble de données dans l'ensemble de données BigQuery, dissociez l'ensemble de données. Pour dissocier un ensemble de données, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page Storage Insights de Cloud Storage.

    Accéder à Storage Insights

  2. Cliquez sur le nom de la configuration de l'ensemble de données qui a généré l'ensemble de données que vous souhaitez dissocier.

  3. Dans la section Ensemble de données associé à BigQuery, cliquez sur Dissocier l'ensemble de données.

  1. Pour dissocier l'ensemble de données, exécutez la commande gcloud storage insights dataset-configs delete-link :

    gcloud storage insights dataset-configs delete-link DATASET_CONFIG_ID --location=LOCATION

    Remplacez :

    • DATASET_CONFIG_ID par le nom de la configuration de l'ensemble de données qui a généré l'ensemble de données que vous souhaitez dissocier.

    • LOCATION par l'emplacement de votre ensemble de données et de sa configuration. Par exemple, us-central1.

    Vous pouvez également spécifier un chemin d'accès complet à la configuration du jeu de données. Exemple :

    gcloud storage insights dataset-configs delete-link projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID

    Remplacez :

    • DESTINATION_PROJECT_ID par l'ID du projet contenant la configuration de l'ensemble de données. Pour en savoir plus sur les ID de projet, consultez Créer et gérer des projets.

    • DATASET_CONFIG_ID par le nom de la configuration de l'ensemble de données qui a généré l'ensemble de données que vous souhaitez dissocier.

    • LOCATION par l'emplacement de votre ensemble de données et de la configuration de l'ensemble de données. Par exemple, us-central1.

  1. Vous devez installer et initialiser la gcloud CLI afin de générer un jeton d'accès pour l'en-tête Authorization.

  2. Créez un fichier JSON contenant les informations suivantes :

    {
      "name": "DATASET_NAME"
    }

    Remplacez :

    DATASET_NAME par le nom de l'ensemble de données que vous souhaitez dissocier. Par exemple : my_project.my_dataset276daa7e_2991_4f4f_b9d4_e354b48426a2.

  3. Utilisez cURL pour appeler l'API JSON avec une requête unlinkDataset DatasetConfig :

    curl --request POST --data-binary @JSON_FILE_NAME \
    "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID:unlinkDataset?" \
      --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
      --header "Accept: application/json" \
      --header "Content-Type: application/json"
    

    Remplacez :

    • JSON_FILE_NAME par le chemin d'accès au fichier JSON que vous avez créé à l'étape précédente.

    • Remplacez PROJECT_ID par l'ID du projet auquel appartient la configuration de l'ensemble de données.

    • LOCATION avec l'emplacement de l'ensemble de données et de la configuration de l'ensemble de données. Par exemple, us-central1.

    • DATASET_CONFIG_ID par le nom de la configuration de l'ensemble de données qui a généré l'ensemble de données que vous souhaitez dissocier.

    • SERVICE_ACCOUNT par le compte de service. Exemple :test-service-account@test-project.iam.gserviceaccount.com

Afficher la configuration d'un ensemble de données

Pour afficher la configuration d'un ensemble de données, procédez comme suit :

Console

  1. Dans la console Google Cloud , accédez à la page Storage Insights de Cloud Storage.

    Accéder à Storage Insights

  2. Cliquez sur le nom de la configuration de l'ensemble de données que vous souhaitez afficher.

    Les détails de la configuration de l'ensemble de données s'affichent.

Ligne de commande

  1. Pour décrire une configuration d'ensemble de données, exécutez la commande gcloud storage insights dataset-configs describe :

    gcloud storage insights dataset-configs describe DATASET_CONFIG_ID \
      --location=LOCATION

    Remplacez :

    • DATASET_CONFIG_ID par le nom de la configuration de l'ensemble de données.

    • LOCATION avec l'emplacement de l'ensemble de données et la configuration de l'ensemble de données.

    Vous pouvez également spécifier un chemin d'accès complet à la configuration du jeu de données. Exemple :

    gcloud storage insights dataset-configs describe projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID

    Remplacez :

    • DESTINATION_PROJECT_ID par l'ID du projet contenant la configuration de l'ensemble de données. Pour en savoir plus sur les ID de projet, consultez Créer et gérer des projets.

    • DATASET_CONFIG_ID par le nom de la configuration de l'ensemble de données qui a généré l'ensemble de données que vous souhaitez afficher.

    • LOCATION par l'emplacement de votre ensemble de données et de la configuration de l'ensemble de données. Par exemple, us-central1.

API JSON

  1. Vous devez installer et initialiser la gcloud CLI afin de générer un jeton d'accès pour l'en-tête Authorization.

  2. Utilisez cURL pour appeler l'API JSON avec une requête Get DatasetConfig :

    curl -X GET \
    "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID" \
      --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
      --header "Accept: application/json" \
      --header "Content-Type: application/json"
    

    Remplacez :

    • Remplacez PROJECT_ID par l'ID du projet auquel appartient la configuration de l'ensemble de données.

    • LOCATION avec l'emplacement de l'ensemble de données et de la configuration de l'ensemble de données. Par exemple, us-central1.

    • DATASET_CONFIG_ID par le nom de la configuration de l'ensemble de données.

    • SERVICE_ACCOUNT par le compte de service. Exemple :test-service-account@test-project.

Lister les configurations d'ensembles de données

Pour lister les configurations d'ensemble de données dans un projet, procédez comme suit :

Console

  1. Dans la console Google Cloud , accédez à la page Storage Insights de Cloud Storage.

    Accéder à Storage Insights

    La liste des configurations d'ensembles de données s'affiche.

Ligne de commande

  1. Pour répertorier les configurations d'ensemble de données dans un projet, exécutez la commande gcloud storage insights dataset-configs list :

    gcloud storage insights dataset-configs list --location=LOCATION

    Remplacez :

    • LOCATION avec l'emplacement de l'ensemble de données et de la configuration de l'ensemble de données. Par exemple, us-central1.

    Vous pouvez utiliser les options facultatives suivantes pour spécifier le comportement de l'appel de liste :

    • Utilisez --page-size pour spécifier le nombre maximal de résultats à renvoyer par page.

    • Utilisez --filter=FILTER pour filtrer les résultats. Pour en savoir plus sur l'utilisation de l'indicateur --filter, exécutez gcloud topic filters et consultez la documentation.

    • Utilisez --sort-by=SORT_BY_VALUE pour spécifier une liste de noms de clés de champ de ressources selon lesquels effectuer le tri, séparés par des virgules. Exemple :--sort-by=DATASET_CONFIG_ID

API JSON

  1. Vous devez installer et initialiser la gcloud CLI afin de générer un jeton d'accès pour l'en-tête Authorization.

  2. Utilisez cURL pour appeler l'API JSON avec une requête Get DatasetConfig :

    curl -X GET \
    "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs" \
      --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
      --header "Accept: application/json" \
      --header "Content-Type: application/json"
    

    Remplacez :

    • Remplacez PROJECT_ID par l'ID du projet auquel appartient la configuration de l'ensemble de données.

    • LOCATION avec l'emplacement de l'ensemble de données et de la configuration de l'ensemble de données. Par exemple, us-central1.

    • SERVICE_ACCOUNT par le compte de service. Exemple :test-service-account@test-project.iam.gserviceaccount.com

Mettre à jour la configuration d'un ensemble de données

Pour mettre à jour la configuration d'un ensemble de données, procédez comme suit :

Console

  1. Dans la console Google Cloud , accédez à la page Storage Insights de Cloud Storage.

    Accéder à Storage Insights

  2. Cliquez sur le nom de la configuration de l'ensemble de données que vous souhaitez modifier.

  3. Dans l'onglet Configuration de l'ensemble de données, cliquez sur Modifier pour mettre à jour les champs.

Ligne de commande

  1. Pour mettre à jour la configuration d'un ensemble de données, exécutez la commande gcloud storage insights dataset-configs update :

    gcloud storage insights dataset-configs update DATASET_CONFIG_ID \
      --location=LOCATION

    Remplacez :

    • DATASET_CONFIG_ID par le nom de la configuration de l'ensemble de données.

    • LOCATION avec l'emplacement et la configuration de l'ensemble de données.

    Utilisez les indicateurs suivants pour mettre à jour les propriétés de la configuration de l'ensemble de données :

    • Utilisez --skip-verification pour ignorer les vérifications et les échecs du processus de validation, y compris les vérifications des autorisations IAM requises. Si des buckets sont utilisés, il est possible que certains ou tous soient exclus de l'ensemble de données.

    • Utilisez --retention-period-days=DAYS pour spécifier le nombre de jours de données mobiles à capturer dans l'instantané de l'ensemble de données. Exemple : 90.

    • Utilisez --activity-data-retention-period-days=ACTIVITY_RETENTION_PERIOD_DAYS pour spécifier la durée de conservation des données d'activité dans l'ensemble de données. Par défaut, les données d'activité sont incluses dans l'ensemble de données et héritent de la durée de conservation de l'ensemble de données. Pour remplacer la durée de conservation de l'ensemble de données, spécifiez le nombre de jours pendant lesquels conserver les données d'activité. Pour exclure les données d'activité, définissez ACTIVITY_RETENTION_PERIOD_DAYS sur 0.

    • Utilisez --description=DESCRIPTION pour rédiger une description de la configuration de l'ensemble de données.

    • Utilisez --organization=ORGANIZATION_ID pour spécifier l'ID d'organisation du projet source. Si aucune valeur n'est spécifiée, la valeur par défaut est l'ID d'organisation du projet source.

API JSON

  1. Vous devez installer et initialiser la gcloud CLI afin de générer un jeton d'accès pour l'en-tête Authorization.

  2. Créez un fichier JSON contenant les informations facultatives suivantes :

    {
      "organization_number": "ORGANIZATION_ID",
      "source_projects": {
        "project_numbers": "PROJECT_NUMBERS"
      },
      "retention_period_days": "RETENTION_PERIOD",
      "activityDataRetentionPeriodDays": "ACTIVITY_DATA_RETENTION_PERIOD_DAYS"
    }

    Remplacez :

    • ORGANIZATION_ID par l'ID de ressource de l' organisation à laquelle appartiennent les projets sources. Si aucune valeur n'est spécifiée, la valeur par défaut est l'ID d'organisation du projet source.

    • PROJECT_NUMBERS par les numéros de projet à inclure dans l'ensemble de données. Vous pouvez spécifier un ou plusieurs projets sous forme de liste.

    • RETENTION_PERIOD avec le nombre de jours de données mobiles à capturer dans l'instantané de l'ensemble de données. Exemple : 90.

    • ACTIVITY_DATA_RETENTION_PERIOD_DAYS avec le nombre de jours de données d'activité à capturer dans l'instantané de l'ensemble de données. Par défaut, les données d'activité sont incluses dans l'ensemble de données et héritent de sa durée de conservation. Pour remplacer la durée de conservation de l'ensemble de données, spécifiez le nombre de jours pendant lesquels conserver les données d'activité. Pour exclure les données d'activité, définissez ACTIVITY_RETENTION_PERIOD_DAYS sur 0.

  3. Pour mettre à jour la configuration de l'ensemble de données, utilisez cURL pour appeler l'API JSON avec une requête Patch DatasetConfig :

    curl -X PATCH --data-binary @JSON_FILE_NAME \
    "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID?updateMask=UPDATE_MASK" \
      --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
      --header "Accept: application/json" \
      --header "Content-Type: application/json"
    

    Remplacez :

    • JSON_FILE_NAME par le chemin d'accès au fichier JSON que vous avez créé à l'étape précédente.

    • Remplacez PROJECT_ID par l'ID du projet auquel appartient la configuration de l'ensemble de données.

    • LOCATION avec l'emplacement de l'ensemble de données et de la configuration de l'ensemble de données. Par exemple, us-central1.

    • DATASET_CONFIG_ID par le nom de la configuration de l'ensemble de données que vous souhaitez mettre à jour.

    • UPDATE_MASK est la liste des noms de champs mis à jour par cette requête, séparés par une virgule. Les champs utilisent le format fieldMask et font partie de la ressource DatasetConfig.

    • SERVICE_ACCOUNT par le compte de service. Exemple : test-service-account@test-project.iam.gserviceaccount.com.

Supprimer une configuration d'ensemble de données

Pour supprimer une configuration d'ensemble de données, procédez comme suit :

Console

  1. Dans la console Google Cloud , accédez à la page Storage Insights de Cloud Storage.

    Accéder à Storage Insights

  2. Cliquez sur le nom de la configuration de l'ensemble de données que vous souhaitez supprimer.

  3. Cliquez sur Supprimer ().

Ligne de commande

  1. Pour supprimer une configuration d'ensemble de données, exécutez la commande gcloud storage insights dataset-configs delete :

    gcloud storage insights dataset-configs delete DATASET_CONFIG_ID \
      --location=LOCATION

    Remplacez :

    • DATASET_CONFIG_ID par le nom de la configuration de l'ensemble de données que vous souhaitez supprimer.

    • LOCATION avec l'emplacement de l'ensemble de données et de la configuration de l'ensemble de données. Par exemple, us-central1.

    Utilisez les indicateurs suivants pour supprimer une configuration d'ensemble de données :

    • Utilisez --auto-delete-link pour dissocier l'ensemble de données généré à partir de la configuration d'ensemble de données que vous souhaitez supprimer. Vous devez dissocier un ensemble de données avant de pouvoir supprimer la configuration de l'ensemble de données qui l'a généré.

    Vous pouvez également spécifier un chemin d'accès complet à la configuration du jeu de données. Exemple :

    gcloud storage insights dataset-configs delete projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID

API JSON

  1. Vous devez installer et initialiser la gcloud CLI afin de générer un jeton d'accès pour l'en-tête Authorization.

  2. Utilisez cURL pour appeler l'API JSON avec une requête Delete DatasetConfig :

    curl -X DELETE \
      "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID" \
      --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
        --header "Accept: application/json" \
        --header "Content-Type: application/json"
    

    Remplacez :

    • Remplacez PROJECT_ID par l'ID du projet auquel appartient la configuration de l'ensemble de données.

    • LOCATION avec l'emplacement de l'ensemble de données et de la configuration de l'ensemble de données. Par exemple, us-central1.

    • DATASET_CONFIG_ID par le nom de la configuration de l'ensemble de données que vous souhaitez supprimer.

    • SERVICE_ACCOUNT par le compte de service. Exemple :test-service-account@test-project.iam.gserviceaccount.com

Étapes suivantes