Présentation de la gouvernance des données dans BigQuery

BigQuery dispose de fonctionnalités de gouvernance intégrées qui simplifient la découverte, la gestion, la surveillance, la gouvernance et l'utilisation de vos données et de vos éléments d'IA.

Les administrateurs, les responsables de la gestion des données, les responsables de la gouvernance des données et les responsables de la protection des données peuvent utiliser les fonctionnalités de gouvernance de BigQuery pour effectuer les opérations suivantes :

  • Découvrir des données.
  • Sélectionner des données.
  • Collecter et enrichir des métadonnées.
  • Gérer la qualité des données.
  • S'assurer que les données sont utilisées de manière cohérente et conformément aux règles de l'organisation.
  • Partager des données à grande échelle et de manière sécurisée.

Les fonctionnalités de gouvernance de BigQuery sont basées sur Knowledge Catalog, un inventaire centralisé de tous les éléments de données de votre organisation. Knowledge Catalog contient les métadonnées métier, techniques et opérationnelles pour toutes vos données. Il vous aide à découvrir les relations et la sémantique dans les métadonnées en appliquant l'intelligence artificielle et le machine learning.

Le catalogue d'exécution Lakehouse vous permet d'utiliser plusieurs moteurs de traitement de données pour interroger une seule copie de données avec un seul schéma, sans duplication de données. Vous pouvez utiliser les moteurs de traitement de données suivants : BigQuery, Apache Spark, Apache Flink et Apache Hive. Vos données peuvent être stockées dans des emplacements tels que des tables de stockage BigQuery, des tables Apache Iceberg gérées dans BigQuery ou des tables externes BigLake.

BigQuery prend en charge un cycle de vie des données de bout en bout, de la découverte à l'utilisation des données. Les fonctionnalités de gouvernance sont également disponibles dans Knowledge Catalog.

Découverte de données

BigQuery découvre les données dans toute l'organisation Google Cloud, qu'elles se trouvent dans BigQuery, Spanner, Cloud SQL, Pub/Sub ou Cloud Storage. Les métadonnées sont automatiquement extraites et stockées dans Knowledge Catalog. Par exemple, vous pouvez extraire des métadonnées pour des données structurées et non structurées à partir de Cloud Storage, et vous pouvez créer automatiquement des tables BigLake prêtes à être interrogées à grande échelle. Cela vous permet d'effectuer des analyses avec un moteur Open Source sans duplication de données.

Vous pouvez également extraire et cataloguer des métadonnées à partir de sources de données tierces à l'aide de connecteurs personnalisés.

BigQuery offre les fonctionnalités de découverte de données suivantes :

Sélection et gestion des données

Pour améliorer la détectabilité et l'utilisabilité des données, les responsables de la gestion des données et les administrateurs peuvent utiliser BigQuery pour examiner, mettre à jour et analyser les métadonnées. Les fonctionnalités de sélection et de gestion des données de BigQuery vous aident à vous assurer que vos données sont exactes, cohérentes et conformes aux règles de votre organisation.

BigQuery offre les fonctionnalités de sélection et de gestion des données suivantes :

  • Glossaire d'entreprise : améliorez le contexte, la collaboration et la recherche en définissant la terminologie de votre organisation dans un glossaire. Identifiez les responsables de la gestion des données pour les termes et associez-les aux champs des éléments de données.
  • Insights sur les données. Gemini utilise des métadonnées pour générer des questions en langage naturel sur votre table et les requêtes SQL pour y répondre. Ces insights sur les données vous aident à identifier des modèles, à évaluer la qualité des données et à effectuer des analyses statistiques.
  • Profilage de données. identifiez les caractéristiques statistiques courantes des colonnes des tables BigQuery pour comprendre et analyser vos données plus efficacement.
  • Qualité des données : définissez et exécutez des contrôles de la qualité des données dans toutes les tables de BigQuery et de Cloud Storage, et appliquez des contrôles réguliers et continus des données dans les environnements BigQuery.
  • Traçabilité des données. suivez la façon dont les données transitent par vos systèmes : leur origine, la cible de transmission, et les transformations qui leur sont appliquées. BigQuery prend en charge la traçabilité des données au niveau des tables et des colonnes.

Étapes suivantes pour la sélection et l'intendance des données

Le tableau suivant décrit les prochaines étapes que vous pouvez suivre pour en savoir plus sur les fonctionnalités de sélection et d'intendance des données :

Niveau d'expérience Parcours de formation
Nouveaux utilisateurs cloud
Utilisateurs cloud expérimentés

Sécurité et contrôle des accès

La gestion de l'accès aux données consiste à définir, appliquer et surveiller les règles et les stratégies régissant l'accès aux données. La gestion des accès garantit que les données ne sont accessibles qu'aux personnes autorisées à y accéder.

BigQuery offre les fonctionnalités de sécurité et de contrôle des accès suivantes :

  • Identity and Access Management (IAM). Cloud IAM vous permet de contrôler qui a accès à vos ressources BigQuery, telles que des projets, des ensembles de données, des tables et des vues. Vous pouvez attribuer des rôles IAM aux utilisateurs, aux groupes et aux comptes de service. Ces rôles définissent ce qu'ils peuvent faire avec vos ressources.
  • Contrôles des accès au niveau des colonnes et Contrôles des accès au niveau des lignes. les contrôles d'accès au niveau des colonnes et des lignes vous permettent de limiter l'accès à des colonnes et aux lignes spécifiques d'une table, en fonction des attributs utilisateur ou des valeurs des données. Ce contrôle vous permet de mettre en œuvre un accès précis afin de protéger les données sensibles contre tout accès non autorisé.
  • Gestion des transferts de données. VPC Service Controls vous permet de créer des périmètres autour des Google Cloud ressources et de contrôler l'accès à ces ressources en fonction des règles de votre organisation.
  • Journaux d'audit. les journaux d'audit fournissent un enregistrement détaillé de l'activité des utilisateurs et des événements système dans votre organisation. Ces journaux vous aident à appliquer des règles de gouvernance des données et à identifier les risques de sécurité potentiels.
  • Masquage des données. le masquage des données vous permet de masquer les données sensibles d'une table tout en autorisant les utilisateurs autorisés à accéder aux données environnantes. Le masquage des données peut également masquer les données correspondant à des modèles de données sensibles afin d'éviter toute divulgation accidentelle de données.
  • Chiffrement. BigQuery chiffre automatiquement toutes les données au repos et en transit, tout en vous permettant de personnaliser vos paramètres de chiffrement afin de répondre à vos exigences spécifiques.

Étapes suivantes pour la sécurité et le contrôle des accès

Le tableau suivant décrit les prochaines étapes que vous pouvez suivre pour en savoir plus sur les fonctionnalités de contrôle des accès :

Niveau d'expérience Parcours de formation
Nouveaux utilisateurs cloud
Utilisateurs cloud expérimentés

Données et insights partagés

BigQuery vous permet de partager des données et des insights à grande échelle au sein de votre organisation et entre plusieurs organisations. Il dispose d'un cadre de sécurité et de confidentialité robuste grâce à une plate-forme d'échange de données intégrée. Grâce au partage BigQuery, vous pouvez découvrir une bibliothèque de données sélectionnées par un large éventail de fournisseurs de données, y accéder et les utiliser.

BigQuery offre les fonctionnalités de partage suivantes :

  • Partagez plus que des données. vous pouvez partager un large éventail d'éléments de données et d'IA, tels que des ensembles de données BigQuery, des tables, des vues, des flux en temps réel avec des sujets Pub/Sub, des procédures stockées SQL et des modèles BigQuery ML.
  • Accédez aux ensembles de données Google. améliorez vos initiatives d'analyse et de ML avec les ensembles de données Google issus de Tendances de recherche, des modèles DeepMind WeatherNext, de Google Maps Platform, de Google Earth Engine, etc.
  • Intégrez-vous aux principes de gouvernance des données. les propriétaires des données conservent le contrôle de leurs données et peuvent définir et configurer des règles ou des stratégies pour limiter l'accès et l'utilisation.
  • Partage de données en direct sans copie. les données sont partagées sur place sans intégration, déplacement ni réplication, ce qui garantit que l'analyse est basée sur les dernières informations. Les ensembles de données associés créés sont un pointeur dynamique vers l'élément partagé.
  • Améliorez votre niveau de sécurité. vous pouvez utiliser des contrôles d'accès pour réduire le surprovisionnement des accès, y compris la prise en charge intégrée de VPC Service Controls.
  • Améliorez la visibilité grâce aux métriques d'utilisation des fournisseurs. les éditeurs de données peuvent afficher et surveiller l'utilisation des éléments partagés, tels que le nombre de tâches exécutées, le nombre total d'octets analysés et les abonnés pour chaque organisation.
  • Collaborez sur des données sensibles avec des data clean rooms. les data clean room offrent un environnement sécurisé dans lequel plusieurs parties peuvent partager, joindre et analyser leurs éléments de données sans déplacer ni révéler les données sous-jacentes.
  • Basé sur BigQuery : vous pouvez tirer parti de l'évolutivité et des capacités de traitement massives de BigQuery, ce qui permet des collaborations à grande échelle.

Étapes suivantes pour le partage

Le tableau suivant décrit les prochaines étapes que vous pouvez suivre pour en savoir plus sur les fonctionnalités de partage :

Niveau d'expérience Parcours de formation
Nouveaux utilisateurs cloud
  • Découvrez comment créer et gérer des échanges et des fiches pour commencer à partager des données au sein de votre organisation ou en dehors.
Utilisateurs cloud expérimentés

Étape suivante