Présentation de la gouvernance des données dans BigQuery
BigQuery dispose de fonctionnalités de gouvernance intégrées qui simplifient la découverte, la gestion, la surveillance, la gouvernance et l'utilisation de vos données et de vos éléments d'IA.
Les administrateurs, les responsables de la gestion des données, les responsables de la gouvernance des données et les responsables de la protection des données peuvent utiliser les fonctionnalités de gouvernance de BigQuery pour effectuer les opérations suivantes :
- Découvrir des données.
- Sélectionner des données.
- Collecter et enrichir des métadonnées.
- Gérer la qualité des données.
- S'assurer que les données sont utilisées de manière cohérente et conformément aux règles de l'organisation.
- Partager des données à grande échelle et de manière sécurisée.
Les fonctionnalités de gouvernance de BigQuery sont basées sur Knowledge Catalog, un inventaire centralisé de tous les éléments de données de votre organisation. Knowledge Catalog contient les métadonnées métier, techniques et opérationnelles pour toutes vos données. Il vous aide à découvrir les relations et la sémantique dans les métadonnées en appliquant l'intelligence artificielle et le machine learning.
Le catalogue d'exécution Lakehouse vous permet d'utiliser plusieurs moteurs de traitement de données pour interroger une seule copie de données avec un seul schéma, sans duplication de données. Vous pouvez utiliser les moteurs de traitement de données suivants : BigQuery, Apache Spark, Apache Flink et Apache Hive. Vos données peuvent être stockées dans des emplacements tels que des tables de stockage BigQuery, des tables Apache Iceberg gérées dans BigQuery ou des tables externes BigLake.
BigQuery prend en charge un cycle de vie des données de bout en bout, de la découverte à l'utilisation des données. Les fonctionnalités de gouvernance sont également disponibles dans Knowledge Catalog.
Découverte de données
BigQuery découvre les données dans toute l'organisation Google Cloud, qu'elles se trouvent dans BigQuery, Spanner, Cloud SQL, Pub/Sub ou Cloud Storage. Les métadonnées sont automatiquement extraites et stockées dans Knowledge Catalog. Par exemple, vous pouvez extraire des métadonnées pour des données structurées et non structurées à partir de Cloud Storage, et vous pouvez créer automatiquement des tables BigLake prêtes à être interrogées à grande échelle. Cela vous permet d'effectuer des analyses avec un moteur Open Source sans duplication de données.
Vous pouvez également extraire et cataloguer des métadonnées à partir de sources de données tierces à l'aide de connecteurs personnalisés.
BigQuery offre les fonctionnalités de découverte de données suivantes :
- Rechercher : recherchez des données et des ressources d'IA dans les projets et l'organisation. Dans BigQuery de la Google Cloud console, utilisez la recherche sémantique (Preview) pour rechercher des ressources en langage courant. Vous pouvez également rechercher des ressources à l'aide de la recherche par mots clés dans Knowledge Catalog.
- Découverte automatique des données Cloud Storage. analysez les données dans les buckets Cloud Storage pour extraire, puis cataloguer les métadonnées. La découverte automatique crée des tables pour les données structurées et non structurées.
- Importation de métadonnées. importez des métadonnées à grande échelle depuis des systèmes tiers dans Knowledge Catalog. Vous pouvez créer des connecteurs personnalisés pour extraire des données de vos sources de données, puis exécuter des pipelines de connectivité gérée qui orchestrent le workflow d'importation de métadonnées.
- Exportation de métadonnées. exportez des métadonnées à effectuer un scaling horizontal Knowledge Catalog. Vous pouvez analyser les métadonnées exportées avec BigQuery ou les intégrer à des applications personnalisées ou à des workflows de traitement programmatique.
Sélection et gestion des données
Pour améliorer la détectabilité et l'utilisabilité des données, les responsables de la gestion des données et les administrateurs peuvent utiliser BigQuery pour examiner, mettre à jour et analyser les métadonnées. Les fonctionnalités de sélection et de gestion des données de BigQuery vous aident à vous assurer que vos données sont exactes, cohérentes et conformes aux règles de votre organisation.
BigQuery offre les fonctionnalités de sélection et de gestion des données suivantes :
- Glossaire d'entreprise : améliorez le contexte, la collaboration et la recherche en définissant la terminologie de votre organisation dans un glossaire. Identifiez les responsables de la gestion des données pour les termes et associez-les aux champs des éléments de données.
- Insights sur les données. Gemini utilise des métadonnées pour générer des questions en langage naturel sur votre table et les requêtes SQL pour y répondre. Ces insights sur les données vous aident à identifier des modèles, à évaluer la qualité des données et à effectuer des analyses statistiques.
- Profilage de données. identifiez les caractéristiques statistiques courantes des colonnes des tables BigQuery pour comprendre et analyser vos données plus efficacement.
- Qualité des données : définissez et exécutez des contrôles de la qualité des données dans toutes les tables de BigQuery et de Cloud Storage, et appliquez des contrôles réguliers et continus des données dans les environnements BigQuery.
- Traçabilité des données. suivez la façon dont les données transitent par vos systèmes : leur origine, la cible de transmission, et les transformations qui leur sont appliquées. BigQuery prend en charge la traçabilité des données au niveau des tables et des colonnes.
Étapes suivantes pour la sélection et l'intendance des données
Le tableau suivant décrit les prochaines étapes que vous pouvez suivre pour en savoir plus sur les fonctionnalités de sélection et d'intendance des données :
| Niveau d'expérience | Parcours de formation |
|---|---|
| Nouveaux utilisateurs cloud |
|
| Utilisateurs cloud expérimentés |
|
Sécurité et contrôle des accès
La gestion de l'accès aux données consiste à définir, appliquer et surveiller les règles et les stratégies régissant l'accès aux données. La gestion des accès garantit que les données ne sont accessibles qu'aux personnes autorisées à y accéder.
BigQuery offre les fonctionnalités de sécurité et de contrôle des accès suivantes :
- Identity and Access Management (IAM). Cloud IAM vous permet de contrôler qui a accès à vos ressources BigQuery, telles que des projets, des ensembles de données, des tables et des vues. Vous pouvez attribuer des rôles IAM aux utilisateurs, aux groupes et aux comptes de service. Ces rôles définissent ce qu'ils peuvent faire avec vos ressources.
- Contrôles des accès au niveau des colonnes et Contrôles des accès au niveau des lignes. les contrôles d'accès au niveau des colonnes et des lignes vous permettent de limiter l'accès à des colonnes et aux lignes spécifiques d'une table, en fonction des attributs utilisateur ou des valeurs des données. Ce contrôle vous permet de mettre en œuvre un accès précis afin de protéger les données sensibles contre tout accès non autorisé.
- Gestion des transferts de données. VPC Service Controls vous permet de créer des périmètres autour des Google Cloud ressources et de contrôler l'accès à ces ressources en fonction des règles de votre organisation.
- Journaux d'audit. les journaux d'audit fournissent un enregistrement détaillé de l'activité des utilisateurs et des événements système dans votre organisation. Ces journaux vous aident à appliquer des règles de gouvernance des données et à identifier les risques de sécurité potentiels.
- Masquage des données. le masquage des données vous permet de masquer les données sensibles d'une table tout en autorisant les utilisateurs autorisés à accéder aux données environnantes. Le masquage des données peut également masquer les données correspondant à des modèles de données sensibles afin d'éviter toute divulgation accidentelle de données.
- Chiffrement. BigQuery chiffre automatiquement toutes les données au repos et en transit, tout en vous permettant de personnaliser vos paramètres de chiffrement afin de répondre à vos exigences spécifiques.
Étapes suivantes pour la sécurité et le contrôle des accès
Le tableau suivant décrit les prochaines étapes que vous pouvez suivre pour en savoir plus sur les fonctionnalités de contrôle des accès :
| Niveau d'expérience | Parcours de formation |
|---|---|
| Nouveaux utilisateurs cloud |
|
| Utilisateurs cloud expérimentés |
|
Données et insights partagés
BigQuery vous permet de partager des données et des insights à grande échelle au sein de votre organisation et entre plusieurs organisations. Il dispose d'un cadre de sécurité et de confidentialité robuste grâce à une plate-forme d'échange de données intégrée. Grâce au partage BigQuery, vous pouvez découvrir une bibliothèque de données sélectionnées par un large éventail de fournisseurs de données, y accéder et les utiliser.
BigQuery offre les fonctionnalités de partage suivantes :
- Partagez plus que des données. vous pouvez partager un large éventail d'éléments de données et d'IA, tels que des ensembles de données BigQuery, des tables, des vues, des flux en temps réel avec des sujets Pub/Sub, des procédures stockées SQL et des modèles BigQuery ML.
- Accédez aux ensembles de données Google. améliorez vos initiatives d'analyse et de ML avec les ensembles de données Google issus de Tendances de recherche, des modèles DeepMind WeatherNext, de Google Maps Platform, de Google Earth Engine, etc.
- Intégrez-vous aux principes de gouvernance des données. les propriétaires des données conservent le contrôle de leurs données et peuvent définir et configurer des règles ou des stratégies pour limiter l'accès et l'utilisation.
- Partage de données en direct sans copie. les données sont partagées sur place sans intégration, déplacement ni réplication, ce qui garantit que l'analyse est basée sur les dernières informations. Les ensembles de données associés créés sont un pointeur dynamique vers l'élément partagé.
- Améliorez votre niveau de sécurité. vous pouvez utiliser des contrôles d'accès pour réduire le surprovisionnement des accès, y compris la prise en charge intégrée de VPC Service Controls.
- Améliorez la visibilité grâce aux métriques d'utilisation des fournisseurs. les éditeurs de données peuvent afficher et surveiller l'utilisation des éléments partagés, tels que le nombre de tâches exécutées, le nombre total d'octets analysés et les abonnés pour chaque organisation.
- Collaborez sur des données sensibles avec des data clean rooms. les data clean room offrent un environnement sécurisé dans lequel plusieurs parties peuvent partager, joindre et analyser leurs éléments de données sans déplacer ni révéler les données sous-jacentes.
- Basé sur BigQuery : vous pouvez tirer parti de l'évolutivité et des capacités de traitement massives de BigQuery, ce qui permet des collaborations à grande échelle.
Étapes suivantes pour le partage
Le tableau suivant décrit les prochaines étapes que vous pouvez suivre pour en savoir plus sur les fonctionnalités de partage :
| Niveau d'expérience | Parcours de formation |
|---|---|
| Nouveaux utilisateurs cloud |
|
| Utilisateurs cloud expérimentés |
|
Étape suivante
- En savoir plus sur l'authentification chez Google.
- En savoir plus sur la suppression des données sur Google Cloud.
- Explorez les bonnes pratiques IAM.
- Découvrez la hiérarchie des ressources sur Google Cloud.
- Apprenez-en davantage sur IAM sur Google Cloud.