Ce document décrit l'architecture et les concepts clés des produits de données dans Dataplex Universal Catalog.
Un produit de données est une collection logique et organisée d'éléments de données, formellement empaquetée pour garantir sa détectabilité, sa fiabilité et son accessibilité. Voici les principales fonctionnalités d'un produit de données :
- Organisez les composants du catalogue dans une unité logique qui résout un problème commercial spécifique et permet d'obtenir des insights plus rapidement.
- Distribuez avec un contexte qui inclut une description, une documentation et des aspects.
- Établissez la confiance avec des contrats qui permettent aux producteurs de données de fournir des garanties aux consommateurs de données.
- Fournissez un workflow en libre-service aux consommateurs de données pour évaluer les produits de données et accéder aux données.
Concepts clés
Cette section décrit les concepts et la terminologie clés liés aux produits de données.
Produit de données
Il s'agit d'un regroupement logique et organisé d'assets de données, formellement empaquetés pour être détectables, fiables et accessibles afin de résoudre des problèmes commerciaux spécifiques.
Élément
Pointeur vers une ressource de données physique, telle qu'un ensemble de données, une table ou une vue BigQuery. Un produit de données contient un ou plusieurs composants.
Groupe d'accès
Les groupes Google sont configurés par les propriétaires de produits de données et utilisés par les consommateurs de produits de données pour demander l'accès. Les autorisations associées aux éléments sont attribuées à ces groupes d'accès.
Les groupes d'accès simplifient la gestion des autorisations pour votre produit de données. Ils servent d'alias conviviaux (comme Reader ou Analyst) pour les groupes IAM sous-jacents. Cela permet aux propriétaires de produits de données d'attribuer des autorisations à un niveau élevé et aide les consommateurs à demander le bon niveau d'accès.
Propriétaire ou producteur de données
Personne ou équipe responsable de la création et de la gestion des produits de données. Cela inclut la gestion de la qualité, de l'accès et de la documentation.
Consommateur de produits de données
Personne, équipe ou agent d'IA qui consomme des produits de données pour générer des insights.
Contrat
Accord entre le propriétaire du produit de données et ses consommateurs. Cet accord définit des attentes claires en précisant les conditions de fourniture et d'utilisation des données, comme leur calendrier d'actualisation et les normes de qualité.
Exemple d'utilisation
Prenons l'exemple d'un data scientist qui analyse une activité d'e-commerce. Son objectif est de trouver la valeur moyenne des commandes (AOV) par source de trafic et de voir s'il existe une corrélation entre l'âge des utilisateurs et la taille des commandes. Pour ce faire, ils doivent combiner les données de plusieurs tables, telles que order_details, user_traffic et user_demographic.
Dans une configuration classique, ce processus crée des frictions. Pour générer des insights, le data scientist doit d'abord trouver les tables appropriées dans le vaste paysage de données de l'entreprise, puis contacter chaque propriétaire de données, justifier sa demande d'accès et attendre l'approbation.
Grâce aux produits de données, les propriétaires de données peuvent simplifier cette expérience en regroupant les composants concernés dans un seul produit nommé "Données commerciales pour l'e-commerce". Ce package comprend les éléments suivants :
Éléments
- Tables BigQuery
order_detailsetuser_traffic(contenant l'historique des données de commande et les sources de trafic) - Vue BigQuery
user_demographics(fournissant des informations sur les utilisateurs sans inclure d'informations permettant de les identifier personnellement)
- Tables BigQuery
Groupes d'accès
- Groupes prédéfinis
ReaderetWriterpour simplifier les demandes d'accès
- Groupes prédéfinis
Contrat
- Contrat définissant la fréquence d'actualisation des données (par exemple, toutes les semaines à 8h PST)
Contexte
- Documentation avec des exemples de requêtes et d'autres informations
- Métadonnées supplémentaires pour décrire la sensibilité des données
Les data scientists peuvent désormais découvrir ce produit de données en tant qu'unité logique unique. Ils peuvent ainsi générer des insights pour répondre à des questions telles que "Quelle est la valeur moyenne des commandes pour chaque source de trafic ?", ce qui leur permet de déterminer quelles sources génèrent les clients les plus intéressants.
Parcours utilisateur du produit de données
Le cycle de vie des produits de données dans Dataplex Universal Catalog implique deux parcours utilisateur clés : l'un pour le propriétaire (ou producteur) du produit de données qui crée et gère les données, et l'autre pour le consommateur du produit de données qui les découvre et les utilise.
Parcours du propriétaire de produits de données
Ce parcours se concentre sur l'emballage, la sécurisation et la gouvernance des produits de données pour s'assurer qu'ils sont fiables et accessibles.
Créer : définissez le produit de données et incluez des composants. Cela implique les actions suivantes :
- Configurez le nom unique, le projet, la région et la description.
- Ajoutez des composants tels que des tables, des ensembles de données ou des vues BigQuery.
- Configurez des groupes d'accès (par exemple,
AnalystouReader) et mappez-les aux groupes Google sous-jacents pour simplifier la gestion des autorisations. - Attribuez les rôles IAM nécessaires à ces groupes d'accès pour les composants spécifiques.
- Ajoutez un contrat (un aspect du système) pour communiquer formellement la cadence, la fréquence et le seuil d'actualisation des données convenus.
Pour en savoir plus, consultez Créer des produits de données.
Gérer : mettez à jour le produit de données et assurez-vous qu'il est facile à trouver. Cela implique les actions suivantes :
- Modifiez les informations de base, les composants, les autorisations et les aspects supplémentaires (métadonnées), ainsi que la documentation en texte enrichi.
- Accorder aux consommateurs l'accès aux produits de données pour qu'ils puissent les découvrir et demander à y accéder.
Pour en savoir plus, consultez Gérer les produits de données.
Parcours client des produits de données
Ce parcours se concentre sur la recherche rapide de données fiables et l'obtention des autorisations nécessaires pour les utiliser.
Découverte : trouvez des données fiables et pertinentes pour un problème commercial spécifique. Pour ce faire, procédez comme suit :
- Utilisez la recherche Dataplex Universal Catalog avec des mots clés ou en langage naturel pour trouver le produit de données packagé.
- Examinez l'aperçu, les composants, le contrat et d'autres aspects du produit de données pour déterminer s'il est adapté à l'utilisation.
Pour en savoir plus, consultez Rechercher des produits de données.
Demander l'accès : demandez au propriétaire du produit de données l'autorisation d'accéder aux données.
Pour en savoir plus, consultez Demander l'accès aux produits de données.
Utiliser : accéder aux composants sous-jacents pour générer des insights. Cela implique l'action suivante :
- Une fois votre demande approuvée, vous pourrez accéder au produit et à ses composants. Par exemple, si le composant est une table BigQuery, vous pouvez accéder au studio BigQuery et interroger directement les données.
Pour en savoir plus, consultez Utiliser des produits de données.
Composants acceptés
Un produit de données peut être composé d'un ou de plusieurs composants de données. En version preview, les composants de données suivants sont acceptés :
- Ensembles de données BigQuery
- les tables BigQuery
- Vues BigQuery
Limites
- Les produits de données et leurs composants sous-jacents doivent résider dans le mêmeGoogle Cloud emplacement.
- Un produit de données peut contenir au maximum 10 composants.
- Vous pouvez créer jusqu'à 50 produits de données par projet.
- L'intégration du workflow de demande d'approbation n'est pas disponible en version preview. Toutefois, les consommateurs de produits de données peuvent demander l'accès en déclenchant des notifications par e-mail aux propriétaires de produits de données.
Étapes suivantes
- Découvrez comment créer un produit de données.
- En savoir plus sur la gestion des produits de données
- Découvrez comment rechercher des produits de données.
- Découvrez comment demander l'accès aux produits de données.