À propos des produits de données

Ce document décrit l'architecture et les concepts clés des produits de données dans Knowledge Catalog (anciennement Dataplex Universal Catalog).

Un produit de données est une collection logique et organisée d'éléments de données, formellement regroupés pour être découvrables, fiables et accessibles. Voici les principales fonctionnalités d'un produit de données :

  • Organiser les éléments du catalogue dans une unité logique qui résout un problème métier spécifique et permet d'obtenir des insights plus rapidement.
  • Distribuer avec un contexte incluant une description, une documentation et des aspects.
  • Établir la confiance avec des contrats qui permettent aux producteurs de données de fournir des assurances aux consommateurs de données.
  • Fournir un workflow en libre-service permettant aux consommateurs de données d'évaluer les produits de données et d'accéder aux données.

Concepts clés

Cette section décrit les concepts et la terminologie clés liés aux produits de données.

Produit de données

Regroupement logique et organisé d'éléments de données, formellement regroupés pour être découvrables, fiables et accessibles afin de résoudre des problèmes métier spécifiques.

Élément

Pointeur vers une ressource de données physique, telle qu'un ensemble de données, une table ou une vue BigQuery. Un produit de données contient un ou plusieurs éléments.

Groupe d'accès

Les groupes d'accès simplifient la gestion des autorisations pour votre produit de données. Ils mappent des rôles conviviaux (tels que Reader ou Analyst) à des groupes Google ou des comptes de service sous-jacents. Cette abstraction permet aux propriétaires de produits de données de gérer l'accès à un niveau conceptuel et aide les consommateurs de produits de données à demander le niveau d'accès approprié.

  • Les propriétaires de produits de données configurent des groupes d'accès et leur attribuent des autorisations d'éléments spécifiques.

  • Les consommateurs de produits de données utilisent ces groupes pour demander l'accès au produit de données.

Propriétaire de produits de données ou producteur de données

Personne ou équipe responsable de la création et de la gestion des produits de données. Cela inclut la gestion de la qualité, de l'accès et de la documentation.

Consommateur de données

Personne, équipe ou agent d'IA qui consomme des produits de données pour générer des insights.

Contrat

Accord entre le propriétaire du produit de données et ses consommateurs. Cet accord définit des attentes claires en définissant des conditions spécifiques sur la manière dont les données seront fournies et utilisées, telles que leur calendrier d'actualisation et leurs normes de qualité.

Exemple d'utilisation

Prenons l'exemple d'un data scientist qui analyse une entreprise de commerce électronique. Son objectif est de trouver la valeur moyenne de la commande (panier moyen) par source de trafic et de voir s'il existe une corrélation entre l'âge de l'utilisateur et la taille de la commande. Pour ce faire, il doit combiner des données provenant de plusieurs tables, telles que order_details, user_traffic et user_demographics.

Dans une configuration classique, ce processus crée des frictions. Pour générer des insights, le data scientist doit d'abord découvrir les tables appropriées dans le vaste paysage de données de l'entreprise, puis contacter chaque propriétaire de données, justifier sa demande d'accès et attendre l'approbation.

Avec les produits de données, les propriétaires de données peuvent simplifier cette expérience en regroupant les éléments pertinents dans un seul produit nommé "Ecommerce Business Data". Ce package comprend les éléments suivants :

  • Éléments

    • Tables BigQuery order_details et user_traffic (contenant des données de commande historiques et des sources de trafic)
    • Vue BigQuery user_demographics (fournissant des informations sur les utilisateurs sans informations personnelles)
  • Groupes d'accès

    • Groupes Reader et Writer prédéfinis pour simplifier les demandes d'accès
  • Contrat

    • Contrat définissant la fréquence d'actualisation des données (par exemple, toutes les semaines à 8h00 PST)
  • Contexte

    • Documentation avec des exemples de requêtes et d'autres détails
    • Métadonnées supplémentaires pour décrire la sensibilité des données

Les data scientists peuvent désormais découvrir ce produit de données en tant qu'unité logique unique. Ils peuvent ainsi générer des insights en toute confiance pour répondre à des questions telles que "Quelle est la valeur moyenne des commandes pour chaque source de trafic ?", ce qui révèle en fin de compte les sources qui génèrent les clients les plus intéressants.

Parcours utilisateur du produit de données

Le cycle de vie des produits de données dans Knowledge Catalog implique deux parcours utilisateur clés : l'un pour le propriétaire (ou producteur) du produit de données qui crée et gère les données, et l'autre pour le consommateur du produit de données qui les découvre et les utilise.

Parcours du propriétaire du produit de données

Ce parcours se concentre sur le regroupement, la sécurisation et la gouvernance des produits de données pour s'assurer qu'ils sont fiables et accessibles.

  • Créer : définissez le produit de données et incluez des éléments. Cela implique les actions suivantes :

    • Configurez le nom unique, le projet, la région et la description.
    • Ajoutez des éléments tels que des tables, des ensembles de données ou des vues BigQuery.
    • Configurez des groupes d'accès (par exemple, Analyst ou Reader) et mappez-les à des groupes Google ou des comptes de service sous-jacents pour simplifier la gestion des autorisations.
    • Attribuez les rôles IAM nécessaires à ces groupes d'accès pour les éléments spécifiques.
    • Ajoutez un contrat (un aspect système) pour communiquer formellement la cadence, la fréquence et le seuil d'actualisation des données convenus.

    Pour en savoir plus, consultez la page Créer des produits de données.

  • Gérer : mettez à jour le produit de données et assurez-vous qu'il est découvrable. Cela implique les actions suivantes :

    • Mettez à jour les informations de base, les éléments, les autorisations et les aspects supplémentaires (métadonnées), ainsi que la documentation au format texte enrichi.
    • Accordez aux consommateurs l'accès pour découvrir les produits de données et demander l'accès à ces produits.

    Pour en savoir plus, consultez la page Gérer les produits de données.

Parcours client de produits de données

Ce parcours se concentre sur la recherche rapide de données fiables et l'obtention des autorisations nécessaires pour les utiliser.

  • Découvrir : trouvez des données pertinentes et fiables pour un problème métier spécifique. Cela implique les actions suivantes :

    • Utilisez la recherche Knowledge Catalog avec des mots clés ou un langage naturel pour trouver le produit de données regroupé.
    • Consultez la présentation, les éléments, le contrat et d'autres aspects du produit de données pour déterminer s'il est adapté à l'utilisation.

    Pour en savoir plus, consultez la page Rechercher des produits de données.

  • Demander l'accès : demandez au propriétaire du produit de données l'autorisation d'accéder aux données.

    Pour en savoir plus, consultez la page Demander l'accès aux produits de données.

  • Utiliser : accédez aux éléments sous-jacents pour générer des insights. Cela implique l'action suivante :

    • Une fois votre demande approuvée, vous pouvez accéder au produit et à ses éléments. Par exemple, si l'élément est une table BigQuery, vous pouvez accéder à BigQuery Studio et interroger directement les données.

    • Pour les applications et les workflows de développement qui fonctionnent en dehors de Google Cloud, vous pouvez exposer le produit de données à l'aide d'une passerelle de métadonnées externe. Pour en savoir plus, consultez la page Utiliser le serveur MCP distant Knowledge Catalog.

    Pour en savoir plus, consultez la page Utiliser des produits de données.

Éléments compatibles

Un produit de données peut être composé d'un ou de plusieurs éléments de données. Les éléments de données suivants sont compatibles :

  • Ensembles de données BigQuery
  • Tables BigQuery
  • Vues BigQuery
  • Routines BigQuery
  • Modèles BigQuery
  • Tables externes BigQuery
  • Ensembles de données Gemini Enterprise Agent Platform
  • Modèles Gemini Enterprise Agent Platform

Limites

  • Emplacement : les produits de données et leurs éléments sous-jacents doivent se trouver au même Google Cloud emplacement.
  • Métadonnées automatisées : la documentation et les insights automatisés ne sont pas compatibles avec les zones multirégionales us (États-Unis) et eu (Union européenne).
  • Modèles BigQuery : l'accès aux modèles BigQuery dans un produit de données est géré par des conditions IAM appliquées à la stratégie IAM de l'ensemble de données parent. Le partage de modèles BigQuery est soumis aux limites des conditions IAM.
  • Quotas et limites : pour obtenir la liste complète des limites de débit des API et des quotas de capacité, consultez la page Quotas pour les requêtes d'API de produits de données.

Étape suivante