À propos du catalogue d'exécution Lakehouse

Lakehouse pour Apache Iceberg est une plate-forme de data lakehouse gérée surGoogle Cloud. Dans cette plate-forme, le catalogue d'exécution Lakehouse sert de service de métastore sans serveur entièrement géré. Il fournit une source unique de vérité pour votre lakehouse de données, ce qui permet à plusieurs moteurs (y compris Apache Spark, Apache Flink, Apache Hive et BigQuery) de partager des tables et des métadonnées sans copier de fichiers.

Pour connecter des moteurs de requête au metastore, vous devez configurer un client à l'aide d'un type de catalogue spécifique, tel que le point de terminaison du catalogue Apache Iceberg REST. Ce point de terminaison gère les métadonnées de table et utilise un entrepôt d'emplacement de stockage basé sur un bucket Cloud Storage pour stocker vos métadonnées et fichiers de données sous-jacents. Pour en savoir plus sur le choix d'un type de catalogue, consultez Types de catalogues et configuration des points de terminaison.

Le catalogue du runtime Lakehouse est compatible avec la délégation d'accès au stockage, également appelée distribution d'identifiants, ce qui améliore la sécurité en supprimant la nécessité d'accéder directement aux bucket Cloud Storage. Il s'intègre également à Knowledge Catalog pour une gouvernance, une traçabilité et une qualité des données unifiées.

Fonctionnalités clés

En tant que composant clé de Lakehouse pour Apache Iceberg, le catalogue d'environnements d'exécution Lakehouse offre plusieurs avantages pour la gestion et l'analyse des données, y compris une architecture sans serveur, l'interopérabilité des moteurs avec des API ouvertes, une expérience utilisateur unifiée et des analyses, du streaming et de l'IA hautes performances lorsque vous l'utilisez avec BigQuery. Pour en savoir plus sur ces avantages, consultez Qu'est-ce qu'un lakehouse ?.

Moteurs compatibles

Le catalogue d'environnements d'exécution Lakehouse est compatible avec plusieurs moteurs de requête, y compris (mais sans s'y limiter) Apache Spark, Apache Flink, Apache Hive et Trino. Le tableau suivant fournit des liens vers la documentation de chaque moteur :

Engine Documentation
Apache Spark Démarrage rapide : utiliser avec Spark et le point de terminaison du catalogue REST Iceberg
Apache Hive Utiliser avec Spark et le catalogue Hive
Apache Flink Utiliser avec Apache Flink
Trino Utiliser avec Trino

Types de catalogues et configuration des points de terminaison

Lorsque vous configurez des moteurs clients pour vous connecter au metastore du catalogue d'exécution Lakehouse, vous sélectionnez un point de terminaison de catalogue spécifique, tel que le point de terminaison du catalogue REST Apache Iceberg ou le point de terminaison Apache Hive. La meilleure option dépend de votre cas d'utilisation, comme indiqué dans le tableau suivant :

Cas d'utilisation Recommandation
Nouveaux utilisateurs du catalogue d'exécution Lakehouse qui souhaitent que leur moteur Open Source accède aux données dans Cloud Storage et qui ont besoin d'une interopérabilité avec d'autres moteurs, y compris BigQuery et AlloyDB pour PostgreSQL. Utilisez le point de terminaison du catalogue REST Apache Iceberg.
Les utilisateurs qui exécutent des charges de travail Apache Hive ou Spark qui dépendent de l'interface Hive Metastore et qui souhaitent bénéficier d'un service de metastore entièrement géré. Utilisez le point de terminaison du catalogue Apache Hive.
Utilisateurs existants du catalogue de l'environnement d'exécution Lakehouse qui ont des tables actuelles créées avec le point de terminaison du catalogue Apache Iceberg personnalisé pour BigQuery. Continuez à utiliser le catalogue Apache Iceberg personnalisé pour le point de terminaison BigQuery, mais utilisez le catalogue Apache Iceberg REST pour les nouveaux workflows. Les tables créées avec le catalogue Apache Iceberg personnalisé pour le point de terminaison BigQuery sont visibles avec le point de terminaison du catalogue Apache Iceberg REST via la fédération de catalogues BigQuery.

Intégration de l'architecture Lakehouse aux services Google Cloud

Pour comprendre comment Lakehouse gère vos données, découvrez comment l'architecture Lakehouse pour Apache Iceberg s'intègre aux services Google Cloud . Apache Iceberg ne stocke pas les données dans des tables monolithiques. Au lieu de cela, il utilise une architecture en couches de fichiers de métadonnées pour organiser les fichiers de données dans une structure de table cohérente avec la prise en charge des transactions ACID.

Le diagramme suivant illustre la façon dont les moteurs de calcul tels que Managed Service pour Apache Spark utilisent le catalogue d'environnements d'exécution Lakehouse pour gérer les métadonnées des tables afin de lire et d'écrire directement les fichiers de données Parquet sous-jacents dans Cloud Storage.

Composants d'une architecture lakehouse, y compris Managed Service pour Apache Spark, Cloud Storage et le catalogue REST Lakehouse.
Schéma de l'architecture lakehouse.

Lorsque vous utilisez Lakehouse pour Apache Iceberg, l'architecture technique se compose de trois couches distinctes :

  1. Calque de catalogue :

    • Concept Iceberg de base : le catalogue stocke l'état actuel de la table en conservant un pointeur vers le fichier de métadonnées le plus récent. Cette couche facilite la conformité ACID et l'isolation des transactions pour garantir que les écritures simultanées n'interfèrent pas les unes avec les autres.
    • Implémentation Lakehouse : le catalogue d'environnements d'exécution Lakehouse sert de service de métastore régional de premier niveau. Dans ce service, vous créez des catalogues individuels pour gérer votre hiérarchie de données. Les moteurs de requête client se connectent à ces catalogues à l'aide de types de catalogues de points de terminaison spécifiques, tels que le point de terminaison Apache Iceberg REST catalog. Le metastore gère les commits de transaction, la distribution d'identifiants pour la délégation d'accès au stockage et la gestion des pointeurs dans vos catalogues.
  2. Couche de métadonnées :

    • Concept Iceberg principal : cette couche suit la structure de la table, les instantanés et les emplacements des fichiers à l'aide d'une hiérarchie de trois types de fichiers :
      • Fichiers de métadonnées : stockent le schéma de la table, les spécifications de partitionnement et un journal des pointeurs d'instantanés.
      • Listes de fichiers manifestes : elles représentent un seul instantané de la table en regroupant une collection de fichiers manifestes.
      • Fichiers manifestes : ils permettent de suivre les données au niveau des fichiers individuels, en stockant les chemins d'accès aux fichiers, les informations de partition et les statistiques au niveau des colonnes (par exemple, le nombre de lignes, ainsi que les valeurs minimale et maximale). Ces informations sont utilisées pour l'optimisation des requêtes et l'élagage des partitions.
    • Implémentation Lakehouse : dans un conteneur de catalogue, vous organisez vos données en espaces de noms logiques (semblables à des ensembles de données) et en tables. Pour chaque table, le catalogue du runtime Lakehouse génère et gère la hiérarchie de métadonnées Iceberg sous-jacente, en commençant par un fichier metadata.json racine qui pointe vers les listes de fichiers manifestes et les fichiers manifestes. Le catalogue d'environnements d'exécution Lakehouse conserve ces fichiers directement dans l'emplacement de stockage de l'entrepôt désigné.
  3. Couche de données :

    • Concept Iceberg de base : ce composant est le stockage sous-jacent où résident les enregistrements de données brutes, généralement dans des formats de fichiers ouverts en colonnes ou basés sur des lignes optimisés tels que Parquet, ORC ou Avro.
    • Implémentation du lakehouse : votre entrepôt d'emplacement de stockage est un bucket Cloud Storage avec un chemin d'accès gs://. Les fichiers de données physiques référencés par vos tables restent stockés de manière sécurisée dans votre bucket. Étant donné que le catalogue du runtime Lakehouse délègue l'accès au stockage, les moteurs clients peuvent lire et écrire ces fichiers de données sans nécessiter d'autorisations IAM directes et étendues au niveau du bucket.

Limites du catalogue d'environnements d'exécution Lakehouse

Les limites suivantes s'appliquent aux tables du catalogue d'exécution Lakehouse :

Gestion des tableaux

  • Vous ne pouvez pas créer ni modifier de tables avec le point de terminaison du catalogue REST Apache Iceberg à l'aide d'instructions LDD (langage de définition de données) ou LMD (langage de manipulation de données) BigQuery. Vous pouvez modifier ces tables à l'aide de l'API BigQuery (avec l'outil de ligne de commande bq ou les bibliothèques clientes), mais vous risquez d'apporter des modifications incompatibles avec le moteur externe.
  • Les tables du catalogue du runtime Lakehouse ne sont pas compatibles avec les opérations de renommage ni avec l'instruction SparkSQL ALTER TABLE ... RENAME TO.
  • Les tables du catalogue d'environnements d'exécution Lakehouse ne sont pas compatibles avec le clustering.
  • Les tables du catalogue d'exécution Lakehouse ne sont pas compatibles avec les noms de colonnes flexibles.
  • Le catalogue d'environnements d'exécution Lakehouse n'est pas compatible avec les vues Apache Iceberg.

Requête

  • Les performances des requêtes portant sur des tables du catalogue d'exécution Lakehouse à partir du moteur BigQuery peuvent être ralenties par rapport aux requêtes sur des données dans des tables BigQuery standards. En général, la vitesse des requêtes doit être équivalente à celle de la lecture des données depuis Cloud Storage.
  • Une simulation BigQuery d'une requête qui utilise une table dans le catalogue du runtime Lakehouse peut indiquer une limite inférieure de 0 octet de données, même si des lignes sont renvoyées. Ce résultat se produit, car il est impossible de déterminer la quantité de données traitées à partir de la table tant que la requête complète n'est pas exécutée. L'exécution de la requête entraîne des frais pour le traitement de ces données.
  • Vous ne pouvez pas référencer une table du catalogue d'environnements d'exécution Lakehouse dans une requête de table générique.

API et métadonnées

  • Vous ne pouvez pas utiliser la méthode tabledata.list pour récupérer des données à partir de tables du catalogue d'exécution Lakehouse. Vous pouvez enregistrer les résultats de la requête dans une table BigQuery, puis utiliser la méthode tabledata.list sur cette table.
  • L'affichage des statistiques de stockage de tables pour les tables du catalogue du runtime Lakehouse n'est pas pris en charge.

Quotas et limites

  • Les tables du catalogue d'exécution Lakehouse dans BigQuery sont soumises aux mêmes quotas et limites que les tables standards.

Différences avec BigLake Metastore (version classique)

Voici les principales différences entre le catalogue Lakehouse Runtime et le metastore BigLake (classique) :

  • Le catalogue d'environnements d'exécution Lakehouse est compatible avec une intégration directe aux moteurs Open Source tels que Spark, ce qui permet de réduire la redondance lorsque vous stockez des métadonnées et exécutez des jobs. Les tables du catalogue d'environnements d'exécution Lakehouse sont directement accessibles à partir de plusieurs moteurs Open Source et de BigQuery.
  • Le catalogue d'environnements d'exécution Lakehouse est compatible avec le point de terminaison du catalogue REST Apache Iceberg, contrairement au métastore BigLake (classique).

Étapes suivantes