À propos du catalogue d'exécution Lakehouse

Le catalogue d'environnements d'exécution Lakehouse est un service entièrement géré et sans serveur qui fournit une source unique de vérité pour votre data lakehouse. Il permet à plusieurs moteurs, y compris Apache Spark, Apache Flink et BigQuery, de partager des tables et des métadonnées sans copier de fichiers.

Le catalogue d'environnements d'exécution Lakehouse est compatible avec la délégation d'accès au stockage (distribution d'identifiants), ce qui améliore la sécurité en supprimant le besoin d'accéder directement aux buckets Cloud Storage. Il s'intègre également à Knowledge Catalog pour une gouvernance, une traçabilité et une qualité des données unifiées.

Fonctionnalités clés

En tant que composant de Lakehouse pour Apache Iceberg, le catalogue d'environnements d'exécution Lakehouse offre plusieurs avantages pour la gestion et l'analyse des données, y compris une architecture sans serveur, l'interopérabilité des moteurs avec des API ouvertes, une expérience utilisateur unifiée et des analyses, des flux et une IA hautes performances lorsqu'il est utilisé avec BigQuery. Pour en savoir plus sur ces avantages, consultez Qu'est-ce qu'un lakehouse ?

Moteurs compatibles

Le catalogue d'environnements d'exécution Lakehouse est compatible avec plusieurs moteurs de requête, y compris (mais sans s'y limiter) Apache Spark, Apache Flink et Trino. Le tableau suivant fournit des liens vers la documentation de chaque moteur :

Moteur Documentation
Apache Spark Démarrage rapide : Utiliser avec Spark
Apache Flink Utiliser avec Apache Flink
Trino Utiliser avec Trino

Options de configuration des points de terminaison

Le catalogue d'environnements d'exécution Lakehouse peut être configuré de deux manières : avec le point de terminaison du catalogue Apache Iceberg REST ou le catalogue Apache Iceberg personnalisé pour le point de terminaison BigQuery. La meilleure option dépend de votre cas d'utilisation, comme indiqué dans le tableau suivant :

Cas d'utilisation Recommandation
Nouveaux utilisateurs du catalogue d'environnements d'exécution Lakehouse qui souhaitent que leur moteur Open Source accède aux données dans Cloud Storage et qui ont besoin d'une interopérabilité avec d'autres moteurs, y compris BigQuery et AlloyDB pour PostgreSQL. Utilisez le point de terminaison du catalogue Apache Iceberg REST.
Utilisateurs existants du catalogue d'environnements d'exécution Lakehouse qui disposent de tables actuelles créées avec le catalogue Apache Iceberg personnalisé pour le point de terminaison BigQuery. Continuez à utiliser le catalogue Apache Iceberg personnalisé pour le point de terminaison BigQuery, mais utilisez le catalogue Apache Iceberg REST pour les nouveaux workflows. Les tables créées avec le catalogue Apache Iceberg personnalisé pour le point de terminaison BigQuery sont visibles avec le point de terminaison du catalogue Apache Iceberg REST via la fédération de catalogues BigQuery.

Différences avec le métastore BigLake (classique)

Le catalogue d'environnements d'exécution Lakehouse est le métastore recommandé sur Google Cloud, tandis que le métastore BigLake (classique) est considéré comme une fonctionnalité héritée.

Les principales différences entre le catalogue d'environnements d'exécution Lakehouse et le métastore BigLake (classique) sont les suivantes :

  • Le catalogue d'environnements d'exécution Lakehouse est compatible avec une intégration directe aux moteurs Open Source tels que Spark, ce qui permet de réduire la redondance lorsque vous stockez des métadonnées et exécutez des jobs. Les tables du catalogue d'environnements d'exécution Lakehouse sont directement accessibles à partir de plusieurs moteurs Open Source et de BigQuery.
  • Le catalogue d'environnements d'exécution Lakehouse est compatible avec le point de terminaison du catalogue Apache Iceberg REST, contrairement au métastore BigLake (classique).

Limites du catalogue d'environnements d'exécution Lakehouse

Les limites suivantes s'appliquent aux tables du catalogue d'environnements d'exécution Lakehouse :

Gestion des tables

  • Vous ne pouvez pas créer ni modifier de tables avec le point de terminaison du catalogue Apache Iceberg REST à l'aide d'instructions de langage de définition de données (LDD) ou de langage de manipulation de données (LMD) BigQuery. Vous pouvez modifier ces tables à l'aide de l'API BigQuery (avec l'outil de ligne de commande bq ou les bibliothèques clientes), mais vous risquez d'apporter des modifications incompatibles avec le moteur externe.
  • Les tables du catalogue d'environnements d'exécution Lakehouse ne sont pas compatibles avec les opérations de changement de nom ni avec l'instruction SQL Spark ALTER TABLE ... RENAME TO.
  • Les tables du catalogue d'environnements d'exécution Lakehouse ne sont pas compatibles avec le clustering.
  • Les tables du catalogue d'environnements d'exécution Lakehouse ne sont pas compatibles avec les noms de colonnes flexibles.
  • Le catalogue d'environnements d'exécution Lakehouse n'est pas compatible avec les vues Apache Iceberg.

Requête

  • Les performances des requêtes pour les tables du catalogue d'environnements d'exécution Lakehouse à partir du moteur BigQuery peuvent être lentes par rapport aux requêtes sur des données dans des tables BigQuery standards. En général, la vitesse des requêtes doit être équivalente à la lecture de données à partir de Cloud Storage.
  • Une simulation BigQuery d'une requête qui utilise une table dans le catalogue d'environnements d'exécution Lakehouse peut indiquer une limite inférieure de 0 octet de données, même si des lignes sont renvoyées. Ce résultat se produit, car la quantité de données traitées à partir de la table ne peut pas être déterminée tant que la requête complète n'est pas exécutée. L'exécution de la requête entraîne des coûts de traitement de ces données.
  • Vous ne pouvez pas référencer de table dans le catalogue d'environnements d'exécution Lakehouse dans une table générique requête.

API et métadonnées

  • Vous ne pouvez pas utiliser la tabledata.list méthode pour extraire des données de tables dans le catalogue d'environnements d'exécution Lakehouse. Vous pouvez enregistrer les résultats de la requête dans une table BigQuery, puis utiliser la méthode tabledata.list sur cette table.
  • L'affichage des statistiques de stockage de tables pour les tables du catalogue d'environnements d'exécution Lakehouse n'est pas compatible.

Quotas et limites

  • Les tables du catalogue d'environnements d'exécution Lakehouse dans BigQuery sont soumises aux mêmes quotas et limites que les tables standards.

Étape suivante