Présentation des tables Lakehouse

Lakehouse pour Apache Iceberg est compatible avec plusieurs types de tables, offrant différents niveaux de gestion, de performances et d'interopérabilité pour votre lakehouse surGoogle Cloud. En fonction de l'origine de vos données, des exigences du moteur d'écriture et des besoins de contrôle, vous pouvez choisir des formats de table compatibles avec le catalogue du runtime Lakehouse ou BigQuery.

Compatible avec le catalogue d'environnements d'exécution Lakehouse

Recommandé

Le catalogue d'environnements d'exécution Lakehouse est compatible avec les tables Apache Iceberg.

  • Tables Apache Iceberg : il s'agit de tables Apache Iceberg que vous créez à partir de moteurs Open Source et que vous stockez dans Cloud Storage. Le catalogue d'environnements d'exécution Lakehouse gère les tables via le point de terminaison REST Iceberg du catalogue d'environnements d'exécution Lakehouse. Vous pouvez également utiliser BigQuery ou d'autres moteurs compatibles avec Iceberg. Cette option est idéale si vous souhaitez que votre workflow ETL soit géré par des moteurs Open Source.

    Le point de terminaison REST Iceberg du catalogue d'environnements d'exécution Lakehouse fournit une interface REST standard pour une large compatibilité avec les moteurs Open Source tels qu'Apache Spark, Apache Flink et Trino.

Voici les principales caractéristiques de ces tables Apache Iceberg :

  • Metastore : catalogue d'environnements d'exécution Lakehouse.
  • Stockage : Cloud Storage.
  • Optimisation du stockage : gérée par vous ou par un tiers.
  • Accès en lecture et en écriture :
    • Moteurs Open Source : lecture et écriture.
    • BigQuery : lecture seule.
  • Cas d'utilisation : lakehouse ouvert avec stockage hautes performances de niveau entreprise pour l'analyse avancée, le streaming et l'IA.

Pris en charge par BigQuery

BigQuery est compatible avec les tables Apache Iceberg, les tables natives et les tables externes.

  • Tables Apache Iceberg : il s'agit de tables Apache Iceberg que vous créez et gérez depuis BigQuery, et que vous stockez dans Cloud Storage. Bien qu'ils puissent être lus par des moteurs Open Source, BigQuery est le moteur qui gère les métadonnées et les écrit. Cette option est idéale si vous souhaitez que votre workflow soit entièrement géré par BigQuery.

  • Tables natives : il s'agit de tables BigQuery natives. Ils sont entièrement gérés et offrent les fonctionnalités d'analyse et de gestion les plus avancées. Cette option est idéale pour les charges de travail non Iceberg.

  • Tables externes : ces tables sont des constructions spécifiques à BigQuery pour les données stockées dans Cloud Storage, Amazon S3 ou Azure Blob Storage. Les données et les métadonnées sont autogérées, et BigQuery ne dispose que d'un accès en lecture. Choisissez cette option pour les données que vous souhaitez gérer directement dans un catalogue ou un espace de stockage tiers.

Utilisez le tableau suivant pour comparer les types de tableaux :

Tables Apache Iceberg Tables externes Tables BigQuery standards
Metastore Catalogue d'environnements d'exécution Lakehouse BigQuery Métastore externe ou autohébergé BigQuery
Stockage Cloud Storage Cloud Storage Cloud Storage / Amazon S3 / Azure BigQuery
Optimisation du stockage Gérée par le client ou un tiers Géré par Google Gérée par le client ou un tiers Géré par Google
Lecture / Écriture Moteurs Open Source (lecture/écriture)

BigQuery (lecture seule)
Moteurs Open Source (lecture seule avec les bibliothèques Iceberg, interopérabilité en lecture/écriture avec l'API BigQuery Storage)

BigQuery (lecture/écriture)

Moteurs Open Source (lecture/écriture)

BigQuery (lecture seule)
Moteurs Open Source (interopérabilité en lecture/écriture avec l'API BigQuery Storage)

BigQuery (lecture/écriture)

Cas d'utilisation Lakehouse ouvert Lakehouse ouvert avec un stockage hautes performances de niveau entreprise pour l'analyse avancée, le streaming et l'IA Tables de préproduction pour les chargements BigQuery, anciennes tables en lecture seule Stockage de niveau Enterprise pour l'analyse avancée, le streaming et l'IA