Présentation des tables BigLake

Ce document décrit les différents formats de table disponibles lorsque vous créez un lakehouse sur BigLake et vous aide à choisir celui qui répond le mieux à vos besoins.

Lorsque vous créez un lakehouse sur BigLake, vous pouvez choisir parmi plusieurs formats de table qui offrent différents niveaux de gestion, de performances et d'interopérabilité. Votre choix dépend de l'origine de vos données, des moteurs que vous souhaitez utiliser pour l'écriture et la transformation, et du niveau de contrôle dont vous avez besoin sur le stockage et les métadonnées.

Formats de table

Lorsque vous créez une lakehouse sur BigLake, vous avez le choix entre les formats de tables suivants :

  • Les tables BigLake Iceberg sont des tables Iceberg que vous créez à partir de moteurs Open Source et que vous stockez dans Cloud Storage. Comme toutes les tables qui utilisent le métastore BigLake, elles peuvent être lues par des moteurs Open Source et BigQuery. Toutefois, seuls les moteurs Open Source peuvent y écrire. Cette option est idéale si vous souhaitez que votre workflow ETL soit géré par des moteurs Open Source.
  • Les tables BigLake Iceberg dans BigQuery sont des tables Iceberg que vous créez à partir de BigQuery et que vous stockez dans Cloud Storage. Comme toutes les tables qui utilisent le métastore BigLake, elles peuvent être lues par des moteurs Open Source et BigQuery. Toutefois, BigQuery est le seul moteur capable d'écrire directement dans ces tables. Cette option est idéale si vous souhaitez que votre workflow d'extraction, de transformation et de chargement (ETL) soit entièrement géré par BigQuery.
  • Les tables BigQuery standards sont entièrement gérées par BigQuery et disposent des fonctionnalités d'analyse et de gestion des données les plus avancées. Vous pouvez toujours connecter ces tables au metastore BigLake. Cette option est idéale pour les tables non-Iceberg.
  • Les tables externes sont des tables qui se trouvent en dehors du metastore BigLake. Les données et les métadonnées de ces tables sont entièrement autogérées. Vous dépendez donc entièrement des fonctionnalités des formats de table ouverts (tels qu'Iceberg, Apache Hudi ou Delta Lake). BigQuery ne peut que lire ces tables. Choisissez cette option pour les données et les métadonnées que vous souhaitez gérer vous-même dans un catalogue tiers.

Utilisez le tableau suivant pour comparer les options de format de tableau :

Tables externes Tables BigLake Iceberg Tables BigLake Iceberg dans BigQuery Tables BigQuery standards
Metastore Métastore externe ou autohébergé Metastore BigLake Metastore BigLake BigQuery
Stockage Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
Optimisation du stockage Gérée par le client ou un tiers Gérée par le client ou un tiers Géré par Google Géré par Google
Lecture / Écriture Moteurs Open Source (lecture/écriture)

BigQuery (lecture seule)
Moteurs Open Source (lecture/écriture)

BigQuery (lecture seule)
Moteurs Open Source (lecture seule avec les bibliothèques Iceberg, interopérabilité en lecture/écriture avec l'API BigQuery Storage)

BigQuery (lecture/écriture)

Moteurs Open Source (interopérabilité en lecture/écriture avec l'API BigQuery Storage)

BigQuery (lecture/écriture)

Cas d'utilisation Tables de préproduction pour les chargements BigQuery, anciennes tables en lecture seule Lakehouse ouvert Lakehouse ouvert avec stockage hautes performances de niveau entreprise pour l'analyse avancée, le streaming et l'IA Stockage de niveau entreprise pour l'analyse avancée, le streaming et l'IA