BigLake est un moteur de stockage qui unifie les services Google Cloud et Open Source pour créer une interface unifiée pour l'analyse avancée et l'IA. Il fournit la base dont vous avez besoin pour créer un lakehouse ouvert, géré et hautes performances avec une gestion des données automatisée et une gouvernance intégrée à l'aide d'Apache Iceberg.
BigLake permet l'interopérabilité entre tous les moteurs compatibles avec Iceberg, comme Apache Spark ou BigQuery, ce qui vous offre une vue cohérente de vos données. Il étend également les fonctionnalités de gestion de Cloud Storage, qui incluent des fonctionnalités telles que le classement automatique, le chiffrement et les clés de chiffrement gérées par le client sur vos buckets de stockage. De plus, l'intégration intégrée à Dataplex Universal Catalog garantit que les règles de gouvernance sont définies de manière centralisée et appliquées de manière cohérente sur plusieurs moteurs, tout en permettant la recherche sémantique, la traçabilité des données, le profilage et les contrôles de qualité.
BigLake offre également une expérience Iceberg entièrement gérée lorsqu'il est intégré à BigQuery. En tirant parti des capacités de gestion des métadonnées en temps réel et hautement évolutives de BigQuery, vous bénéficiez du meilleur des deux mondes : l'ouverture et la propriété des données, ainsi que des analyses, des flux de données et de l'IA hautes performances.
Architecture
Un data lakehouse créé avec BigLake se compose des éléments suivants :
- Capacités de stockage. Cloud Storage avec Apache Iceberg comme format de table ouvert recommandé.
- Un metastore. BigLake Metastore est un metastore unifié, géré, sans serveur et évolutif qui fournit une source unique de vérité pour gérer les métadonnées sur plusieurs moteurs.
- Un moteur de requêtes. BigQuery, Apache Spark, Apache Flink, Trino et d'autres moteurs Open Source sont tous compatibles avec BigLake.
- Un outil pour l'écriture et l'analyse de données. BigQuery, Spark, Flink, Trino et d'autres outils Open Source s'intègrent à BigLake pour fournir différentes méthodes d'écriture et d'analyse.
BigLake regroupe tous ces composants dans une seule expérience avec une gouvernance uniforme. Pour en savoir plus sur l'architecture et les innovations de BigLake, consultez BigLake évolue.
Metastore BigLake
BigLake Metastore est un metastore entièrement géré et sans serveur pour votre lakehouse sur Google Cloud. Il fournit une source unique de référence pour les métadonnées provenant de plusieurs sources et est accessible depuis BigQuery et divers moteurs de traitement de données ouverts. Il n'est donc plus nécessaire de copier et de synchroniser les métadonnées entre différents dépôts à l'aide d'outils personnalisés.
Le métastore BigLake est compatible avec Dataplex Universal Catalog, qui fournit des contrôles d'accès unifiés et précis pour tous les moteurs compatibles, et permet une gouvernance de bout en bout incluant des fonctionnalités complètes de traçabilité, de qualité des données et de visibilité.
Formats de table
Lorsque vous créez une lakehouse sur BigLake, vous avez le choix entre les formats de tables suivants :
- Les tables BigLake Iceberg dans BigQuery sont des tables Iceberg que vous créez à partir de BigQuery et que vous stockez dans Cloud Storage. Comme toutes les tables qui utilisent le metastore BigLake, elles peuvent être lues par des moteurs Open Source et BigQuery. Toutefois, BigQuery est le seul moteur capable d'écrire directement dans ces tables. Cette option est idéale si vous souhaitez que votre workflow d'extraction, de transformation et de chargement (ETL) soit entièrement géré par BigQuery.
- Les tables BigLake Iceberg sont des tables Iceberg que vous créez à partir de moteurs Open Source et que vous stockez dans Cloud Storage. Comme toutes les tables qui utilisent le métastore BigLake, elles peuvent être lues par des moteurs Open Source et BigQuery. Toutefois, seul le moteur Open Source qui a créé le tableau peut y écrire. Cette option est idéale si vous souhaitez que votre workflow ETL soit géré par le moteur Open Source.
- Les tables BigQuery standards sont entièrement gérées par BigQuery et disposent des fonctionnalités d'analyse et de gestion des données les plus avancées. Vous pouvez toujours connecter ces tables au metastore BigLake. Cette option est idéale pour les tables non Iceberg.
- Les tables externes sont des tables qui se trouvent en dehors du metastore BigLake. Les données et les métadonnées de ces tables sont entièrement autogérées. Vous dépendez donc entièrement des fonctionnalités des formats de table ouverts (tels qu'Iceberg, Apache Hudi ou Delta Lake). BigQuery ne peut que lire ces tables. Choisissez cette option pour les données et les métadonnées que vous souhaitez gérer vous-même dans un catalogue tiers.
Utilisez le tableau suivant pour comparer les options de format de tableau :
| Tables externes | Tables BigLake Iceberg | Tables BigLake Iceberg dans BigQuery | Tables BigQuery standards | |
|---|---|---|---|---|
| Metastore | Métastore externe ou autohébergé | Metastore BigLake | Metastore BigLake | BigQuery |
| Stockage | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
| Optimisation du stockage | Gérée par le client ou un tiers | Gérée par le client ou un tiers | Géré par Google | Géré par Google |
| Lecture / Écriture |
Moteurs Open Source (lecture/écriture) BigQuery (lecture seule) |
Moteurs Open Source (lecture/écriture) BigQuery (lecture seule) |
Moteurs Open Source (lecture seule avec les bibliothèques Iceberg, interopérabilité en lecture/écriture avec l'API BigQuery Storage)
BigQuery (lecture/écriture) |
Moteurs Open Source (interopérabilité en lecture/écriture avec l'API BigQuery Storage) BigQuery (lecture/écriture) |
| Cas d'utilisation | Tables de préproduction pour les chargements BigQuery, anciennes tables en lecture seule | Lakehouse ouvert | Lakehouse ouvert avec stockage hautes performances de niveau entreprise pour l'analyse avancée, le streaming et l'IA | Stockage de niveau entreprise pour l'analyse avancée, le streaming et l'IA |
Étapes suivantes
- En savoir plus sur BigLake Metastore