BigLake est un moteur de stockage qui unifie Google Cloud et les services Open Source pour créer une interface unifiée pour l'analyse avancée et l'IA. Il fournit la base pour créer un lakehouse ouvert, géré et hautes performances avec une gestion des données automatisée et une gouvernance intégrée à l'aide d'Apache Iceberg.
En dissociant le stockage du calcul, BigLake offre une interopérabilité avec tous les moteurs compatibles avec Iceberg, tels qu'Apache Spark, Apache Flink, Apache Hive, Trino ou BigQuery, ce qui garantit une vue cohérente de vos données.
Principaux avantages
- Architecture sans serveur : BigLake élimine le besoin de gestion des serveurs ou des clusters, ce qui réduit les coûts opérationnels et permet un scaling automatique en fonction de la demande.
- Gestion et gouvernance unifiées des données : l'intégration à Dataplex Universal Catalog permet de définir et d'appliquer de manière centralisée les règles de gouvernance sur plusieurs moteurs, et d'activer la recherche sémantique, la traçabilité des données et les contrôles de qualité.
- Extensions de stockage : BigLake étend les fonctionnalités de gestion de Cloud Storage pour inclure des fonctionnalités telles que le classement automatique et les clés de chiffrement gérées par le client (CMEK).
- Expérience entièrement gérée : lorsqu'il est intégré à BigQuery, BigLake utilise le streaming à haut débit et la gestion des métadonnées en temps réel pour offrir une expérience de streaming, d'analyse et d'IA entièrement gérée.
- Haute disponibilité et reprise après sinistre : BigLake propose des options de réplication interrégionale et de reprise après sinistre (aperçu) pour assurer la haute disponibilité de vos données.
Cas d'utilisation
- Lakehouse ouvert : utilisez Cloud Storage comme couche de stockage, et BigLake fournit l'interface de gestion et de gouvernance pour les données Iceberg.
- Intégration analytique et transactionnelle : accédez aux tables BigLake Iceberg analytiques directement dans AlloyDB pour PostgreSQL (preview) pour combiner les données analytiques avec les charges de travail transactionnelles.
- Accès unifié : permet à différents moteurs (Spark, Flink, BigQuery) d'interagir avec les mêmes tables Iceberg avec des métadonnées cohérentes.
Interfaces de catalogue
Le metastore BigLake fournit deux interfaces de catalogue principales pour connecter vos données dans Cloud Storage et BigQuery. Pour en savoir plus, consultez Fonctionnement de BigLake.
Catalogue Apache Iceberg REST : fournit une interface REST standard pour une compatibilité plus large avec les moteurs et outils Open Source. Il s'agit de l'interface recommandée pour les nouvelles charges de travail.
Pour découvrir comment utiliser ce catalogue Apache Iceberg REST, consultez le guide de démarrage rapide Utiliser BigLake Metastore avec Spark et BigQuery à l'aide du catalogue Iceberg REST.
Catalogue Apache Iceberg personnalisé pour BigQuery : permet aux moteurs tels que Spark d'interagir avec BigQuery. Cette interface est compatible avec les charges de travail existantes.
Interfaces et outils
Vous pouvez interagir avec les ressources BigLake à l'aide des outils suivants :
- La consoleGoogle Cloud : utilisez la console pour créer des catalogues, afficher les propriétés des catalogues et les journaux d'audit, et configurer les autorisations.
- BigQuery SQL : utilisez le langage LDD (langage de définition de données) SQL standard pour créer et gérer des tables BigLake Iceberg.
- Moteurs Open Source : utilisez des moteurs tels qu'Apache Spark, Apache Flink et Apache Hive avec le metastore BigLake pour lire et écrire des données.
- API BigLake Metastore : utilisez une API REST compatible avec la spécification du catalogue Iceberg REST.
Étapes suivantes
- Comprendre l'architecture : lisez Fonctionnement de BigLake.