Lakehouse pour Apache Iceberg est un moteur de stockage hautes performances conçu pour créer des data lakehouses ouverts. En intégrant le format de table ouvert Apache Iceberg au stockage de niveau entreprise entièrement géré sur Google Cloud, il fournit une interface unifiée pour l'analyse avancée et l'IA.
En dissociant le stockage du calcul, le Lakehouse de Google Cloud assure une interopérabilité fluide entre les systèmes analytiques et transactionnels. Cette architecture permet à plusieurs moteurs (y compris Apache Spark, Apache Flink, Apache Hive, Trino et BigQuery) d'accéder à une source de vérité unique, ce qui élimine la duplication des données et garantit des insights cohérents.
Principaux avantages
- Architecture sans serveur : le Lakehouse Google Cloud élimine le besoin de gestion des serveurs ou des clusters, ce qui réduit les frais généraux opérationnels et permet un scaling automatique en fonction de la demande.
- Gestion et gouvernance unifiées des données : l'intégration à Knowledge Catalog permet de définir et d'appliquer de manière centralisée des règles de gouvernance sur plusieurs moteurs, et d'activer la recherche sémantique, la traçabilité des données et les contrôles de qualité.
- Extensions de stockage : le Lakehouse de Google Cloud étend les fonctionnalités de gestion de Cloud Storage pour inclure des fonctionnalités telles que le classement Autoclass et les clés de chiffrement gérées par le client (CMEK).
- Expérience entièrement gérée : lorsqu'il est intégré à BigQuery, le lakehouse Google Cloud utilise le streaming à haut débit et la gestion des métadonnées en temps réel pour offrir une expérience de streaming, d'analyse et d'IA entièrement gérée.
- Haute disponibilité et reprise après sinistre : le Lakehouse de Google Cloud propose des options de réplication multirégionale et de reprise après sinistre (aperçu) pour assurer la haute disponibilité de vos données.
Cas d'utilisation
- Lakehouse ouvert : utilisez Cloud Storage comme couche de stockage, et le Lakehouse de Google Cloud fournit l'interface de gestion et de gouvernance pour les données Apache Iceberg.
- Intégration analytique et transactionnelle : accédez aux tables analytiques Apache Iceberg directement dans AlloyDB pour PostgreSQL (preview) pour combiner les données analytiques avec les charges de travail transactionnelles.
- Accès unifié : permet à différents moteurs (Apache Spark, Apache Flink, BigQuery) d'interagir avec les mêmes tables Apache Iceberg avec des métadonnées cohérentes.
- Analyses et IA multicloud : utilisez le Lakehouse multicloud (aperçu) pour interroger les données d'autres fournisseurs de cloud directement depuis Google Cloud , sans avoir à migrer les données.
- Exploration des ensembles de données publics : interrogez facilement des ensembles de données publics de haute qualité à l'aide du point de terminaison du catalogue Apache Iceberg REST sans avoir à gérer l'infrastructure.
Interfaces et outils
Vous pouvez interagir avec les ressources Lakehouse de Google Cloud à l'aide des outils suivants :
- Google Cloud console : utilisez la console pour créer des catalogues, afficher les propriétés des catalogues et les journaux d'audit, et configurer les autorisations.
- BigQuery SQL : utilisez le langage LDD (langage de définition de données) SQL standard pour créer et gérer des tables Apache Iceberg et des tables externes intégrées au catalogue du runtime Lakehouse.
- Moteurs Open Source : utilisez des moteurs tels qu'Apache Spark, Apache Flink et Apache Hive avec le catalogue d'environnements d'exécution Lakehouse pour lire et écrire des données.
- API du catalogue d'exécution Lakehouse : utilisez le point de terminaison du catalogue REST Apache Iceberg pour interagir avec le service à l'aide d'outils compatibles avec la spécification REST Apache Iceberg ouverte.
Étapes suivantes
- Comprendre l'architecture du Lakehouse Google Cloud.