Google Cloud Lakehouse est un moteur de stockage hautes performances conçu pour créer des data lakehouses ouverts. En intégrant le format de table ouvert Apache Iceberg à un stockage de niveau professionnel entièrement géré sur Google Cloud, il fournit une interface unifiée pour l'analyse avancée et l'IA.
En dissociant le stockage du calcul, Google Cloud Lakehouse assure une interopérabilité fluide entre les systèmes analytiques et transactionnels. Cette architecture permet à plusieurs moteurs, y compris Apache Spark, Apache Flink, Apache Hive, Trino et BigQuery, d'accéder à une source unique de vérité, ce qui élimine la duplication des données et garantit des insights cohérents.
Principaux avantages
- Architecture sans serveur : Google Cloud Lakehouse élimine le besoin de gérer des serveurs ou des clusters, ce qui réduit les frais opérationnels et permet un scaling automatique en fonction de la demande.
- Gestion et gouvernance unifiées des données : l'intégration à Knowledge Catalog garantit la définition et l'application centralisées des règles de gouvernance sur plusieurs moteurs, et permet la recherche sémantique, la traçabilité des données et les contrôles de qualité.
- Extensions de stockage : Google Cloud Lakehouse étend les fonctionnalités de gestion de Cloud Storage pour inclure des fonctionnalités telles que le classement automatique et les clés de chiffrement gérées par le client (CMEK).
- Expérience entièrement gérée : lorsqu'il est intégré à BigQuery, Google Cloud Lakehouse utilise le streaming à haut débit et la gestion des métadonnées en temps réel pour offrir une expérience de streaming, d'analyse et d'IA entièrement gérée.
- Haute disponibilité et reprise après sinistre : Google Cloud Lakehouse propose des options de réplication interrégionale et de reprise après sinistre (Preview) pour assurer la haute disponibilité de vos données.
Cas d'utilisation
- Lakehouse ouvert : utilisez Cloud Storage comme couche de stockage, et Google Cloud Lakehouse fournit l'interface de gestion et de gouvernance pour les données Apache Iceberg.
- Intégration analytique et transactionnelle : accédez directement aux tables Apache Iceberg analytiques dans AlloyDB pour PostgreSQL (Preview) afin de combiner les données analytiques avec les charges de travail transactionnelles.
- Accès unifié : permettez à différents moteurs (Apache Spark, Apache Flink, BigQuery) d'interagir avec les mêmes tables Apache Iceberg avec des métadonnées cohérentes.
Interfaces de catalogue
Le catalogue d'exécution Lakehouse est un service de métadonnées unique qui fournit plusieurs interfaces (points de terminaison) pour connecter vos données dans Cloud Storage et BigQuery. Pour en savoir plus, consultez la section Fonctionnement de Google Cloud Lakehouse.
Point de terminaison du catalogue Apache Iceberg REST : fournit une interface REST standard pour une compatibilité étendue avec les moteurs Open Source tels qu'Apache Spark, Apache Flink et Trino. Il s'agit de l'interface recommandée pour les nouvelles charges de travail, qui offre une interopérabilité complète en lecture/écriture.
Catalogue Apache Iceberg personnalisé pour le point de terminaison BigQuery : permet aux moteurs d'interagir directement avec le catalogue BigQuery. Cette interface est principalement utilisée pour les tables Apache Iceberg gérées par BigQuery et les charges de travail existantes qui passent à l'architecture Google Cloud Lakehouse.
Interfaces et outils
Vous pouvez interagir avec les ressources Google Cloud Lakehouse à l'aide des outils suivants :
- Google Cloud console : utilisez la console pour créer des catalogues, afficher les propriétés des catalogues, afficher les journaux d'audit et configurer les autorisations.
- BigQuery SQL : utilisez le langage LDD (langage de définition de données) SQL standard pour créer et gérer des tables Apache Iceberg et des tables externes intégrées au catalogue d'exécution Lakehouse.
- Moteurs Open Source : utilisez des moteurs tels qu'Apache Spark, Apache Flink et Apache Hive avec le catalogue d'exécution Lakehouse pour lire et écrire des données.
- API du catalogue d'exécution Lakehouse : utilisez le point de terminaison du catalogue Apache Iceberg REST pour interagir avec le service à l'aide d'outils compatibles avec la spécification Apache Iceberg REST ouverte.
Étape suivante
- Comprendre l'architecture de Google Cloud Lakehouse.