Dataproc Metastore est un métastore Apache Hive (HMS) entièrement géré qui s'exécute sur Google Cloud. Un HMS est la norme établie dans l'écosystème Open Source de Big Data pour gérer les métadonnées techniques, telles que les schémas, les partitions et les statistiques de colonnes dans une base de données relationnelle.
Dataproc Metastore est disponibilité élevée, autoréparation et sans serveur. Utilisez-le pour gérer les métadonnées du lac de données et assurer l'interopérabilité entre les différents moteurs de traitement de données et outils que vous utilisez.
Fonctionnement de Dataproc Metastore
Vous pouvez utiliser un service Dataproc Metastore en le connectant à un cluster Managed Service pour Apache Spark. Un cluster Managed Service pour Apache Spark inclut des composants qui s'appuient sur un HMS pour piloter la planification et l'exécution des requêtes.
Cette intégration vous permet de conserver les informations de votre table entre les jobs ou de rendre les métadonnées disponibles pour d'autres clusters et d'autres moteurs de traitement.
Par exemple, l'implémentation d'un métastore peut vous aider à désigner qu'un sous-ensemble de vos fichiers contient des données de revenus, au lieu de suivre manuellement les noms de fichiers. Dans ce cas, vous pouvez définir une table pour ces fichiers et stocker les métadonnées dans Dataproc Metastore. Ensuite, vous pouvez le connecter à un cluster Managed Service pour Apache Spark et interroger la table pour obtenir des informations à l'aide de Hive, Spark SQL ou d'autres services de requête.
Versions de Dataproc Metastore
Lorsque vous créez un service Dataproc Metastore, vous pouvez choisir d'utiliser un service Dataproc Metastore 2 ou un service Dataproc Metastore 1.
Dataproc Metastore 2 est la nouvelle génération du service qui offre une évolutivité horizontale en plus des fonctionnalités de Dataproc Metastore 1. Pour en savoir plus, consultez la section Fonctionnalités et avantages.
Dataproc Metastore 2 propose un forfait différent de celui de Dataproc Metastore. Pour en savoir plus, consultez la section Forfaits et configurations de scaling.
Cas d'utilisation courants
Tous les cas d'utilisation listés dans cette section sont compatibles avec Dataproc Metastore 2 et Dataproc Metastore 1, sauf indication contraire.
Attribuez une signification à vos données. Créez un dépôt de métadonnées centralisé partagé entre de nombreux clusters Managed Service pour Apache Spark éphémères. Utilisez différents moteurs de logiciels Open Source (OSS), tels que Apache Hive , Apache Spark et Presto.
Créez une vue unifiée de vos données. Assurez l'interopérabilité entre Google Cloud services, tels que Managed Service pour Apache Spark, Knowledge Catalog, et BigQuery, ou utilisez d'autres offres partenaires Open Source sur Google Cloud.
Fonctionnalités et avantages
Toutes les fonctionnalités listées dans cette section sont compatibles avec Dataproc Metastore 2 et Dataproc Metastore 1, sauf indication contraire.
Compatibilité avec les logiciels Open Source. Connectez-vous à vos moteurs de traitement de données existants, tels qu'Apache Hive, Apache Spark et Presto.
Gestion. Créez ou mettez à jour un métastore en quelques minutes, avec des tâches de surveillance et d'opération entièrement configurées.
Intégration. Intégrez-le à d'autres Google Cloud produits, par exemple en utilisant BigQuery comme source de métadonnées pour un cluster Managed Service pour Apache Spark.
Sécurité intégrée. Utilisez des protocoles de sécurité établis Google Cloud , tels que la gestion de l'authentification et des accès (IAM) et l'authentification Kerberos.
Importation simple. Importez des métadonnées existantes stockées dans un métastore Hive externe dans un service Dataproc Metastore.
Sauvegardes automatiques. Configurez des sauvegardes automatiques du métastore pour éviter la perte de données.
Surveillance des performances. Définissez des niveaux de performances pour répondre de manière dynamique aux charges de travail et aux pics très intensifs, sans préchauffage ni mise en cache.
Haute disponibilité (HA).
- Dataproc Metastore 2. Fournit une haute disponibilité zonale sans nécessiter de configuration spécifique ni de gestion continue. Pour ce faire, les bases de données backend et les serveurs HMS sont automatiquement répliqués dans plusieurs zones de la région de votre choix. En plus de la haute disponibilité zonale, Dataproc Metastore 2 est compatible avec la haute disponibilité régionale et la reprise après sinistre.
- Dataproc Metastore 1. Par défaut, fournit une haute disponibilité zonale sans nécessiter de configuration spécifique ni de gestion continue. Pour ce faire, les bases de données backend et les serveurs HMS sont automatiquement répliqués dans plusieurs zones de la région de votre choix.
Pour en savoir plus sur les considérations spécifiques à la région, consultez la page Zones géographiques et régions.
Évolutivité.
- Dataproc Metastore 2. Utilisez un facteur de scaling horizontal pour déterminer le nombre de ressources que votre service doit utiliser à un moment donné. Le facteur de scaling peut être contrôlé manuellement ou défini sur le scaling automatique si nécessaire.
- Dataproc Metastore 1. Choisissez entre un niveau développeur et un niveau entreprise lorsque vous configurez votre service. Ce niveau détermine le nombre de ressources que votre service doit utiliser à un moment donné.
Assistance. Bénéficiez de SLA standards Google Cloud et de canaux d'assistance.
Intégrations avec Google Cloud
Toutes les intégrations listées dans cette section sont compatibles avec Dataproc Metastore 1 et Dataproc Metastore 2, sauf indication contraire.
- Managed Service pour Apache Spark. Connectez-vous à un cluster Managed Service pour Apache Spark afin de pouvoir diffuser des métadonnées pour les charges de travail de Big Data Open Source.
- BigQuery. Interrogez les ensembles de données BigQuery dans vos charges de travail Managed Service pour Apache Spark.
- Knowledge Catalog. Interrogez les données structurées et semi-structurées découvertes dans un lac Knowledge Catalog.
- Data Catalog. Synchronisez Dataproc Metastore avec Data Catalog pour activer la recherche et la découverte de métadonnées.
- Journalisation et surveillance. Intégrez Dataproc Metastore aux produits Cloud Monitoring et Cloud Logging.
- Authentification et IAM. Appuyez-vous sur l'authentification OAuth standard utilisée par d'autres Google Cloud produits, qui permet d'utiliser des rôles Identity and Access Management précis pour activer le contrôle des accès pour des ressources individuelles.
Étapes suivantes
- Commencez par le guide de démarrage rapide Déployer un service Dataproc Metastore.
- Découvrez les tarifs de Dataproc Metastore.
- Découvrez les quotas et les limites pour Dataproc Metastore.
- Consultez les notes de version de Dataproc Metastore.
- Accédez à Dataproc Metastore à l'aide de la Google Cloud console, de la Google Cloud CLI ou de l'API Dataproc Metastore.