Concepts de base de Dataproc Metastore

Utilisez les concepts suivants pour comprendre le fonctionnement de Dataproc Metastore et les différentes fonctionnalités que vous pouvez utiliser avec votre service.

Versions de Dataproc Metastore

Lorsque vous créez un service Dataproc Metastore, vous pouvez choisir d'utiliser un service Dataproc Metastore 2 ou un service Dataproc Metastore 1.

Dataproc Metastore 2

Dataproc Metastore 2 utilise un facteur de scaling pour déterminer le nombre de ressources utilisées par votre service à un moment donné. Après avoir créé un service Dataproc Metastore 2, vous pouvez le faire évoluer en modifiant le facteur de scaling.

  • Dataproc Metastore 2 est la nouvelle génération du service qui offre une évolutivité horizontale en plus des fonctionnalités de Dataproc Metastore. Pour en savoir plus, consultez la section Fonctionnalités et avantages.

  • Dataproc Metastore 2 propose un forfait différent de celui de Dataproc Metastore. Pour en savoir plus, consultez la section Forfaits et configurations de scaling.

Dataproc Metastore 1

Dataproc Metastore 1 utilise des niveaux de service pour déterminer le nombre de ressources utilisées par votre service à un moment donné. Les niveaux de service fournissent une quantité de ressources prévisible et prédéterminée.

Vérifier votre version de Dataproc Metastore

Vous pouvez vérifier la version de Dataproc Metastore que vous utilisez dans la Google Cloud console.

  • Dataproc Metastore 2 : le tableau de configuration contient la valeur suivante : Edition Enterprise - Single Region.
  • Dataproc Metastore 1 : le tableau de configuration contient l'une des valeurs suivantes : Tier: DEVELOPER ou Tier: ENTERPRISE.

Termes courants de Dataproc Metastore

Les termes suivants sont couramment utilisés dans l'écosystème et la documentation de Dataproc Metastore.

Services

  • Apache Hive. Hive est un système de stockage de données Open Source populaire basé sur Apache Hadoop. Hive propose un langage de requête semblable à SQL appelé HiveQL, utilisé pour analyser de grands ensembles de données structurés.
  • Métastore Apache Hive. Le métastore Hive contient des métadonnées sur les tables Hive, telles que leur schéma et leur emplacement.
  • Managed Service pour Apache Spark. Managed Service pour Apache Spark est un service rapide, convivial et entièrement géré sur Google Cloud permettant d'exécuter des charges de travail Apache Spark et Apache Hadoop de manière simple et économique. Après avoir créé un service Dataproc Metastore, vous pouvez vous y connecter à partir d'un cluster Managed Service pour Apache Spark.
  • Cluster Managed Service pour Apache Spark. Après avoir créé un service Dataproc Metastore, vous pouvez vous y connecter à partir d'un cluster Managed Service pour Apache Spark. Vous pouvez également utiliser Dataproc Metastore avec différents autres clusters, tels que les clusters Apache Hive, Apache Spark ou Presto autogérés.
  • Service Dataproc Metastore. Nom de l'instance de métastore que vous créez dans Google Cloud. Vous pouvez avoir un ou plusieurs services de métastore différents dans votre implémentation.
  • Private Service Connect. Private Service Connect vous permet de configurer une connexion privée aux métadonnées Dataproc Metastore sur les réseaux VPC. Vous pouvez l'utiliser pour la mise en réseau au lieu de l'appairage de VPC.
  • VPC Service Controls. VPC Service Controls vous aide à limiter les risques d'exfiltration de données à partir de Google Cloud services en vous permettant de créer des périmètres qui protègent les ressources et les données des services que vous spécifiez explicitement.

Concepts

  • Tables. Toutes les applications Hive sont associées à des tables internes gérées ou des tables externes non gérées qui stockent vos données.
  • Répertoire d'entrepôt Hive. Emplacement par défaut où les données des tables gérées sont stockées.
  • Bucket d'artefacts. Bucket Cloud Storage créé automatiquement dans votre projet avec chaque service de métastore que vous créez. Ce bucket peut être utilisé pour stocker les artefacts de votre service, tels que les métadonnées exportées et les données des tables gérées. Par défaut, le bucket d'artefacts stocke le répertoire d'entrepôt par défaut de votre service Dataproc Metastore.
  • Points de terminaison. Un service Dataproc Metastore permet aux clients d'accéder aux métadonnées Hive Metastore stockées via un ou plusieurs points de terminaison réseau. Dataproc Metastore fournit des URI pour ces points de terminaison.
  • Protocoles de point de terminaison. Protocole réseau utilisé pour la communication entre Dataproc Metastore et les clients Hive Metastore. Dataproc Metastore est compatible avec les points de terminaison Apache Thrift et gRPC.
  • Fédération de métadonnées. Fonctionnalité qui vous permet d'accéder aux métadonnées stockées dans plusieurs instances Dataproc Metastore.
  • Versions auxiliaires. Fonctionnalité qui vous permet de connecter plusieurs versions de client Hive au même service Dataproc Metastore.

Concepts du métastore Hive

Pour utiliser un service Dataproc Metastore, vous devez comprendre les concepts de base du métastore Hive. Pour en savoir plus, consultez la section Hive Metastore.

Configuration réseau requise

Le service Dataproc Metastore nécessite un accès réseau pour fonctionner correctement. Pour en savoir plus, consultez la section Configurer les conditions réseau requises.

Configurations de projet

Vous pouvez utiliser plusieurs configurations de projet lorsque vous déployez un cluster Managed Service pour Apache Spark et un service Dataproc Metastore. Pour en savoir plus, consultez la section Déploiement sur plusieurs projets.

Étape suivante