Grundlegende Konzepte von Dataproc Metastore

Die folgenden Konzepte helfen Ihnen, die Funktionsweise von Dataproc Metastore und die verschiedenen Funktionen zu verstehen, die Sie mit Ihrem Dienst verwenden können.

Dataproc Metastore-Versionen

Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.

Dataproc Metastore 2

Dataproc Metastore 2 verwendet einen Skalierungsfaktor, um zu bestimmen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwendet. Nachdem Sie einen Dataproc Metastore 2-Dienst erstellt haben, können Sie den Dienst skalieren, indem Sie den Skalierungsfaktor ändern.

  • Dataproc Metastore 2 ist die neue Generation des Dienstes, der zusätzlich zu den Dataproc Metastore-Funktionen auch horizontale Skalierbarkeit bietet. Weitere Informationen finden Sie unter Funktionen und Vorteile.

  • Dataproc Metastore 2 hat einen anderen Preisplan als Dataproc Metastore. Weitere Informationen finden Sie unter Preispläne und Skalierungskonfigurationen.

Dataproc Metastore 1

Dataproc Metastore 1 verwendet Dienststufen, um zu bestimmen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwendet. Dienststufen bieten eine vorhersehbare, vorab festgelegte Menge an Ressourcen.

Dataproc Metastore-Version prüfen

In der Console können Sie prüfen, welche Version von Dataproc Metastore Sie verwenden. Google Cloud

  • Dataproc Metastore 2: Die Konfigurationstabelle enthält den folgenden Wert: Edition Enterprise – Single Region.
  • Dataproc Metastore 1: Die Konfigurationstabelle enthält einen der folgenden Werte: Tier: DEVELOPER oder Tier: ENTERPRISE.

Häufig verwendete Dataproc Metastore-Begriffe

Die folgenden Begriffe werden häufig im gesamten Dataproc Metastore-Ökosystem und in der Dokumentation verwendet.

Dienste

  • Apache Hive. Hive ist ein beliebtes Open-Source-Data-Warehouse-System auf der Grundlage von Apache Hadoop. Hive umfasst eine SQL-ähnliche Abfragesprache namens HiveQL, mit der große strukturierte Datasets analysiert werden.
  • Apache Hive-Metastore. Der Hive-Metastore enthält Metadaten zu Hive-Tabellen, z. B. dem Schema und Speicherort.
  • Managed Service for Apache Spark. Managed Service for Apache Spark ist ein schneller, nutzerfreundlicher, vollständig verwalteter Dienst in Google Cloud über den Sie Arbeitslasten von Apache Spark und Apache Hadoop einfach und günstig ausführen können. Nachdem Sie einen Dataproc Metastore erstellt haben, können Sie von einem Managed Service for Apache Spark-Cluster aus eine Verbindung zu ihm herstellen.
  • Managed Service for Apache Spark-Cluster. Nachdem Sie einen Dataproc Metastore-Dienst erstellt haben, können Sie von einem Managed Service for Apache Spark-Cluster aus eine Verbindung zu ihm herstellen. Sie können Dataproc Metastore auch mit verschiedenen anderen Clustern verwenden, z. B. mit selbstverwalteten Apache Hive-, Apache Spark- oder Presto-Clustern.
  • Dataproc Metastore-Dienst. Der Name der Metastore Instanz, die Sie in Google Clouderstellen. Sie können in Ihrer Implementierung einen oder mehrere verschiedene Metastore-Dienste haben.
  • Private Service Connect. Mit Private Service Connect können Sie eine private Verbindung zu Dataproc Metastore-Metadaten über VPC-Netzwerke hinweg einrichten. Sie können es als Alternative zu VPC-Peering für die Vernetzung verwenden.
  • VPC Service Controls. Mit VPC Service Controls können Sie das Risiko der Datenexfiltration aus Diensten verringern, indem Sie Perimeter erstellen, die die Ressourcen und Daten von Diensten schützen, die Sie explizit angeben. Google Cloud

Konzepte

  • Tabellen. Alle Hive-Anwendungen haben verwaltete interne oder nicht verwaltete externe Tabellen, in denen Ihre Daten gespeichert sind.
  • Hive-Warehouse-Verzeichnis. Der Standardspeicherort, an dem verwaltete Tabellendaten gespeichert werden.
  • Artefakt-Bucket. Ein Cloud Storage-Bucket, der in Ihrem Projekt automatisch mit jedem von Ihnen erstellten Metastore-Dienst erstellt wird. In diesem Bucket können Sie Ihre Dienstartefakte speichern, z. B. exportierte Metadaten und verwaltete Tabellendaten. Standardmäßig speichert der Artefakt-Bucket das Standard-Warehouse-Verzeichnis Ihres Dataproc Metastore-Dienstes.
  • Endpunkte. Ein Dataproc Metastore-Dienst bietet Clients über einen oder mehrere Netzwerkendpunkte Zugriff auf die gespeicherten Hive-Metastore-Metadaten. Dataproc Metastore stellt URIs für diese Endpunkte bereit.
  • Endpunktprotokolle. Das Netzwerkprotokoll, das für die Kommunikation zwischen Dataproc Metastore und Hive-Metastore-Clients verwendet wird. Dataproc Metastore unterstützt Apache Thrift- und gRPC-Endpunkte.
  • Metadatenföderation. Eine Funktion, mit der Sie auf Metadaten zugreifen können, die in mehreren Dataproc Metastore-Instanzen gespeichert sind.
  • Zusätzliche Versionen. Eine Funktion, mit der Sie mehrere Hive-Clientversionen mit demselben Dataproc Metastore-Dienst verbinden können.

Hive-Metastore-Konzepte

Für die Verwendung eines Dataproc Metastore-Dienstes müssen Sie die grundlegenden Hive-Metastore-Konzepte verstehen. Weitere Informationen finden Sie unter Hive Metastore.

Netzwerkanforderungen

Der Dataproc Metastore-Dienst erfordert Netzwerkzugriff, um ordnungsgemäß zu funktionieren. Weitere Informationen finden Sie unter Netzwerkanforderungen konfigurieren.

Projektkonfigurationen

Es gibt eine Reihe möglicher Projektkonfigurationen, die Sie bei der Bereitstellung eines Managed Service for Apache Spark-Clusters und eines Dataproc Metastore-Dienstes verwenden können. Weitere Informationen finden Sie unter Projektübergreifende Bereitstellung.

Nächste Schritte