Dataproc Metastore ist ein vollständig verwalteter Apache Hive-Metastore (HMS), der in ausgeführt wird Google Cloud. Ein HMS ist der etablierte Standard in der Open-Source-Big-Data-Umgebung für die Verwaltung technischer Metadaten wie Schemas, Partitionen und Spaltenstatistiken in einer relationalen Datenbank.
Dataproc Metastore ist hochverfügbar, bietet automatische Reparatur und ist serverlos. Sie können damit Metadaten für Data Lakes verwalten und die Interoperabilität zwischen den verschiedenen von Ihnen verwendeten Datenverarbeitungs-Engines und ‑Tools ermöglichen.
Funktionsweise von Dataproc Metastore
Sie können einen Dataproc Metastore-Dienst verwenden, indem Sie ihn mit einem Managed Service for Apache Spark-Cluster verbinden. Ein Managed Service for Apache Spark-Cluster enthält Komponenten, die auf einem HMS basieren, um die Abfrageplanung und ‑ausführung zu steuern.
Mit dieser Integration können Sie Ihre Tabelleninformationen zwischen Jobs beibehalten oder Metadaten für andere Cluster und andere Verarbeitungs-Engines verfügbar machen.
Durch die Implementierung eines Metastores können Sie beispielsweise festlegen, dass eine Teilmenge Ihrer Dateien Umsatzdaten enthält, anstatt die Dateinamen manuell zu verfolgen. In diesem Fall können Sie eine Tabelle für diese Dateien definieren und die Metadaten in Dataproc Metastore speichern. Anschließend können Sie sie mit einem Managed Service for Apache Spark-Cluster verbinden und die Tabelle mit Hive, Spark SQL oder anderen Abfragediensten nach Informationen abfragen.
Dataproc Metastore-Versionen
Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.
Dataproc Metastore 2 ist die neue Generation des Dienstes, der zusätzlich zu den Funktionen von Dataproc Metastore 1 horizontale Skalierbarkeit bietet. Weitere Informationen finden Sie unter Features und Vorteile.
Dataproc Metastore 2 hat einen anderen Preisplan als Dataproc Metastore. Weitere Informationen finden Sie unter Preispläne und Skalierungskonfigurationen.
Gängige Anwendungsfälle
Alle in diesem Abschnitt aufgeführten Anwendungsfälle werden von Dataproc Metastore 2 und Dataproc Metastore 1 unterstützt, sofern nicht anders angegeben.
Daten Bedeutung zuweisen Erstellen Sie ein zentralisiertes Metadaten-Repository, das von vielen sitzungsspezifischen Managed Service for Apache Spark-Clustern gemeinsam genutzt wird. Verwenden Sie verschiedene Open-Source-Software-Engines (OSS), z. B. Apache Hive , Apache Spark und Presto.
Einheitliche Ansicht Ihrer Daten erstellen Ermöglichen Sie die Interoperabilität zwischen Google Cloud Diensten wie Managed Service for Apache Spark, Knowledge Catalog, und BigQuery oder nutzen Sie andere Open-Source-basierte Partnerangebote auf Google Cloud.
Features und Vorteile
Alle in diesem Abschnitt aufgeführten Funktionen werden von Dataproc Metastore 2 und Dataproc Metastore 1 unterstützt, sofern nicht anders angegeben.
OSS-Kompatibilität Verbinden Sie sich mit Ihren vorhandenen Datenverarbeitungs-Engines wie Apache Hive, Apache Spark und Presto.
Verwaltung Erstellen oder aktualisieren Sie einen Metastore innerhalb weniger Minuten, einschließlich vollständig konfigurierter Monitoring- und Betriebsaufgaben.
Integration Binden Sie andere Google Cloud Produkte ein, z. B. BigQuery als Metadatenquelle für einen Managed Service for Apache Spark Cluster.
Integrierte Sicherheit Verwenden Sie etablierte Google Cloud Sicherheitsprotokolle, wie die Identitäts- und Zugriffsverwaltung (Identity and Access Management, IAM) und die Kerberos-Authentifizierung.
Einfacher Import Importieren Sie vorhandene Metadaten, die in einem externen Hive-Metastore gespeichert sind, in einen Dataproc Metastore-Dienst.
Automatische Back-ups Konfigurieren Sie automatische Metastore-Back-ups, um Datenverlust zu vermeiden.
Leistungsüberwachung Legen Sie Leistungsstufen fest, um dynamisch auf hochintensive Arbeitslasten und Spitzen zu reagieren, ohne Vorbereitung oder Caching.
Hochverfügbarkeit (HA)
- Dataproc Metastore 2 Bietet zonale Hochverfügbarkeit (HA), ohne dass eine bestimmte Konfiguration oder laufende Verwaltung erforderlich ist. Dies wird durch die automatische Replikation von Back-End-Datenbanken und HMS-Servern in mehreren Zonen in der von Ihnen ausgewählten Region erreicht. Zusätzlich zur zonalen HA unterstützt Dataproc Metastore 2 regionale HA und Notfallwiederherstellung (Disaster Recovery, DR).
- Dataproc Metastore 1 Bietet standardmäßig zonale Hochverfügbarkeit (HA), ohne dass eine bestimmte Konfiguration oder laufende Verwaltung erforderlich ist. Dies wird durch die automatische Replikation von Back-End-Datenbanken und HMS-Servern in mehreren Zonen in der von Ihnen ausgewählten Region erreicht.
Weitere Informationen zu regionsspezifischen Aspekten finden Sie unter Geografie und Regionen.
Skalierbarkeit
- Dataproc Metastore 2 Verwenden Sie einen horizontalen Skalierungsfaktor, um zu bestimmen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwenden muss. Der Skalierungsfaktor kann manuell gesteuert oder bei Bedarf auf automatische Skalierung festgelegt werden.
- Dataproc Metastore 1 Wählen Sie beim Einrichten Ihres Dienstes zwischen einer Entwickler- und einer Unternehmensstufe aus. Diese Stufe bestimmt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwenden muss.
Support Profitieren Sie von Standard- Google Cloud SLAs und Supportkanälen.
Integrationen mit Google Cloud
Alle in diesem Abschnitt aufgeführten Integrationen werden von Dataproc Metastore 1 und Dataproc Metastore 2 unterstützt, sofern nicht anders angegeben.
- Managed Service for Apache Spark Verbinden Sie sich mit einem Managed Service for Apache Spark-Cluster, um Metadaten für OSS-Big-Data-Arbeitslasten bereitzustellen.
- BigQuery Fragen Sie BigQuery-Datasets in Ihren Managed Service for Apache Spark-Arbeitslasten ab.
- Knowledge Catalog Fragen Sie strukturierte und halbstrukturierte Daten ab, die in einem Knowledge Catalog-Lake gefunden wurden.
- Data Catalog Synchronisieren Sie Dataproc Metastore mit Data Catalog, um die Suche und Erkennung von Metadaten zu ermöglichen.
- Logging und Monitoring Binden Sie Dataproc Metastore in Cloud Monitoring- und Cloud Logging-Produkte ein.
- Authentifizierung und IAM Verwenden Sie die standardmäßige OAuth-Authentifizierung, die von anderen Google Cloud Produkten verwendet wird. Sie unterstützt die Verwendung detaillierter Identity and Access Management-Rollen, um die Zugriffssteuerung für einzelne Ressourcen zu ermöglichen.
Nächste Schritte
- Beginnen Sie mit der Kurzanleitung Dataproc Metastore-Dienst bereitstellen.
- Informationen zu den Preisen von Dataproc Metastore.
- Informationen zu Kontingenten und Limits für Dataproc Metastore.
- Lesen Sie die Versionshinweise zu Dataproc Metastore.
- Greifen Sie über die Google Cloud Console, die Google Cloud CLI oder die Dataproc Metastore API auf Dataproc Metastore zu.