Dataproc Metastore – Übersicht

Dataproc Metastore ist ein vollständig verwalteter Apache Hive-Metastore (HMS), der auf Google Cloudausgeführt wird. Ein HMS ist der etablierte Standard in der Open-Source-Big-Data-Umgebung zum Verwalten technischer Metadaten wie Schemas, Partitionen und Spaltenstatistiken in einer relationalen Datenbank.

Dataproc Metastore ist hochverfügbar, bietet automatische Reparatur und ist serverlos. Damit können Sie Data Lake-Metadaten verwalten und die Interoperabilität zwischen den verschiedenen Datenverarbeitungs-Engines und Tools, die Sie verwenden, sicherstellen.

Funktionsweise von Dataproc Metastore

Sie können einen Dataproc Metastore-Dienst verwenden, indem Sie ihn mit einem Managed Service for Apache Spark-Cluster verbinden. Ein Managed Service for Apache Spark-Cluster enthält Komponenten, die für die Abfrageplanung und -ausführung auf ein HMS angewiesen sind.

Durch diese Integration können Sie Tabelleninformationen zwischen Jobs beibehalten oder Metadaten für andere Cluster und andere Verarbeitungs-Engines verfügbar machen.

Wenn Sie beispielsweise einen Metastore implementieren, können Sie festlegen, dass eine Teilmenge Ihrer Dateien Umsatzdaten enthält, anstatt die Dateinamen manuell zu verfolgen. In diesem Fall können Sie eine Tabelle für diese Dateien definieren und die Metadaten in Dataproc Metastore speichern. Anschließend können Sie sie mit einem Managed Service for Apache Spark-Cluster verbinden und die Tabelle mit Hive, Spark SQL oder anderen Abfragediensten nach Informationen durchsuchen.

Dataproc Metastore-Versionen

Wenn Sie einen Dataproc Metastore-Dienst erstellen, können Sie einen Dataproc Metastore 2-Dienst oder einen Dataproc Metastore 1-Dienst verwenden.

  • Dataproc Metastore 2 ist die neue Generation des Dienstes, der zusätzlich zu den Funktionen von Dataproc Metastore 1 auch horizontale Skalierbarkeit bietet. Weitere Informationen

  • Dataproc Metastore 2 hat ein anderes Preismodell als Dataproc Metastore. Weitere Informationen finden Sie unter Preismodelle und Skalierungskonfigurationen.

Gängige Anwendungsfälle

Alle in diesem Abschnitt aufgeführten Anwendungsfälle werden von Dataproc Metastore 2 und Dataproc Metastore 1 unterstützt, sofern nicht anders angegeben.

  • Daten interpretieren Ein zentralisiertes Metadaten-Repository erstellen, das von vielen sitzungsspezifischen Managed Service for Apache Spark-Clustern gemeinsam verwendet wird. Verwenden Sie verschiedene Open-Source-Software-Engines (OSS), z. B. Apache Hive, Apache Spark und Presto.

  • Ganzheitliche Übersicht Ihrer Daten erstellen Interoperabilität zwischenGoogle Cloud -Diensten wie Managed Service for Apache Spark, Knowledge Catalog und BigQuery oder Verwendung anderer Open-Source-basierter Partnerangebote aufGoogle Cloud.

Features und Vorteile

Alle in diesem Abschnitt aufgeführten Funktionen werden von Dataproc Metastore 2 und Dataproc Metastore 1 unterstützt, sofern nicht anders angegeben.

  • OSS-Kompatibilität: Verbinden Sie sich mit Ihren vorhandenen Datenverarbeitungs-Engines wie Apache Hive, Apache Spark und Presto.

  • Verwaltung Erstellen oder aktualisieren Sie einen Metastore innerhalb von Minuten, komplett mit vollständig konfigurierten Monitoring- und Betriebsaufgaben.

  • Integration. Integration in andere Google Cloud Produkte, z. B. BigQuery als Metadatenquelle für einen Managed Service for Apache Spark-Cluster verwenden.

  • Integrierte Sicherheit: Verwenden Sie etablierte Google Cloud Sicherheitsprotokolle wie die Identitäts- und Zugriffsverwaltung (Identity and Access Management, IAM) und die Kerberos-Authentifizierung.

  • Einfacher Import: Vorhandene Metadaten, die in einem externen Hive-Metastore gespeichert sind, in einen Dataproc Metastore-Dienst importieren.

  • Automatische Back-ups Konfigurieren Sie automatische Metastore-Sicherungen, um Datenverlust zu vermeiden.

  • Leistungsüberwachung: Leistungsstufen so festlegen, dass sie dynamisch auf hochintensive Arbeitslasten und Spitzen reagieren, ohne Vorbereitung oder Caching.

  • Hochverfügbarkeit (HA):

    • Dataproc Metastore 2 Bietet zonale Hochverfügbarkeit (HA), ohne dass eine spezielle Konfiguration oder laufende Verwaltung erforderlich ist. Dies wird durch die automatische Replikation von Backend-Datenbanken und HMS-Servern in mehreren Zonen in der von Ihnen ausgewählten Region erreicht. Zusätzlich zur zonalen Hochverfügbarkeit unterstützt Dataproc Metastore 2 die regionale Hochverfügbarkeit und die Notfallwiederherstellung.
    • Dataproc Metastore 1 Standardmäßig wird zonale Hochverfügbarkeit (HA) bereitgestellt, ohne dass eine spezielle Konfiguration oder laufende Verwaltung erforderlich ist. Dies wird durch die automatische Replikation von Backend-Datenbanken und HMS-Servern in mehreren Zonen in der von Ihnen ausgewählten Region erreicht.

    Weitere Informationen zu regionsspezifischen Aspekten finden Sie unter Geografie und Regionen

  • Skalierbarkeit:

    • Dataproc Metastore 2 Mit einem horizontalen Skalierungsfaktor können Sie festlegen, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwenden muss. Der Skalierungsfaktor kann manuell gesteuert oder bei Bedarf auf „Autoscale“ (Automatische Skalierung) festgelegt werden.
    • Dataproc Metastore 1 Wählen Sie beim Einrichten Ihres Dienstes zwischen einer Entwickler- und einer Unternehmensstufe. Diese Stufe bestimmt, wie viele Ressourcen Ihr Dienst zu einem bestimmten Zeitpunkt verwenden muss.
  • Support Profitieren Sie von Standard- Google Cloud SLAs und Supportkanälen.

Einbindung in Google Cloud

Alle in diesem Abschnitt aufgeführten Integrationen werden von Dataproc Metastore 1 und Dataproc Metastore 2 unterstützt, sofern nicht anders angegeben.

  • Managed Service for Apache Spark Verbinden Sie sich mit einem Managed Service for Apache Spark-Cluster, damit Sie Metadaten für OSS-Big-Data-Arbeitslasten bereitstellen können.
  • BigQuery. Sie können BigQuery-Datasets in Ihren Managed Service for Apache Spark-Arbeitslasten abfragen.
  • Knowledge Catalog: Strukturierte und semistrukturierte Daten abfragen, die in einem Knowledge Catalog-Lake gefunden wurden.
  • Data Catalog Synchronisieren Sie Dataproc Metastore mit Data Catalog, um die Suche und Ermittlung von Metadaten zu ermöglichen.
  • Logging und Monitoring: Dataproc Metastore in Cloud Monitoring- und Cloud Logging-Produkte einbinden
  • Authentifizierung und IAM Verwenden Sie die standardmäßige OAuth-Authentifizierung, die von anderenGoogle Cloud -Produkten verwendet wird. Sie unterstützt die Verwendung detaillierter IAM-Rollen (Identity and Access Management), um die Zugriffssteuerung für einzelne Ressourcen zu ermöglichen.

Nächste Schritte