Hive-Metastore-Cluster erstellen und sichern

Übersicht

Wenn Sie einen Dataproc-Cluster erstellen, werden die Apache Hive-Anwendung und ihre Komponenten, einschließlich des Hive-Metastore, auf dem Cluster installiert. Außerdem wird in der hive-site.xml Datei auf dem Masterknoten des Clusters ein Standardpasswort festgelegt.

Es wird empfohlen, ein eigenes Hive-Metastore-Passwort anzugeben, um die folgenden Ziele zu erreichen:

  • Als bewährte Sicherheitsmaßnahme, um den Zugriff auf den lokalen Hive-Metastore zu steuern, indem Sie ein eigenes Passwort angeben

  • Ein bekanntes Passwort angeben, das den Zugriff auf externe Hive-Metastores steuert, die mit externen Datenbanken verwendet werden, die von verschiedenen Clustern gemeinsam genutzt werden

Hive-Metastore-Passwort festlegen

Führen Sie den folgenden Google Cloud CLI-Befehl zum Erstellen von Dataproc-Clustern aus, um einen Dataproc-Cluster zu erstellen und ein Hive Metastore-Passwort anzugeben.

gcloud dataproc clusters create cluster-name
 --properties="hive:javax.jdo.option.ConnectionPassword=HIVE_METASTORE_PASSWORD"

Hinweise:

  • Informationen zum Erstellen eines Schlüssels in Cloud Key Management Service finden Sie unter Schlüssel erstellen.
  • Das Hive-Metastore-Passwort wird nur auf den Masterknoten des Clusters und nicht auf den Worker-Knoten gespeichert.

Weitere Informationen zum Sichern von Dataproc-Clustern finden Sie unter Best Practices für die Sicherheit von Dataproc.

Nicht unterstützte Szenarien

Dataproc unterstützt die folgenden Hive-Metastore-Szenarien nicht, unabhängig davon, ob Sie das Standardpasswort oder ein vom Nutzer angegebenes Hive-Metastore-Passwort verwenden:

  • Sie verwenden einen eingebetteten Metastore-Client im Spark-Treiber, der im Clustermodus ausgeführt wird, sodass die Worker-Knoten Hive-Passwörter benötigen. In diesem Szenario können Verbindungsprobleme mit der Metastore-Datenbank auftreten, da die Verbindung nicht über den HiveMetaStore Prozess hergestellt wird, der auf dem Dataproc-Masterknoten ausgeführt wird.

  • Sie deaktivieren Hive-Metastore und hive-server2, um Ihre eigene MySQL-Datenbank zu verwenden. In diesem Szenario hat die spark.hadoop.javax.jdo.option.ConnectionURL=jdbc:mysql://CLUSTER_NAME-m/metastore Property keine Auswirkungen.