Crea y protege un clúster de Hive metastore

Descripción general

Cuando creas un clúster de Managed Service para Apache Spark, la aplicación Apache Hive y sus componentes, incluido el metastore de Hive, se instalan en el clúster y se establece una contraseña predeterminada en el archivo hive-site.xml ubicado en la instancia principal del clúster.

Se recomienda especificar tu propia contraseña del almacén de metadatos de Hive para lograr los siguientes objetivos:

  • Como medida de seguridad recomendada para garantizar que controles el acceso al almacén de metadatos de Hive local proporcionando tu propia contraseña

  • Para especificar una contraseña conocida que controle el acceso a los almacenes de metadatos de Hive externos que se usan con bases de datos externas que se comparten entre diferentes clústeres

Establece la contraseña del almacén de metadatos de Hive

Ejecuta el siguiente comando de Google Cloud CLI Managed Service para Apache Spark clusters create para crear un clúster de Managed Service para Apache Spark y especificar una contraseña del almacén de metadatos de Hive.

gcloud dataproc clusters create cluster-name
 --properties="hive:javax.jdo.option.ConnectionPassword=HIVE_METASTORE_PASSWORD"

Notas:

  • Consulta Crea una clave para crear una clave en Cloud Key Management Service.
  • La contraseña del almacén de metadatos de Hive solo se almacena en los nodos instancia principal del clúster, no en los nodos trabajadores.

Para obtener información adicional sobre la protección de clústeres de Managed Service para Apache Spark, consulta Prácticas recomendadas de seguridad de Managed Service para Apache Spark.

Situaciones no admitidas

Managed Service para Apache Spark no admite las siguientes situaciones del almacén de metadatos de Hive, independientemente de si usas la contraseña predeterminada o una contraseña del almacén de metadatos de Hive proporcionada por el usuario:

  • Usas un cliente de almacén de metadatos incorporado en el controlador de Spark que se ejecuta en el modo de clúster, de modo que los nodos trabajadores requieren contraseñas de Hive. Esta situación puede causar problemas de conectividad con la base de datos del almacén de metadatos, ya que la conexión no se realiza a través del proceso HiveMetaStore que se ejecuta en el nodo principal de Managed Service para Apache Spark.

  • Desactivas el almacén de metadatos de Hive y hive-server2 para usar tu propia base de datos de MySQL. En esta situación, la spark.hadoop.javax.jdo.option.ConnectionURL=jdbc:mysql://CLUSTER_NAME-m/metastore propiedad no tiene efecto.