Criar e proteger um cluster do metastore do Hive

Visão geral

Quando você cria um cluster do Serviço Gerenciado para Apache Spark, o aplicativo Apache Hive e os componentes dele, incluindo o metastore do Hive, são instalados no cluster. Uma senha padrão é definida no arquivo hive-site.xml localizado no nó mestre do cluster.

Recomendamos especificar sua própria senha do metastore do Hive para alcançar os seguintes objetivos:

  • Como uma prática recomendada de segurança para garantir que você controle o acesso ao metastore Hive local fornecendo sua própria senha

  • Para especificar uma senha conhecida que controla o acesso a metastores do Hive externos usados com bancos de dados externos compartilhados entre diferentes clusters

Definir a senha do metastore do Hive

Execute o comando gcloud CLI Managed Service for Apache Spark clusters create para criar um cluster do Serviço Gerenciado para Apache Spark e especificar uma senha do metastore do Hive.

gcloud dataproc clusters create cluster-name
 --properties="hive:javax.jdo.option.ConnectionPassword=HIVE_METASTORE_PASSWORD"

Observações:

  • Consulte Criar uma chave para criar uma chave no Cloud Key Management Service.
  • A senha do metastore do Hive é armazenada apenas nos nós mestre do cluster, não nos nós de trabalho.

Para mais informações sobre como proteger clusters do Serviço Gerenciado para Apache Spark, consulte Práticas recomendadas de segurança do Serviço Gerenciado para Apache Spark.

Cenários sem suporte

O Serviço Gerenciado para Apache Spark não oferece suporte aos seguintes cenários de metastore Hive, independente de você usar a senha padrão ou uma fornecida pelo usuário:

  • Você usa um cliente metastore incorporado no driver do Spark em execução no modo de cluster, para que os nós de trabalho exijam senhas do Hive. Esse cenário pode causar problemas de conectividade com o banco de dados metastore, já que a conexão não é feita pelo processo HiveMetaStore em execução no nó principal do Serviço Gerenciado para Apache Spark.

  • Você desativa o metastore do Hive e hive-server2 para usar seu próprio banco de dados MySQL. Nesse cenário, a propriedade spark.hadoop.javax.jdo.option.ConnectionURL=jdbc:mysql://CLUSTER_NAME-m/metastore não tem efeito.