Esta página descreve como o metastore do Dataproc oferece suporte ao protocolo Kerberos.
Kerberos é um protocolo de autenticação de rede projetado para fornecer autenticação forte para aplicativos cliente e servidor usando criptografia de chave secreta. Ele é comumente usado entre a pilha do Hadoop para autenticação em todo o ecossistema de software.
É possível configurar o Kerberos nos seguintes serviços do metastore do Dataproc:
- Um serviço do metastore do Dataproc que usa o protocolo de endpoint Thrift.
- Um serviço do metastore do Dataproc que usa o protocolo de endpoint gRPC.
O processo de configuração do Kerberos é diferente para cada tipo de serviço.
Recursos necessários do Kerberos
A seção a seguir fornece informações gerais sobre os recursos do Kerberos que você precisa configurar para um serviço do metastore do Dataproc.
KDC do Kerberos
Um KDC do Kerberos é obrigatório. É possível usar o KDC local de um cluster do Serviço Gerenciado para Apache Spark ou criar e hospedar seu próprio.
Principal do Kerberos
Ao configurar o Kerberos para um serviço do metastore do Dataproc, você gera o arquivo principal usando um cluster do Serviço Gerenciado para Apache Spark.
Arquivo do Keytab
Um arquivo keytab contém pares de principais do Kerberos e chaves criptografadas, que são usadas para autenticar um principal de serviço com um KDC do Kerberos.
Ao configurar o Kerberos para um serviço do metastore do Dataproc, você gera o arquivo keytab usando um cluster do Serviço Gerenciado para Apache Spark.
O arquivo keytab gerado contém o nome e o local do principal de serviço do metastore do Hive.
O arquivo keytab gerado é armazenado automaticamente em um Google Cloud Secret Manager.
A chave secreta do Secret Manager fornecida precisa ser fixada a uma versão do secret específica. É necessário especificar a versão do secret que você quer usar. O metastore do Dataproc não escolhe a versão mais recente automaticamente.
Arquivo krb5.conf
Um arquivo krb5.conf válido contém informações de configuração do Kerberos, como o IP do KDC, a porta e o nome do realm.
Ao configurar o Kerberos para um serviço do metastore do Dataproc, você gera o arquivo keytab usando um cluster do Serviço Gerenciado para Apache Spark.
- Ao configurar o arquivo
krb5.conf, especifique o IP do KDC que pode ser acessado na rede pareada. Não especifique o FQDN do KDC. - Se você estiver usando o endpoint Thrift, armazene o arquivo em um bucket do Cloud Storage. É possível usar um bucket atual ou criar um novo.
A seguir
- Crie um serviço do metastore do Dataproc que use o protocolo de endpoint Thrift.
- Crie um serviço do metastore do Dataproc que use o protocolo de endpoint gRPC.