A multilocação segura com base na conta de serviço do Dataproc permite compartilhar um cluster com vários usuários, com um conjunto de contas de usuário mapeadas para contas de serviço quando o cluster é criado. Os usuários podem enviar cargas de trabalho interativas como o notebook do Jupyter, para kernels em execução no cluster multilocatário com ambientes de usuário isolados.
Quando um usuário envia um job para o cluster multilocatário:
O job é executado como um usuário específico do SO com uma versão específica do Kerberos.
O job acessa Google Cloud recursos usando uma conta de serviço mapeada.
Este documento mostra como criar um cluster multilocatário do Dataproc e, em seguida, iniciar e conectar um notebook do Jupyter a um kernel do PySpark em execução no cluster.
Considerações e limitações
Ao criar um cluster multilocatário:
O cluster está disponível apenas para usuários da Conta do Google com contas de serviço mapeadas. Não é possível mapear grupos do Google. Os usuários não mapeados não podem executar jobs no cluster.
O Kerberos está ativado e configurado no cluster para proteger a comunicação intracluster. A autenticação do usuário final pelo Kerberos não é compatível.
O acesso SSH direto ao cluster e aos recursos do Compute Engine, como a execução de scripts de inicialização em VMs do cluster, é bloqueado. Além disso, os jobs não podem ser executados com
sudoprivilégios.Os fluxos de trabalho do Dataproc não são compatíveis.
Criar um cluster multilocatário
Você ativa o recurso multilocatário ao criar um cluster do Dataproc.
Console
Crie um cluster do Dataproc usando o Google Cloud console, da seguinte maneira:
No Google Cloud console, acesse a página Criar um cluster do Dataproc no Compute Engine: Criar um cluster do Dataproc no Compute Engine
No painel Configurar cluster:
- Em Componentes:
- Em Gateway de componentes, selecione Ativar gateway de componentes.
- Em Componentes opcionais, selecione Gateway de kernel do Jupyter para permitir que vários usuários conectem os notebooks do Jupyter ao cluster multilocatário.
- Em Componentes:
No painel Personalizar cluster:
Em Propriedades do cluster:
Para permitir a adição ou remoção de usuários multilocatários sem recriar o cluster (consulte Atualizar usuários de cluster multilocatário), clique em Adicionar propriedades, e adicione o prefixo
dataproc, a propriedadedataproc.dynamic.multi.tenancy.enabled, e defina o valor dela comotrue.Recomendação: como o YARN consome recursos significativos do cluster para cada kernel de notebook em execução em um cluster multilocatário, adicione propriedades do Spark e do YARN para aumentar a alocação de recursos.
Exemplo:
Prefixo Chave Valor spark spark.driver.memory 5g spark spark.executor.memory 5g spark spark.executor.cores 2 capacity-scheduler yarn.scheduler.capacity.maximum-am-resource-percent 0,5
No painel Gerenciar segurança:
- Em Acesso ao projeto, selecione Ativa o escopo da plataforma de nuvem para este cluster.
- Em Multilocação segura:
- Selecione Ativar.
- Em Mapeamento multilocatário:
- Clique em Adicionar mapeamento multilocatário para adicionar mapeamentos de contas de usuário a contas de serviço.
Confirme ou insira outras configurações de cluster (consulte Criar um cluster do Dataproc usando o Google Cloud console).
Clique em Criar.
gcloud
Use o gcloud dataproc clusters create command com a
--secure-multi-tenancy-user-mapping
flag para especificar uma lista de mapeamentos de conta de usuário para conta de serviço.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --secure-multi-tenancy-user-mapping=USER_MAPPINGS: \ --properties "dataproc:dataproc.dynamic.multi.tenancy.enabled=true" \ --service-account=CLUSTER_SERVICE_ACCOUNT@iam.gserviceaccount.com \ --scopes=https://www.googleapis.com/auth/iam \ --optional-components=JUPYTER_KERNEL_GATEWAY \ --enable-component-gateway \ other args ...
Observações:
USER_MAPPINGS: especifique uma lista separada por vírgulas que mapeia contas de usuário para contas de serviço.
Usar um arquivo de mapeamento YAML: Em vez de usar a--secure-multi-tenancy-user-mapping=UserA@my-company.com:SERVICE_ACCOUNT_FOR_USERA@iam.gserviceaccount.com,UserB@my-company.com:SERVICE_ACCOUNT_FOR_USERB@iam.gserviceaccount.com,UserC@my-company.com:SERVICE_ACCOUNT_FOR_USERC@iam.gserviceaccount.com
--secure-multi-tenancy-user-mappingflag para especificar os mapeamentos de conta de usuário para conta de serviço, use a--identity-config-fileflag para especificar um arquivo YAML local ou do Cloud Storage que contenha os mapeamentos. Cada linha no arquivo de mapeamento mapeia uma conta de usuário para uma conta de serviço. A primeira linha contém o cabeçalho--identity-config-file=LOCAL_FILE or gs://BUCKET/FOLDER/FILENAME
user_service_account_mapping:.user_service_account_mapping: UserA@my-company.com:SERVICE_ACCOUNT_FOR_USERA@iam.gserviceaccount.com UserB@my-company.com:SERVICE_ACCOUNT_FOR_USERB@iam.gserviceaccount.com UserC@my-company.com:SERVICE_ACCOUNT_FOR_USERC@iam.gserviceaccount.com
--properties "dataproc:dataproc.dynamic.multi.tenancy.enabled=true": Esta propriedade permite adicionar ou remover usuários de cluster multilocatário sem recriar o cluster (consulte Atualizar usuários de cluster multilocatário).Recomendação: como o YARN consome recursos significativos do cluster para cada kernel de notebook em execução em um cluster multilocatário, adicione propriedades do Spark e do YARN para aumentar a alocação de recursos.
Exemplo:
--properties=" \ spark:spark.driver.memory=5g,\ spark:spark.executor.memory=5g,\ spark:spark.executor.cores=200, \ capacity-scheduler:yarn.scheduler.capacity.maximum-am-resource-percent=0.5"
CLUSTER_SERVICE_ACCOUNT (opcional): é possível usar
--service-account flagpara especificar uma conta de serviço de VM personalizada para o cluster. Se você omitir essa flag, a conta de serviço de VM do cluster padrão,PROJECT_NUMBER-compute@developer.gserviceaccount.com, será usada.Recomendação: use contas de serviço de VM de cluster diferentes para clusters diferentes, permitindo que cada conta de serviço de VM de cluster represente apenas um grupo limitado de contas de serviço de usuário mapeadas.
--scopes=https://www.googleapis.com/auth/iamé necessário para que a conta de serviço do cluster execute a representação.--enable-component-gatewaye--optional-components=JUPYTER_KERNEL_GATEWAY: a ativação do gateway de componentes do Dataproc e do gateway de kernel do Jupyter permite que vários usuários conectem os notebooks do Jupyter ao cluster multilocatário.
API
Use o SecurityConfig.IdentityConfig.userServiceAccountMapping field
para especificar uma lista de mapeamentos de conta de usuário para conta de serviço.
Conceder permissões de gerenciamento de identidade e acesso
Para conectar notebooks de usuário a kernels de notebook em execução em um cluster multilocatário , os usuários mapeados, as contas de serviço mapeadas e a conta de serviço de VM do cluster precisam ter as permissões do IAM necessárias para acessar os recursos.
Permissões de usuário mapeadas
Cada usuário mapeado precisa ter asdataproc.clusters.get e dataproc.clusters.use
permissões, que são necessárias para que o usuário acesse e se conecte aos kernels de notebook
em execução no cluster multilocatário. É possível conceder o
papel Editor do Dataproc (roles/dataproc.editor),
que contém essas permissões (consulte Conceder um único papel do IAM),
ou criar um papel personalizado com essas
permissões.
Permissões de conta de serviço mapeadas
Cada conta de serviço mapeada precisa ter as permissões necessárias para o aplicativo de notebook do usuário mapeado, como acesso a um bucket do Cloud Storage ou a uma tabela do BigQuery (consulte Gerenciar o acesso a contas de serviço).
Permissões da conta de serviço da VM
A conta de serviço de VM do cluster multilocatário
precisa ter a iam.serviceAccounts.getAccessToken permissão
em cada conta de serviço mapeada. É possível conceder o
papel Criador do token da conta de serviço (roles/iam.serviceAccountTokenCreator), que contém essa permissão (consulte Gerenciar o acesso a contas de serviço),
ou criar um papel personalizado com essa permissão.
Consulte Conta de serviço de VM do Dataproc
para informações sobre outros papéis de conta de serviço de VM.
Conectar notebooks do Jupyter a um kernel de cluster multilocatário
Os usuários de cluster multilocatário mapeados podem conectar o Vertex AI Workbench ou o notebook do Jupyter gerenciado pelo usuário aos kernels instalados no cluster multilocatário.
Notebook da Vertex AI
Para criar e conectar um notebook do Jupyter ao cluster multilocatário, faça o seguinte:
- Crie uma instância do Vertex AI Workbench.
- Na guia "Instâncias do Workbench", clique no link "Abrir JupyterLab" da sua instância.
- Em Notebooks de cluster do Dataproc, clique no
PySpark (cluster YARN) em
MULTI_TENANCY_CLUSTER_NAMEcard para se conectar e iniciar um novo notebook do Jupyter PySpark.
Notebook gerenciado pelo usuário
Para criar e conectar um notebook do Jupyter gerenciado pelo usuário ao cluster multilocatário do Dataproc, siga as etapas para instalar a extensão JupyterLab na VM gerenciada pelo usuário.
Atualizar usuários de cluster multilocatário (visualização)
Se você definir a propriedade de cluster dataproc:dataproc.dynamic.multi.tenancy.enabled
como true ao criar um cluster multilocatário,
será possível adicionar, remover ou substituir usuários de cluster multilocatário após a criação do cluster.
Adicionar usuários
O comando de atualização a seguir usa a flag --add-user-mappings para adicionar duas novas
contas de usuário aos mapeamentos de conta de serviço no cluster multilocatário seguro.
gcloud dataproc clusters update CLUSTER_NAME \ --region=REGION \ --add-user-mappings=new-user1@my-company.com=SERVICE_ACCOUNT_FOR_NEW_USER1@iam.gserviceaccount.com,new-user2@my-company.com=SERVICE_ACCOUNT_FOR_NEW_USER2@iam.gserviceaccount.com
Remover usuários
O comando de atualização a seguir usa a flag --remove-user-mappings para remover dois
usuários do cluster multilocatário. A flag aceita as
contas de usuário das pessoas a serem removidas.
gcloud dataproc clusters update CLUSTER_NAME \ --region=REGION \ --remove-user-mappings=UserB@my-company.com,UserC@my-company.com
Substituir usuários
É possível usar o comando de atualização com a flag --identity-config-file
para substituir o conjunto de usuários atual por um novo. Essa flag é útil para
adicionar e remover usuários com um comando de atualização.
gcloud dataproc clusters update CLUSTER_NAME \ --region=REGION \ --identity-config-file=identity-config.yaml
Observações:
--identity-config-file: especifique um arquivo YAML local ou do Cloud Storage que contenha os novos mapeamentos de conta de usuário para conta de serviço. Cada linha no arquivo de mapeamento mapeia uma conta de usuário para uma conta de serviço. A primeira linha contém o cabeçalho--identity-config-file=LOCAL_FILE or gs://BUCKET/FOLDER/FILENAME
user_service_account_mapping:.user_service_account_mapping: new-user1@my-company.com:SERVICE_ACCOUNT_FOR_NEW_USER1@iam.gserviceaccount.com new-user2@my-company.com:SERVICE_ACCOUNT_FOR_NEW_USER2@iam.gserviceaccount.com