Esta página foi traduzida pela API Cloud Translation.

Configurar o Dataproc Hub

O Dataproc Hub é um servidor JupyterHub personalizado. Os administradores configuram e criam instâncias do Dataproc Hub que podem gerar clusters do Dataproc de usuário único para hospedar ambientes de notebook Jupyter e JupyterLab (consulte Usar o Dataproc Hub).

Iniciar notebooks para vários usuários. É possível criar uma instância do Vertex AI Workbench compatível com o Dataproc ou instalar o plug-in JupyterLab do Dataproc em uma VM para disponibilizar notebooks a vários usuários.

Objetivos

Defina uma configuração de cluster do Dataproc ou use um dos arquivos de configuração predefinidos.
Definir variáveis de ambiente da instância do Dataproc Hub.
Crie uma instância do Dataproc Hub

Antes de começar

Se ainda não tiver feito isso, crie um projeto do Google Cloud e um bucket do Cloud Storage.

Como configurar o projeto

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Install the Google Cloud CLI.

Ao usar um provedor de identidade (IdP) externo, primeiro faça login na gcloud CLI com sua identidade federada.

Para inicializar a gcloud CLI, execute o seguinte comando:

gcloud init

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Install the Google Cloud CLI.

Ao usar um provedor de identidade (IdP) externo, primeiro faça login na gcloud CLI com sua identidade federada.

Para inicializar a gcloud CLI, execute o seguinte comando:

gcloud init

Como criar um bucket do Cloud Storage em seu projeto para armazenar os dados usados neste tutorial.
1. In the Google Cloud console, go to the Cloud Storage Buckets page.
  Go to Buckets
2. Click Create.
3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
  1. In the Get started section, do the following:
    - Enter a globally unique name that meets the bucket naming requirements.
    - To add a bucket label, expand the Labels section (), click Add label, and specify a key and a value for your label.
  2. In the Choose where to store your data section, do the following:
    1. Select a Location type.
    2. Choose a location where your bucket's data is permanently stored from the Location type drop-down menu.
      - If you select the dual-region location type, you can also choose to enable turbo replication by using the relevant checkbox.
    3. To set up cross-bucket replication, select Add cross-bucket replication via Storage Transfer Service and follow these steps:
      Set up cross-bucket replication
      
      In the Bucket menu, select a bucket.
      
      In the Replication settings section, click Configure to configure settings for the replication job.
      
      The Configure cross-bucket replication pane appears.
      
      To filter objects to replicate by object name prefix, enter a prefix that you want to include or exclude objects from, then click Add a prefix.
      
      To set a storage class for the replicated objects, select a storage class from the Storage class menu. If you skip this step, the replicated objects will use the destination bucket's storage class by default.
      
      Click Done.
  3. In the Choose how to store your data section, do the following:
    1. Select a default storage class for the bucket or Autoclass for automatic storage class management of your bucket's data.
    2. To enable hierarchical namespace, in the Optimize storage for data-intensive workloads section, select Enable hierarchical namespace on this bucket.
      Note: You cannot enable hierarchical namespace in existing buckets.
  4. In the Choose how to control access to objects section, select whether or not your bucket enforces public access prevention, and select an access control method for your bucket's objects.
    Note: You cannot change the Prevent public access setting if this setting is enforced at an organization policy.
  5. In the Choose how to protect object data section, do the following:
    - Select any of the options under Data protection that you want to set for your bucket.
      - To enable soft delete, click the Soft delete policy (For data recovery) checkbox, and specify the number of days you want to retain objects after deletion.
      - To set Object Versioning, click the Object versioning (For version control) checkbox, and specify the maximum number of versions per object and the number of days after which the noncurrent versions expire.
      - To enable the retention policy on objects and buckets, click the Retention (For compliance) checkbox, and then do the following:
        
        To enable Object Retention Lock, click the Enable object retention checkbox.
        
        To enable Bucket Lock, click the Set bucket retention policy checkbox, and choose a unit of time and a length of time for your retention period.
    - To choose how your object data will be encrypted, expand the Data encryption section (), and select a Data encryption method.
4. Click Create.

Defina uma configuração de cluster

Uma instância do Dataproc Hub cria um cluster a partir de valores de configuração contidos em um arquivo de configuração de cluster YAML.

Configurações de cluster predefinidas: é possível usar os seguintes arquivos de configuração predefinidos, localizados no Cloud Storage:

Configuração example-cluster: configura um cluster de componentes padrão do Jupyter com um nó mestre e dois nós de trabalho
Configuração example-single-node: configura um cluster de componente Jupyter com um nó

Para visualizar esses arquivos de configuração públicos do Cloud Storage, execute:

gcloud storage cat gs://dataproc-spawner-dist/example-configs/example-cluster.yaml
gcloud storage cat gs://dataproc-spawner-dist/example-configs/example-single-node.yaml

Crie um hub de início rápido. Para criar um hub usando as configurações de cluster predefinidas, pule para Criar uma instância do Dataproc Hub. O local do Cloud Storage para as configurações de cluster predefinidas, listadas acima, é o valor padrão do campo da variável de ambiente DATAPROC_CONFIGS.

A configuração do cluster pode especificar qualquer recurso ou componente disponível para clusters do Dataproc (como tipo de máquina, ações de inicialização e componentes opcionais). A versão da imagem do cluster precisa ser 1.4.13 ou superior. A tentativa de gerar um cluster com uma versão de imagem anterior à 1.4.13 causará um erro e falhará.

Amostra do arquivo de configuração do cluster YAML

clusterName: cluster-name
config:
  softwareConfig:
    imageVersion: 2.2-ubuntu22
    optionalComponents:
    - JUPYTER

Cada configuração precisa ser salva no Cloud Storage. É possível criar e salvar vários arquivos de configuração para oferecer aos usuários uma opção quando eles usarem o Dataproc Hub para criar o ambiente de notebook do cluster do Dataproc.

Há duas maneiras de criar um arquivo de configuração de cluster YAML:

Crie um arquivo de configuração de cluster YAML no console
Exporte um arquivo de configuração de cluster YAML de um cluster existente

Crie um arquivo de configuração de cluster YAML no console

Abra a página Criar um cluster no console do Google Cloud e selecione e preencha os campos para especificar o tipo de cluster que será gerado pelo Dataproc Hub para os usuários.
As configurações de região e zona serão modificadas quando o cluster do usuário for gerado: a região do cluster gerado será a região em que o Dataproc Hub está localizado, e o usuário selecionará uma zona dentro dessa região.
1. Na parte inferior do painel esquerdo, selecione "REST equivalente".
2. Copie o bloco JSON gerado excluindo a linha de solicitação POST principal e cole o bloco JSON em um conversor online de JSON para YAML (pesquise "Converter JSON em YAML").
  Alguns conversores JSON para YAML geram uma primeira linha contendo "---". A inclusão dessa linha no arquivo YAML é opcional.
3. Copie o YAML convertido em um arquivo cluster-config-filename .yaml local.

Exporte um arquivo de configuração de cluster YAML de um cluster existente

Crie um cluster que corresponda aos seus requisitos.

Exporte a configuração do cluster para um arquivo yaml cluster-config-filename local.

gcloud dataproc clusters export cluster-name \
    --destination cluster-config-filename.yaml  \
    --region region

Salve o arquivo de configuração YAML no Cloud Storage

Copie o arquivo de configuração do cluster YAML local para o bucket do Cloud Storage.

gcloud storage cp cluster-config-filename.yaml gs://bucket-name/

Defina variáveis de ambiente da instância do Dataproc Hub

O administrador pode definir as variáveis de ambiente do hub listadas na tabela abaixo para definir os atributos dos clusters do Dataproc que serão gerados pelos usuários do hub.

Variável	Descrição	Exemplo
NOTEBOOKS_LOCATION	Bucket do Cloud Storage ou pasta do bucket que contém notebooks do usuário. O prefixo "gs://" é opcional. Padrão: o bucket de preparo do Dataproc	gs://`bucket-name`/
DATAPROC_CONFIGS	Lista delimitada por vírgulas de strings dos caminhos do Cloud Storage para arquivos de configuração do cluster YAML. O prefixo "gs://" é opcional. Padrão: `gs://dataproc-spawner-dist/example-configs/`. que contém `example-cluster.yaml` e `example-single-node.yaml` predefinidos.	gs://`cluster-config-filename`.yaml
DATAPROC_LOCATIONS_LIST	Sufixos de zona na região em que a instância do Dataproc Hub está localizada. Os usuários podem selecionar uma dessas zonas como a zona em que o cluster do Dataproc será gerado. Padrão: "b".	b, c, d
DATAPROC_DEFAULT_SUBNET	Sub-rede em que a instância do Dataproc Hub gerará clusters do Dataproc. Padrão: a sub-rede da instância do Dataproc Hub.	https://www.googleapis.com/compute/v1/projects/`project-id`/regions/`region`/subnetworks/`subnet-name`
DATAPROC_SERVICE_ACCOUNT	Conta de serviço em que as VMs do Dataproc serão executadas. Padrão: se não for definida, a conta de serviço padrão do Dataproc será usada.	`service-account`@`project-id`.iam.gserviceaccount.com
SPAWNER_DEFAULT_URL	Se a IU do Jupyter ou do JupyterLab será exibida em clusters gerados pelo Dataproc por padrão. Padrão: "/lab".	"/" ou "/lab" para Jupyter ou JupyterLab, respectivamente.
DATAPROC_ALLOW_CUSTOM_CLUSTERS	Se os usuários podem personalizar os clusters do Dataproc. Padrão: falso.	"verdadeiro" ou "falso"
DATAPROC_MACHINE_TYPES_LIST	Lista de tipos de máquinas que os usuários podem escolher para os clusters gerados pelo Dataproc, se a personalização do cluster (DATAPROC_ALLOW_CUSTOM_CLUSTERS) estiver ativada. Padrão:vazio (todos os tipos de máquina são permitidos).	n1-standard-4,n1-standard-8,e2-standard-4,n1-highcpu-4
NOTEBOOKS_EXAMPLES_LOCATION	Caminho do Cloud Storage para o bucket de notebooks ou a pasta do bucket a ser baixada para o cluster do Dataproc gerado quando o cluster for iniciado. Padrão: vazio.	gs://`bucket-name`/

Como definir variáveis de ambiente do hub

Há duas maneiras de definir variáveis de ambiente do hub:

Definir as variáveis de ambiente do hub no console
Definir as variáveis de ambiente do hub em um arquivo de texto

Definir variáveis de ambiente do hub no console

Ao criar uma instância do Dataproc Hub na guia Notebooks gerenciados pelo usuário da página Dataproc→Workbench no console do Google Cloud , clique no botão Preencher para abrir um formulário Preencher o Dataproc Hub que permite definir cada variável de ambiente.

Definir variáveis de ambiente do hub em um arquivo de texto

Crie o arquivo. É possível usar um editor de texto para definir variáveis de ambiente da instância do Dataproc Hub em um arquivo local. Como alternativa, crie o arquivo executando o seguinte comando depois de preencher os valores do marcador e alterar ou adicionar variáveis e seus valores.
```
cat <<EOF > environment-variables-file
DATAPROC_CONFIGS=gs://bucket/cluster-config-filename.yaml
NOTEBOOKS_LOCATION=gs://bucket/notebooks
DATAPROC_LOCATIONS_LIST=b,c
EOF
```
Salve o arquivo no Cloud Storage. Copie o arquivo local de variáveis de ambiente da instância do Dataproc Hub para o bucket do Cloud Storage.
```
gcloud storage cp environment-variable-filename gs://bucket-name/folder-name/
```

Definir papéis de gerenciamento de identidade e acesso (IAM, na sigla em inglês)

O Dataproc Hub inclui as seguintes identidades com as seguintes capacidades:

Administrador: cria uma instância do Dataproc Hub
Usuário de dados e ML: acessa a IU do Dataproc Hub
Conta de serviço do Dataproc Hub: representa o Dataproc Hub
Conta de serviço do Dataproc: representa o cluster do Dataproc que o Dataproc Hub cria.

Cada identidade requer papéis ou permissões específicas para realizar as tarefas associadas. A tabela abaixo resume os papéis e permissões do IAM exigidos por cada identidade.

Identidade	Tipo	Papel ou permissão
Administrador do Dataproc Hub	Usuário ou conta de serviço	roles/notebooks.admin
Usuário do Dataproc Hub	Usuário	notebooks.instances.use, dataproc.clusters.use
Dataproc Hub	Conta de serviço	roles/dataproc.hubAgent
Dataproc	Conta de serviço	roles/dataproc.worker

Crie uma instância do Dataproc Hub

Antes de começar:para criar uma instância do Dataproc Hub no console Google Cloud , sua conta de usuário precisa ter a permissão compute.instances.create. Além disso, a conta de serviço da instância, ou seja, a conta de serviço padrão do Compute Engine ou a conta de serviço especificada pelo usuário, listada em IAM e administrador > Contas de serviço (consulte Conta de serviço da VM do Dataproc), precisa ter permissão de iam.serviceAccounts.actAs.
Acesse a página Dataproc → Workbench no console Google Cloud e selecione a guia Notebooks gerenciados pelo usuário.
Se não estiver pré-selecionado como um filtro, clique na caixa Filtro e selecione **Ambiente:Hub do Dataproc"".
Clique em Novo notebook→Dataproc Hub.
Na página Criar um notebook gerenciado pelo usuário, forneça as seguintes informações:
1. Nome do notebook: nome da instância do Dataproc Hub.
2. Região: selecione uma região para a instância do Dataproc Hub. Os clusters do Dataproc gerados por essa instância do Dataproc Hub também serão criados nessa região.
  Para um melhor desempenho, selecione uma região geograficamente próxima.
3. Zona: selecione uma zona na região selecionada.
4. Ambiente:
  1. Environment: selecione Dataproc Hub.
  2. Select a script to run after creation (opcional): é possível inserir ou procurar e selecionar um script ou executável de ação de inicialização para ser executado no cluster do Dataproc gerado.
  3. Populate Dataproc Hub (optional): clique em Preencher para abrir um formulário que permite definir cada uma das variáveis de ambiente do hub (consulte Definir variáveis de ambiente da instância do Dataproc Hub para uma descrição de cada variável). O Dataproc usa valores padrão para variáveis de ambiente não definidas. Como alternativa, é possível definir pares Metadados key:value para definir variáveis de ambiente (consulte o próximo item).
  4. Metadata:
    1. Se você criou um arquivo de texto que contém as configurações variável de ambiente do hub (consulte Como definir variáveis de ambiente do hub), forneça o nome do arquivo como key e o local do arquivo no Cloud Storage como gs://bucket-name/folder-name/environment-variable-filename.value O Dataproc usa valores padrão para variáveis de ambiente não definidas.
5. Configuração da máquina:
  1. Machine Type: selecione o tipo de máquina do Compute Engine.
  2. Defina outras opções de configuração de máquina.
6. Outras opções:
  1. É possível expandir e definir ou substituir os valores padrão nas seções Discos, Rede, Permissão, Segurança e Upgrade do ambiente e integridade do sistema.
7. Clique em Criar para iniciar a instância do Dataproc Hub.
O link Abrir JupyterLab da instância do Dataproc Hub fica ativo depois que a instância é criada. Os usuários clicam nesse link para abrir a página do servidor JupyterHub e configurar e criar um cluster do Dataproc JupyterLab (consulte Usar o Dataproc Hub).

Limpar

Excluir a instância do Dataproc Hub

Para excluir sua instância do Dataproc Hub:

gcloud compute instances delete --project=${PROJECT} ${INSTANCE_NAME}

Excluir o bucket

Para excluir o bucket do Cloud Storage criado em Antes de começar, incluindo os arquivos de dados armazenados no bucket:
```
gcloud storage rm gs://${BUCKET_NAME} --recursive
```

A seguir

Usar o Dataproc Hub