Usar o Dataproc Hub

Objetivos

  1. Usar o Dataproc Hub para criar um ambiente de notebook do JupyterLab de usuário único em execução em um cluster do serviço gerenciado para Apache Spark.

  2. Criar um notebook e executar um job do Spark no cluster do serviço gerenciado para Apache Spark.

  3. Excluir o cluster e preservar o notebook no Cloud Storage.

Antes de começar

  1. O administrador precisa conceder a você a permissão notebooks.instances.use (consulte Definir papéis Identity and Access Management (IAM, na sigla em inglês)).

Criar um cluster do Dataproc JupyterLab no Dataproc Hub

  1. Selecione a guia Notebooks gerenciados pelo usuário na página Dataproc → Workbench no Google Cloud console.

  2. Clique em Abrir JupyterLab na linha que lista a instância do Dataproc Hub criada pelo administrador.

    1. Se você não tiver acesso ao Google Cloud console, insira o URL da instância do Dataproc Hub que um administrador compartilhou com você no navegador da Web.
  3. Na página Jupyterhub → Opções do Dataproc, selecione uma configuração de cluster e uma zona. Se ativado, especifique as personalizações e clique em Criar.

    Depois que o cluster do serviço gerenciado para Apache Spark for criado, você será redirecionado para a interface do JupyterLab em execução no cluster.

Criar um notebook e executar um job do Spark

  1. No painel esquerdo da interface do JupyterLab, clique em GCS (Cloud Storage).

  2. Crie um notebook do PySpark no inicializador do JupyterLab.

  3. O kernel do PySpark inicializa um SparkContext (usando a variável sc). Você pode examinar o SparkContext e executar um job do Spark no notebook.

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. Nomeie e salve o notebook. O notebook é salvo e permanece no Cloud Storage depois que o cluster do serviço gerenciado para Apache Spark for excluído.

Desligar o cluster do Dataproc

  1. Na interface do JupyterLab, selecione Arquivo → Painel de controle do hub para abrir a página Jupyterhub.

  2. Clique em Desligar meu cluster para desligar (excluir) o servidor do JupyterLab, que exclui o cluster do serviço gerenciado para Apache Spark.

A seguir