Use o Dataproc Hub

Crie um cluster do Dataproc JupyterLab a partir do Dataproc Hub

  1. Selecione o separador User-Managed Notebooks na página Dataproc→Workbench na Google Cloud consola.

  2. Clique em Abrir JupyterLab na linha que apresenta a instância do Dataproc Hub criada pelo administrador.

    1. Se não tiver acesso à Google Cloud consola, introduza o URL da instância do Dataproc Hub que um administrador partilhou consigo no seu navegador de Internet.
  3. Na página Jupyterhub→Opções do Dataproc, selecione uma configuração de cluster e uma zona. Se estiver ativada, especifique as personalizações e, de seguida, clique em Criar.

    Depois de criar o cluster do Dataproc, é feito o redirecionamento para a interface do JupyterLab em execução no cluster.

Crie um notebook e execute uma tarefa do Spark

  1. No painel esquerdo da interface do JupyterLab, clique em GCS (Cloud Storage).

  2. Crie um notebook PySpark a partir do Launcher do JupyterLab.

  3. O kernel do PySpark inicializa um SparkContext (usando a variável sc). Pode examinar o SparkContext e executar uma tarefa do Spark a partir do bloco de notas.

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. Atribua um nome e guarde o bloco de notas. O bloco de notas é guardado e permanece no Cloud Storage após a eliminação do cluster do Dataproc.

Encerre o cluster do Dataproc

  1. Na interface do JupyterLab, selecione File→Hub Control Panel para abrir a página Jupyterhub.

  2. Clique em Parar o meu cluster para encerrar (eliminar) o servidor do JupyterLab, que elimina o cluster do Dataproc.