Esta página foi traduzida pela API Cloud Translation.

Use o Dataproc Hub

Objetivos

Use o Dataproc Hub para criar um ambiente de bloco de notas do JupyterLab de utilizador único executado num cluster do Dataproc.
Crie um notebook e execute uma tarefa do Spark no cluster do Dataproc.
Elimine o cluster e preserve o bloco de notas no Cloud Storage.

Antes de começar

O administrador tem de lhe conceder notebooks.instances.use autorização (consulte o artigo Defina funções de gestão de identidade e de acesso (IAM)).

Crie um cluster do Dataproc JupyterLab a partir do Dataproc Hub

Selecione o separador User-Managed Notebooks na página Dataproc→Workbench na Google Cloud consola.
Clique em Abrir JupyterLab na linha que apresenta a instância do Dataproc Hub criada pelo administrador.
1. Se não tiver acesso à Google Cloud consola, introduza o URL da instância do Dataproc Hub que um administrador partilhou consigo no seu navegador de Internet.
Na página Jupyterhub→Opções do Dataproc, selecione uma configuração de cluster e uma zona. Se estiver ativada, especifique as personalizações e, de seguida, clique em Criar.

Depois de criar o cluster do Dataproc, é feito o redirecionamento para a interface do JupyterLab em execução no cluster.

Crie um notebook e execute uma tarefa do Spark

No painel esquerdo da interface do JupyterLab, clique em GCS (Cloud Storage).
Crie um notebook PySpark a partir do Launcher do JupyterLab.

O kernel do PySpark inicializa um SparkContext (usando a variável sc). Pode examinar o SparkContext e executar uma tarefa do Spark a partir do bloco de notas.

rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
       .map(lambda word: (word, 1))
       .reduceByKey(lambda a, b: a + b))
print(rdd.collect())

Atribua um nome e guarde o bloco de notas. O bloco de notas é guardado e permanece no armazenamento na nuvem após a eliminação do cluster do Dataproc.

Encerre o cluster do Dataproc

Na interface do JupyterLab, selecione File→Hub Control Panel para abrir a página Jupyterhub.

Quando usar as versões de imagem do Dataproc 1.4 ou anteriores, navegue para /hub/home para aceder à página do Jupyterhub.
Clique em Parar o meu cluster para encerrar (eliminar) o servidor do JupyterLab, que elimina o cluster do Dataproc.

Parar o servidor e eliminar o cluster não elimina a instância do Dataproc Hub. Pode clicar em Iniciar o meu servidor na página Jupyterhub (painel de controlo do hub) ou selecionar o link Abrir JupyterLab para a sua instância do Dataproc Hub na página Dataproc→Workbench→Blocos de notas geridos pelo utilizador na consola do Google Cloud Google Cloud para abrir, configurar e criar outro cluster do Dataproc JupyterLab.

O que se segue?

Explore o Spark e os blocos de notas do Jupyter no Dataproc no GitHub.