"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Instalar e executar um notebook do Jupyter em um cluster

Objetivos

Neste tutorial, mostramos como instalar o componente Jupyter do Serviço Gerenciado para Apache Spark em um novo cluster e, em seguida, se conectar à UI do notebook Jupyter em execução no cluster a partir do navegador local usando o gateway de componentes do Serviço Gerenciado para Apache Spark.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso, use a calculadora de preços.

Novos usuários do Google Cloud podem estar qualificados para um teste sem custo financeiro.

Antes de começar

Se ainda não tiver feito isso, crie um Google Cloud projeto e um bucket doCloud Storage.

Configurar o projeto
Como criar um bucket do Cloud Storage no projeto para armazenar todos os notebooks criados neste tutorial.
1. No Google Cloud console, acesse a página Buckets do Cloud Storage.
  Acessar buckets
2. Clique em Criar.
3. Na página Criar um bucket, insira as informações do seu bucket. Para ir à próxima etapa, clique em Continuar.
  1. Na seção Começar, faça o seguinte:
    - Insira um nome globalmente exclusivo que atenda aos requisitos de nome de bucket.
    - Para adicionar um rótulo de bucket, abra a seção Rótulos (), clique em Adicionar rótulo e especifique uma key e um value para o rótulo.
  2. Na seção Escolha onde armazenar seus dados, faça o seguinte:
    1. Selecione um tipo de local.
    2. Escolha um local em que os dados do bucket serão armazenados permanentemente no menu suspenso Tipo de local.
      - Se você selecionar o tipo de local birregional, também poderá ativar a replicação turbo usando a caixa de seleção relevante.
    3. Para configurar a replicação entre buckets, selecione Adicionar replicação entre buckets usando o Serviço de transferência do Cloud Storage e siga estas etapas:
      Configurar a replicação entre buckets
      
      No menu Bucket, selecione um bucket.
      
      Na seção Configurações de replicação, clique em Configurar para definir as configurações do job de replicação.
      
      O painel Configurar a replicação entre buckets é exibido.
      
      Para filtrar objetos a serem replicados por prefixo de nome de objeto, digite um prefixo que você quer incluir ou excluir objetos e clique em Adicionar um prefixo.
      
      Para definir uma classe de armazenamento para os objetos replicados, selecione uma classe de armazenamento no menu Classe de armazenamento. Se você pular essa etapa, os objetos replicados vão usar a classe de armazenamento do bucket de destino por padrão.
      
      Clique em Concluído.
  3. Na seção Escolha como armazenar seus dados, faça o seguinte:
    1. Selecione uma classe de armazenamento padrão para o bucket ou Classe automática para gerenciamento automático da classe de armazenamento dos dados do bucket.
    2. Para ativar o namespace hierárquico, na seção Otimizar o armazenamento para cargas de trabalho com uso intensivo de dados, selecione Ativar namespace hierárquico neste bucket.
      Observação: não é possível ativar o namespace hierárquico em buckets atuais.
  4. Na seção Escolha como controlar o acesso a objetos, selecione se o bucket aplica ou não a prevenção de acesso público, e selecione um método de controle de acesso para os objetos do bucket.
    Observação: não é possível mudar a configuração Impedir acesso público se ela for aplicada a uma política da organização.
  5. Na seção Escolha como proteger os dados de objetos, faça o seguinte:
    - Selecione qualquer uma das opções em Proteção de dados que você quer definir para o bucket.
      - Para ativar a exclusão reversível, clique na caixa de seleção Política de exclusão reversível (para recuperação de dados) e especifique o número de dias em que você quer reter objetos após a exclusão.
      - Para definir o Controle de versão de objetos, clique na caixa de seleção Controle de versão de objetos (para controle de versão), e especifique o número máximo de versões por objeto e o número de dias após os quais as versões não atuais expiram.
      - Para ativar a política de retenção em objetos e buckets, clique na caixa de seleção Retenção (para conformidade) e faça o seguinte:
        
        Para ativar o bloqueio de retenção de objetos, clique na caixa de seleção Ativar retenção de objetos.
        
        Para ativar o bloqueio de bucket, clique na caixa de seleção Definir política de retenção de bucket e escolha uma unidade e um período para o período de armazenamento.
    - Para escolher como os dados dos objetos serão criptografados, abra a seção Criptografia de dados () e selecione um método de Criptografia de dados.
4. Clique em Criar.

Criar um cluster e instalar o componente Jupyter

Crie um cluster com o componente Jupyter instalado.

Abrir as IUs do Jupyter e do JupyterLab

Clique nos links de gateway de componente do Google Cloud console no Google Cloud console para abrir o notebook do Jupyter ou as IUs do JupyterLab em execução no cluster.

O diretório de nível superior exibido pela instância do Jupyter é um diretório virtual que permite ver o conteúdo do bucket do Cloud Storage ou do sistema de arquivos local. Escolha um dos locais clicando no link GCS do Cloud Storage ou em Disco local para o sistema de arquivos local do nó mestre no cluster.

Clique no link GCS. A UI da Web do notebook Jupyter exibe os notebooks armazenados no bucket do Cloud Storage, incluindo os notebooks criados neste tutorial.

Limpar

Depois de concluir o tutorial, você pode limpar os recursos que criou para que eles parem de usar a cota e gerar cobranças. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Exclua o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

No Google Cloud console, acesse a página Gerenciar recursos.
Acessar "Gerenciar recursos"
Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.
Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

excluir o cluster

Para excluir o cluster:

gcloud dataproc clusters delete cluster-name \
    --region=${REGION}

Excluir o bucket

Para excluir o bucket do Cloud Storage criado em Antes de começar, siga a etapa 2, incluindo os notebooks armazenados no bucket:
```
gcloud storage rm gs://${BUCKET_NAME} --recursive
```

A seguir

Gerenciar o ciclo de vida da carga de trabalho de dados no VS Code usando o kit de agente de dados do Google Cloud
Criar pipelines de dados com o kit de agente de dados
Consulte o Guia de início rápido do Jupyter/IPython Notebook