Este tutorial inclui um walkthrough do Cloud Shell que usa as bibliotecas de cliente do Google Cloud para Python para chamar programaticamente APIs gRPC do Serviço Gerenciado para Apache Spark para criar um cluster e enviar um job ao cluster.
As seções a seguir explicam o funcionamento do código walkthrough contido no repositório GoogleCloudPlatform/python-docs-samples/dataproc do GitHub.
Executar o walkthrough do Cloud Shell
Clique em Abrir no Cloud Shell para executar o tutorial.
entenda o código
Application Default Credentials
O walkthrough do Cloud Shell neste tutorial fornece autenticação usando suas Google Cloud credenciais do projeto. Ao executar o código localmente, a prática recomendada é usar credenciais da conta de serviço para autenticar seu código.
Criar um cluster do Serviço Gerenciado para Apache Spark
Os valores a seguir são definidos para criar o cluster:
- o projeto em que o cluster será criado
- a região em que o cluster será criado
- o nome do cluster
- a configuração do cluster, que especifica um mestre e dois workers principais
As configurações padrão são usadas para as configurações restantes do cluster. É possível substituir as configurações padrão do cluster. Por exemplo, você pode adicionar VMs secundárias (padrão = 0) ou especificar uma rede VPC não padrão para o cluster. Para mais informações, consulte CreateCluster.
Envie um job
Os valores a seguir são definidos para enviar o job:
- o projeto em que o cluster será criado
- a região em que o cluster será criado
- a configuração do job, que especifica o nome do cluster e o caminho do arquivo do Cloud Storage (URI) do job do PySpark
Consulte SubmitJob para mais informações.
excluir o cluster
Os valores a seguir são definidos para excluir o cluster:
- o projeto em que o cluster será criado
- a região em que o cluster será criado
- o nome do cluster
Para mais informações, consulte o DeleteCluster.