"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Criar um cluster

O Serviço Gerenciado para Apache Spark impede a criação de clusters com versões de imagem anteriores a 1.3.95, 1.4.77, 1.5.53 e 2.0.27, que foram afetadas por vulnerabilidades de segurança do Apache Log4j. O Serviço Gerenciado para Apache Spark também impede a criação de clusters para as versões de imagem 0.x, 1.0.x, 1.1.x e 1.2.x do Serviço Gerenciado para Apache Spark. O Serviço Gerenciado para Apache Spark recomenda que, quando possível, você crie clusters do Serviço Gerenciado para Apache Spark com as versões de imagem secundárias mais recentes.

Versão de imagem	Versão do log4j	Orientação ao cliente
2.0.29, 1.5.55 e 1.4.79 ou versões mais recentes de cada uma	log4j.2.17.1	Recomendado
2.0.28, 1.5.54 e 1.4.78	log4j.2.17.0	Recomendado
2.0.27, 1.5.53 e 1.4.77	log4j.2.16.0	Altamente recomendável
2.0.26, 1.5.52 e 1.4.76 ou versões anteriores de cada uma	Versão antiga	Interrompa o uso

Consulte as notas de lançamento do Serviço Gerenciado para Apache Spark para informações específicas sobre a imagem e a atualização log4j.

Criar um cluster

Requisitos:

Nome:o nome do cluster precisa começar com uma letra minúscula seguida de até 51 letras minúsculas, números e hifens, mas não pode terminar com um hífen.
Região do cluster:é necessário especificar uma região do Compute Engine para o cluster, como us-east1 ou europe-west1, para isolar os recursos do cluster, como instâncias de VM e metadados do cluster armazenados no Cloud Storage, na região.
- Consulte Região do cluster para mais informações sobre as regiões do Compute Engine.
- Consulte informações sobre a seleção de uma região em Regiões e zonas disponíveis. Você também pode executar o comando gcloud compute regions list para mostrar uma lista de regiões disponíveis.
Conectividade: instâncias de máquina virtual do Compute Engine (VMs) em um cluster do Serviço Gerenciado para Apache Spark, que consistem em VMs mestras e workers, exigem conectividade cruzada de rede IP interna completa. A rede VPC default fornece essa conectividade (consulte Configuração de rede de cluster do Serviço Gerenciado para Apache Spark).
Tipo de máquina (recomendado): embora a especificação de um tipo de máquina seja opcional, o Google recomenda que você selecione explicitamente um tipo de máquina para as VMs mestras e workers no cluster. Se você não especificar um tipo de máquina, o Serviço Gerenciado para Apache Spark selecionará dinamicamente os tipos de máquina com base na disponibilidade de recursos. Essa seleção dinâmica pode resultar em variações de custo e desempenho.
- Para mais informações sobre como escolher um tipo de máquina, consulte Tipos de máquinas compatíveis.
- Para atenuar possíveis problemas de indisponibilidade de recursos, recomendamos o uso de VMs flexíveis, que permitem especificar uma lista de tipos de máquinas aceitáveis.

Console

Abra a página Criar cluster do Google Cloud console para mostrar as configurações padrão do cluster. Você pode confirmar ou alterar as configurações padrão mostradas e clicar em Configuração adicional para personalizar ainda mais o cluster.

Clique em Criar cluster para criar o cluster. O nome do cluster é exibido na página Clusters e o status é atualizado para Running depois que o cluster é provisionado. Clique no nome do cluster para abrir a página de detalhes do cluster, em que você pode examinar jobs, instâncias e configurações do cluster, além de se conectar às interfaces da Web em execução no cluster.

gcloud

Para criar um cluster do Serviço Gerenciado para Apache Spark na linha de comando, execute o comando gcloud dataproc clusters create localmente em uma janela de terminal ou no Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --master-machine-type=MASTER_MACHINE_TYPE \
    --worker-machine-type=WORKER_MACHINE_TYPE

O comando cria um cluster. Embora os tipos de máquina mestre e worker sejam opcionais, é recomendável especificá-los explicitamente usando as flags --master-machine-type e --worker-machine-type (por exemplo, n4-standard-4) para garantir custo e desempenho consistentes. Se você não especificar os tipos de máquina, os tipos de máquina padrão serão selecionados dinamicamente com base na disponibilidade de recursos. Consulte o comando gcloud dataproc clusters create para ver informações sobre como usar flags da linha de comando a fim de personalizar configurações do cluster.

Criar um cluster com um arquivo YAML

Execute o comando gcloud a seguir para exportar a configuração de um cluster do Serviço Gerenciado para Apache Spark para um arquivo cluster.yaml.
```
gcloud dataproc clusters export EXISTING_CLUSTER_NAME \
    --region=REGION \
    --destination=cluster.yaml
```

Crie um novo cluster importando a configuração do arquivo YAML.

gcloud dataproc clusters import NEW_CLUSTER_NAME \
    --region=REGION \
    --source=cluster.yaml

**Observação** : durante a operação de exportação, os campos específicos do cluster, como o nome do cluster, os campos somente saída e os rótulos aplicados automaticamente são filtrados. Esses campos não são permitidos no arquivo YAML importado usado para criar um cluster.

REST

Esta seção mostra como criar um cluster. Embora a especificação de tipos de máquina seja opcional, é recomendável incluir explicitamente machine_type_uri em master_config e worker_config (por exemplo, n4-standard-4) para garantir custo e desempenho consistentes. Se você não especificar os tipos de máquina, os tipos de máquina padrão serão selecionados dinamicamente com base na disponibilidade de recursos.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

CLUSTER_NAME: nome do cluster
PROJECT: Google Cloud ID do projeto
REGION: uma região disponível do Compute Engine em que o cluster será criado.
ZONE: uma zona opcional na região selecionada em que o cluster será criado.
MASTER_MACHINE_TYPE: (recomendado) o tipo de máquina do nó mestre (por exemplo, n4-standard-4).
WORKER_MACHINE_TYPE: (recomendado) o tipo de máquina para nós de trabalho (por exemplo, n4-standard-4).

Método HTTP e URL:

POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters

Corpo JSON da solicitação:

{
  "project_id":"PROJECT",
  "cluster_name":"CLUSTER_NAME",
  "config":{
    "master_config":{
      "num_instances":1,
      "machine_type_uri":"MASTER_MACHINE_TYPE",
      "image_uri":""
    },
    "softwareConfig": {
      "imageVersion": "",
      "properties": {},
      "optionalComponents": []
    },
    "worker_config":{
      "num_instances":2,
      "machine_type_uri":"WORKER_MACHINE_TYPE",
      "image_uri":""
    },
    "gce_cluster_config":{
      "zone_uri":"ZONE"
    }
  }
}

Para enviar a solicitação, expanda uma destas opções:

curl (Linux, macOS ou Cloud Shell)

Observação: o comando a seguir pressupõe que você tenha feito login na CLI do gcloud com sua conta de usuário executando gcloud init ou gcloud auth login, ou usando o Cloud Shell, que faz login automaticamente na CLI gcloud. . Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters"

PowerShell (Windows)

Observação: o comando a seguir pressupõe que você tenha feito login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login . Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a esta:

{
"name": "projects/PROJECT/regions/REGION/operations/b5706e31......",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata",
    "clusterName": "CLUSTER_NAME",
    "clusterUuid": "5fe882b2-...",
    "status": {
      "state": "PENDING",
      "innerState": "PENDING",
      "stateStartTime": "2019-11-21T00:37:56.220Z"
    },
    "operationType": "CREATE",
    "description": "Create cluster with 2 workers",
    "warnings": [
      "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ...""
    ]
  }
}

Go

Instale a biblioteca de cliente.
Configure as credenciais padrão do aplicativo.

Execute o código.

Observação:embora a especificação de tipos de máquina seja opcional, é recomendável definir explicitamente os tipos de máquina mestre e worker na configuração do cluster (por exemplo, para n4-standard-4) para garantir custo e desempenho consistentes. Se omitido, os tipos de máquina padrão serão selecionados dinamicamente com base na disponibilidade de recursos.

import (
	"context"
	"fmt"
	"io"

	dataproc "cloud.google.com/go/dataproc/apiv1"
	"cloud.google.com/go/dataproc/apiv1/dataprocpb"
	"google.golang.org/api/option"
)

func createCluster(w io.Writer, projectID, region, clusterName string) error {
	// projectID := "your-project-id"
	// region := "us-central1"
	// clusterName := "your-cluster"
	ctx := context.Background()

	// Create the cluster client.
	endpoint := region + "-dataproc.googleapis.com:443"
	clusterClient, err := dataproc.NewClusterControllerClient(ctx, option.WithEndpoint(endpoint))
	if err != nil {
		return fmt.Errorf("dataproc.NewClusterControllerClient: %w", err)
	}
	defer clusterClient.Close()

	// Create the cluster config.
	req := &dataprocpb.CreateClusterRequest{
		ProjectId: projectID,
		Region:    region,
		Cluster: &dataprocpb.Cluster{
			ProjectId:   projectID,
			ClusterName: clusterName,
			Config: &dataprocpb.ClusterConfig{
				MasterConfig: &dataprocpb.InstanceGroupConfig{
					NumInstances:   1,
					MachineTypeUri: "n1-standard-2",
				},
				WorkerConfig: &dataprocpb.InstanceGroupConfig{
					NumInstances:   2,
					MachineTypeUri: "n1-standard-2",
				},
			},
		},
	}

	// Create the cluster.
	op, err := clusterClient.CreateCluster(ctx, req)
	if err != nil {
		return fmt.Errorf("CreateCluster: %w", err)
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		return fmt.Errorf("CreateCluster.Wait: %w", err)
	}

	// Output a success message.
	fmt.Fprintf(w, "Cluster created successfully: %s", resp.ClusterName)
	return nil
}

Java

Instale a biblioteca de cliente.
Configure as credenciais padrão do aplicativo.

Execute o código.

import com.google.api.gax.longrunning.OperationFuture;
import com.google.cloud.dataproc.v1.Cluster;
import com.google.cloud.dataproc.v1.ClusterConfig;
import com.google.cloud.dataproc.v1.ClusterControllerClient;
import com.google.cloud.dataproc.v1.ClusterControllerSettings;
import com.google.cloud.dataproc.v1.ClusterOperationMetadata;
import com.google.cloud.dataproc.v1.InstanceGroupConfig;
import java.io.IOException;
import java.util.concurrent.ExecutionException;

public class CreateCluster {

  public static void createCluster() throws IOException, InterruptedException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "your-project-id";
    String region = "your-project-region";
    String clusterName = "your-cluster-name";
    createCluster(projectId, region, clusterName);
  }

  public static void createCluster(String projectId, String region, String clusterName)
      throws IOException, InterruptedException {
    String myEndpoint = String.format("%s-dataproc.googleapis.com:443", region);

    // Configure the settings for the cluster controller client.
    ClusterControllerSettings clusterControllerSettings =
        ClusterControllerSettings.newBuilder().setEndpoint(myEndpoint).build();

    // Create a cluster controller client with the configured settings. The client only needs to be
    // created once and can be reused for multiple requests. Using a try-with-resources
    // closes the client, but this can also be done manually with the .close() method.
    try (ClusterControllerClient clusterControllerClient =
        ClusterControllerClient.create(clusterControllerSettings)) {
      // Configure the settings for our cluster.
      InstanceGroupConfig masterConfig =
          InstanceGroupConfig.newBuilder()
              .setMachineTypeUri("n1-standard-2")
              .setNumInstances(1)
              .build();
      InstanceGroupConfig workerConfig =
          InstanceGroupConfig.newBuilder()
              .setMachineTypeUri("n1-standard-2")
              .setNumInstances(2)
              .build();
      ClusterConfig clusterConfig =
          ClusterConfig.newBuilder()
              .setMasterConfig(masterConfig)
              .setWorkerConfig(workerConfig)
              .build();
      // Create the cluster object with the desired cluster config.
      Cluster cluster =
          Cluster.newBuilder().setClusterName(clusterName).setConfig(clusterConfig).build();

      // Create the Cloud Dataproc cluster.
      OperationFuture<Cluster, ClusterOperationMetadata> createClusterAsyncRequest =
          clusterControllerClient.createClusterAsync(projectId, region, cluster);
      Cluster response = createClusterAsyncRequest.get();

      // Print out a success message.
      System.out.printf("Cluster created successfully: %s", response.getClusterName());

    } catch (ExecutionException e) {
      System.err.println(String.format("Error executing createCluster: %s ", e.getMessage()));
    }
  }
}

Node.js

Instale a biblioteca de cliente.
Configure as credenciais padrão do aplicativo.

Execute o código.

const dataproc = require('@google-cloud/dataproc');

// TODO(developer): Uncomment and set the following variables
// projectId = 'YOUR_PROJECT_ID'
// region = 'YOUR_CLUSTER_REGION'
// clusterName = 'YOUR_CLUSTER_NAME'

// Create a client with the endpoint set to the desired cluster region
const client = new dataproc.v1.ClusterControllerClient({
  apiEndpoint: `${region}-dataproc.googleapis.com`,
  projectId: projectId,
});

async function createCluster() {
  // Create the cluster config
  const request = {
    projectId: projectId,
    region: region,
    cluster: {
      clusterName: clusterName,
      config: {
        masterConfig: {
          numInstances: 1,
          machineTypeUri: 'n1-standard-2',
        },
        workerConfig: {
          numInstances: 2,
          machineTypeUri: 'n1-standard-2',
        },
      },
    },
  };

  // Create the cluster
  const [operation] = await client.createCluster(request);
  const [response] = await operation.promise();

  // Output a success message
  console.log(`Cluster created successfully: ${response.clusterName}`);

Python

Instale a biblioteca de cliente.
Configure as credenciais padrão do aplicativo.

Execute o código.

from google.cloud import dataproc_v1 as dataproc


def create_cluster(project_id, region, cluster_name):
    """This sample walks a user through creating a Cloud Dataproc cluster
    using the Python client library.

    Args:
        project_id (string): Project to use for creating resources.
        region (string): Region where the resources should live.
        cluster_name (string): Name to use for creating a cluster.
    """

    # Create a client with the endpoint set to the desired cluster region.
    cluster_client = dataproc.ClusterControllerClient(
        client_options={"api_endpoint": f"{region}-dataproc.googleapis.com:443"}
    )

    # Create the cluster config.
    cluster = {
        "project_id": project_id,
        "cluster_name": cluster_name,
        "config": {
            "master_config": {"num_instances": 1, "machine_type_uri": "n1-standard-2"},
            "worker_config": {"num_instances": 2, "machine_type_uri": "n1-standard-2"},
        },
    }

    # Create the cluster.
    operation = cluster_client.create_cluster(
        request={"project_id": project_id, "region": region, "cluster": cluster}
    )
    result = operation.result()

    # Output a success message.
    print(f"Cluster created successfully: {result.cluster_name}")

Criar um cluster Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Criar um cluster

Console

gcloud

Criar um cluster com um arquivo YAML

REST

curl (Linux, macOS ou Cloud Shell)

PowerShell (Windows)

Go

Java

Node.js

Python

Criar um cluster