"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Crea un clúster

Managed Service para Apache Spark impide la creación de clústeres con versiones de imagen anteriores a 1.3.95, 1.4.77, 1.5.53 y 2.0.27, que se vieron afectadas por vulnerabilidades de seguridad de Apache Log4j. Managed Service para Apache Spark también impide la creación de clústeres para las versiones de imagen de Managed Service para Apache Spark 0.x, 1.0.x, 1.1.x y 1.2.x. Managed Service para Apache Spark recomienda que, cuando sea posible, crees clústeres de Managed Service para Apache Spark con las versiones de imagen submenores más recientes.

Versión de la imagen	Versión de log4j	Orientación para el cliente
2.0.29, 1.5.55 y 1.4.79, o versiones posteriores de cada una	log4j.2.17.1	Recomendado
2.0.28, 1.5.54 y 1.4.78	log4j.2.17.0	Recomendado
2.0.27, 1.5.53 y 1.4.77	log4j.2.16.0	Muy recomendado
2.0.26, 1.5.52 y 1.4.76, o versiones anteriores de cada una	Versión ant.	Deja de usar

Consulta las notas de la versión de Managed Service para Apache Spark para obtener información específica sobre la imagen y la actualización de log4j.

Crea un clúster

Requisitos:

Nombre: El nombre del clúster debe comenzar con una letra minúscula seguida de hasta 51 letras minúsculas, números y guiones, y no puede terminar con un guion.
Región del clúster: Debes especificar una región de Compute Engine para el clúster, como us-east1 o europe-west1, para aislar los recursos del clúster, como las instancias de VM y los metadatos del clúster almacenados en Cloud Storage, dentro de la región.
- Consulta Región del clúster para obtener más información sobre las regiones de Compute Engine.
- Consulta Regiones y zonas disponibles para obtener información sobre cómo seleccionar una región. También puedes ejecutar el comando gcloud compute regions list para mostrar una lista de las regiones disponibles.
Conectividad: Las instancias de máquina virtual de Compute Engine (VM) en un clúster de Managed Service para Apache Spark, que constan de VM principales y de trabajador, requieren conectividad cruzada completa de redes de IP interna. La red de VPC defaultproporciona esta conectividad (consulta Configuración de red del clúster de Managed Service para Apache Spark).
Tipo de máquina (recomendado): Si bien especificar un tipo de máquina es opcional, Google recomienda que selecciones de forma explícita un tipo de máquina para las VMs principales y de trabajador en tu clúster. Si no especificas un tipo de máquina, Managed Service para Apache Spark selecciona de forma dinámica los tipos de máquinas según la disponibilidad de recursos. Esta selección dinámica puede generar variaciones en el costo y el rendimiento.
- Para obtener más información sobre cómo elegir un tipo de máquina, consulta Tipos de máquinas compatibles.
- Para mitigar posibles problemas de falta de disponibilidad de recursos, te recomendamos que uses VMs Flexibles, que te permiten especificar una lista de tipos de máquinas aceptables.

Console

Abre la página Crear clúster de la Google Cloud consola para mostrar la configuración predeterminada del clúster. Puedes confirmar o cambiar la configuración predeterminada que se muestra y, luego, hacer clic en Configuración adicional para personalizar aún más el clúster.

Haz clic en Crear clúster para crear el clúster. El nombre del clúster aparece en la página Clústeres y su estado se actualiza a Running después de aprovisionar el clúster. Haz clic en el nombre del clúster para abrir su página de detalles, en la que podrás examinar los trabajos, las instancias y los ajustes de configuración de tu clúster, y conectarte a las interfaces web que se ejecutan en él.

gcloud

Para crear un clúster de Managed Service para Apache Spark en la línea de comandos, ejecuta el comando gcloud dataproc clusters create de forma local en una ventana de terminal o en Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --master-machine-type=MASTER_MACHINE_TYPE \
    --worker-machine-type=WORKER_MACHINE_TYPE

El comando crea un clúster. Si bien los tipos de máquinas principales y de trabajador son opcionales, se recomienda especificarlos de forma explícita con las marcas --master-machine-type y --worker-machine-type (por ejemplo, n4-standard-4) para garantizar un costo y un rendimiento coherentes. Si no especificas los tipos de máquinas, los tipos de máquinas predeterminados se seleccionan de forma dinámica según la disponibilidad de recursos. Consulta el comando gcloud dataproc clusters create si deseas obtener información sobre el uso de marcas de línea de comandos para personalizar la configuración de los clústeres.

Crea un clúster con un archivo YAML

Ejecuta el siguiente comando gcloud para exportar la configuración de un clúster de Managed Service para Apache Spark existente a un archivo cluster.yaml.
```
gcloud dataproc clusters export EXISTING_CLUSTER_NAME \
    --region=REGION \
    --destination=cluster.yaml
```

Importa la configuración del archivo YAML para crear un clúster nuevo.

gcloud dataproc clusters import NEW_CLUSTER_NAME \
    --region=REGION \
    --source=cluster.yaml

**Nota:** Durante la operación de exportación, se filtran los campos específicos del clúster como el nombre del clúster, las etiquetas aplicadas de forma automática y los campos de solo salida. Estos campos no están permitidos en el archivo YAML importado que se usa para crear un clúster.

REST

En esta sección, se muestra cómo crear un clúster. Si bien especificar los tipos de máquinas es opcional, se recomienda incluir de forma explícita machine_type_uri en master_config y worker_config (por ejemplo, n4-standard-4) para garantizar un costo y un rendimiento coherentes. Si no especificas los tipos de máquinas, los tipos de máquinas predeterminados se seleccionan de forma dinámica según la disponibilidad de recursos.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

CLUSTER_NAME: nombre del clúster
PROJECT: Google Cloud ID del proyecto
REGION: Una región de Compute Engine disponible en la que se creará el clúster
ZONE: Una zona opcional dentro de la región seleccionada en la que se creará el clúster
MASTER_MACHINE_TYPE: (Recomendado) El tipo de máquina para el nodo principal (por ejemplo, n4-standard-4)
WORKER_MACHINE_TYPE: (Recomendado) El tipo de máquina para los nodos trabajadores (por ejemplo, n4-standard-4)

Método HTTP y URL:

POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters

Cuerpo JSON de la solicitud:

{
  "project_id":"PROJECT",
  "cluster_name":"CLUSTER_NAME",
  "config":{
    "master_config":{
      "num_instances":1,
      "machine_type_uri":"MASTER_MACHINE_TYPE",
      "image_uri":""
    },
    "softwareConfig": {
      "imageVersion": "",
      "properties": {},
      "optionalComponents": []
    },
    "worker_config":{
      "num_instances":2,
      "machine_type_uri":"WORKER_MACHINE_TYPE",
      "image_uri":""
    },
    "gce_cluster_config":{
      "zone_uri":"ZONE"
    }
  }
}

Para enviar tu solicitud, expande una de estas opciones:

curl (Linux, macOS o Cloud Shell)

Nota: Con el siguiente comando, se supone que accediste a gcloud CLI con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login , o a través del uso de Cloud Shell, que accede de forma automática a gcloud CLI . Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json, y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters"

PowerShell (Windows)

Nota: El siguiente comando supone que accediste a gcloud CLI con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login . Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json, y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

{
"name": "projects/PROJECT/regions/REGION/operations/b5706e31......",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata",
    "clusterName": "CLUSTER_NAME",
    "clusterUuid": "5fe882b2-...",
    "status": {
      "state": "PENDING",
      "innerState": "PENDING",
      "stateStartTime": "2019-11-21T00:37:56.220Z"
    },
    "operationType": "CREATE",
    "description": "Create cluster with 2 workers",
    "warnings": [
      "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ...""
    ]
  }
}

Go

Instala la biblioteca cliente.
Configura credenciales predeterminadas de la aplicación.

Ejecuta el código.

Nota: Si bien especificar los tipos de máquinas es opcional, se recomienda configurar de forma explícita los tipos de máquinas principales y de trabajador en la configuración del clúster (por ejemplo, en n4-standard-4) para garantizar un costo y un rendimiento coherentes. Si se omite, los tipos de máquinas predeterminados se seleccionan de forma dinámica según la disponibilidad de recursos.

import (
	"context"
	"fmt"
	"io"

	dataproc "cloud.google.com/go/dataproc/apiv1"
	"cloud.google.com/go/dataproc/apiv1/dataprocpb"
	"google.golang.org/api/option"
)

func createCluster(w io.Writer, projectID, region, clusterName string) error {
	// projectID := "your-project-id"
	// region := "us-central1"
	// clusterName := "your-cluster"
	ctx := context.Background()

	// Create the cluster client.
	endpoint := region + "-dataproc.googleapis.com:443"
	clusterClient, err := dataproc.NewClusterControllerClient(ctx, option.WithEndpoint(endpoint))
	if err != nil {
		return fmt.Errorf("dataproc.NewClusterControllerClient: %w", err)
	}
	defer clusterClient.Close()

	// Create the cluster config.
	req := &dataprocpb.CreateClusterRequest{
		ProjectId: projectID,
		Region:    region,
		Cluster: &dataprocpb.Cluster{
			ProjectId:   projectID,
			ClusterName: clusterName,
			Config: &dataprocpb.ClusterConfig{
				MasterConfig: &dataprocpb.InstanceGroupConfig{
					NumInstances:   1,
					MachineTypeUri: "n1-standard-2",
				},
				WorkerConfig: &dataprocpb.InstanceGroupConfig{
					NumInstances:   2,
					MachineTypeUri: "n1-standard-2",
				},
			},
		},
	}

	// Create the cluster.
	op, err := clusterClient.CreateCluster(ctx, req)
	if err != nil {
		return fmt.Errorf("CreateCluster: %w", err)
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		return fmt.Errorf("CreateCluster.Wait: %w", err)
	}

	// Output a success message.
	fmt.Fprintf(w, "Cluster created successfully: %s", resp.ClusterName)
	return nil
}

Java

Instala la biblioteca cliente.
Configura credenciales predeterminadas de la aplicación.

Ejecuta el código.

import com.google.api.gax.longrunning.OperationFuture;
import com.google.cloud.dataproc.v1.Cluster;
import com.google.cloud.dataproc.v1.ClusterConfig;
import com.google.cloud.dataproc.v1.ClusterControllerClient;
import com.google.cloud.dataproc.v1.ClusterControllerSettings;
import com.google.cloud.dataproc.v1.ClusterOperationMetadata;
import com.google.cloud.dataproc.v1.InstanceGroupConfig;
import java.io.IOException;
import java.util.concurrent.ExecutionException;

public class CreateCluster {

  public static void createCluster() throws IOException, InterruptedException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "your-project-id";
    String region = "your-project-region";
    String clusterName = "your-cluster-name";
    createCluster(projectId, region, clusterName);
  }

  public static void createCluster(String projectId, String region, String clusterName)
      throws IOException, InterruptedException {
    String myEndpoint = String.format("%s-dataproc.googleapis.com:443", region);

    // Configure the settings for the cluster controller client.
    ClusterControllerSettings clusterControllerSettings =
        ClusterControllerSettings.newBuilder().setEndpoint(myEndpoint).build();

    // Create a cluster controller client with the configured settings. The client only needs to be
    // created once and can be reused for multiple requests. Using a try-with-resources
    // closes the client, but this can also be done manually with the .close() method.
    try (ClusterControllerClient clusterControllerClient =
        ClusterControllerClient.create(clusterControllerSettings)) {
      // Configure the settings for our cluster.
      InstanceGroupConfig masterConfig =
          InstanceGroupConfig.newBuilder()
              .setMachineTypeUri("n1-standard-2")
              .setNumInstances(1)
              .build();
      InstanceGroupConfig workerConfig =
          InstanceGroupConfig.newBuilder()
              .setMachineTypeUri("n1-standard-2")
              .setNumInstances(2)
              .build();
      ClusterConfig clusterConfig =
          ClusterConfig.newBuilder()
              .setMasterConfig(masterConfig)
              .setWorkerConfig(workerConfig)
              .build();
      // Create the cluster object with the desired cluster config.
      Cluster cluster =
          Cluster.newBuilder().setClusterName(clusterName).setConfig(clusterConfig).build();

      // Create the Cloud Dataproc cluster.
      OperationFuture<Cluster, ClusterOperationMetadata> createClusterAsyncRequest =
          clusterControllerClient.createClusterAsync(projectId, region, cluster);
      Cluster response = createClusterAsyncRequest.get();

      // Print out a success message.
      System.out.printf("Cluster created successfully: %s", response.getClusterName());

    } catch (ExecutionException e) {
      System.err.println(String.format("Error executing createCluster: %s ", e.getMessage()));
    }
  }
}

Node.js

Instala la biblioteca cliente.
Configura credenciales predeterminadas de la aplicación.

Ejecuta el código.

const dataproc = require('@google-cloud/dataproc');

// TODO(developer): Uncomment and set the following variables
// projectId = 'YOUR_PROJECT_ID'
// region = 'YOUR_CLUSTER_REGION'
// clusterName = 'YOUR_CLUSTER_NAME'

// Create a client with the endpoint set to the desired cluster region
const client = new dataproc.v1.ClusterControllerClient({
  apiEndpoint: `${region}-dataproc.googleapis.com`,
  projectId: projectId,
});

async function createCluster() {
  // Create the cluster config
  const request = {
    projectId: projectId,
    region: region,
    cluster: {
      clusterName: clusterName,
      config: {
        masterConfig: {
          numInstances: 1,
          machineTypeUri: 'n1-standard-2',
        },
        workerConfig: {
          numInstances: 2,
          machineTypeUri: 'n1-standard-2',
        },
      },
    },
  };

  // Create the cluster
  const [operation] = await client.createCluster(request);
  const [response] = await operation.promise();

  // Output a success message
  console.log(`Cluster created successfully: ${response.clusterName}`);

Python

Instala la biblioteca cliente.
Configura credenciales predeterminadas de la aplicación.

Ejecuta el código.

from google.cloud import dataproc_v1 as dataproc


def create_cluster(project_id, region, cluster_name):
    """This sample walks a user through creating a Cloud Dataproc cluster
    using the Python client library.

    Args:
        project_id (string): Project to use for creating resources.
        region (string): Region where the resources should live.
        cluster_name (string): Name to use for creating a cluster.
    """

    # Create a client with the endpoint set to the desired cluster region.
    cluster_client = dataproc.ClusterControllerClient(
        client_options={"api_endpoint": f"{region}-dataproc.googleapis.com:443"}
    )

    # Create the cluster config.
    cluster = {
        "project_id": project_id,
        "cluster_name": cluster_name,
        "config": {
            "master_config": {"num_instances": 1, "machine_type_uri": "n1-standard-2"},
            "worker_config": {"num_instances": 2, "machine_type_uri": "n1-standard-2"},
        },
    }

    # Create the cluster.
    operation = cluster_client.create_cluster(
        request={"project_id": project_id, "region": region, "cluster": cluster}
    )
    result = operation.result()

    # Output a success message.
    print(f"Cluster created successfully: {result.cluster_name}")

Crea un clúster Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Crea un clúster

Console

gcloud

Crea un clúster con un archivo YAML

REST

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Go

Java

Node.js

Python

Crea un clúster