"Servicio administrado para Apache Spark" es el nuevo nombre del producto que antes se conocía como "Dataproc en Compute Engine" (implementación de clústeres) y "Google Cloud Serverless for Apache Spark" (implementación sin servidores).

Crea un clúster

El servicio administrado para Apache Spark impide la creación de clústeres con versiones de imagen anteriores a 1.3.95, 1.4.77, 1.5.53 y 2.0.27, que se vieron afectadas por vulnerabilidades de seguridad de Apache Log4j. El servicio administrado para Apache Spark también impide la creación de clústeres para las versiones de imagen 0.x, 1.0.x, 1.1.x y 1.2.x del servicio administrado para Apache Spark. El servicio administrado para Apache Spark recomienda que, cuando sea posible, crees clústeres del servicio administrado para Apache Spark con las versiones de imagen submenores más recientes.

Versión de la imagen	Versión de log4j	Orientación para el cliente
2.0.29, 1.5.55 y 1.4.79, o versiones posteriores de cada una	log4j.2.17.1	Recomendado
2.0.28, 1.5.54 y 1.4.78	log4j.2.17.0	Recomendado
2.0.27, 1.5.53 y 1.4.77	log4j.2.16.0	Muy recomendado
2.0.26, 1.5.52 y 1.4.76, o versiones anteriores de cada una	Versión ant.	Interrumpe el uso

Consulta las notas de la versión del servicio administrado para Apache Spark para obtener información específica sobre la imagen y la actualización de log4j.

Crea un clúster del servicio administrado para Apache Spark

Requisitos:

Nombre: El nombre del clúster debe comenzar con una letra minúscula seguida por un máximo de 51 letras minúsculas, números y guiones, y no puede terminar con un guion.
Región del clúster: Debes especificar una región de Compute Engine para el clúster, como us-east1 o europe-west1, para aislar los recursos del clúster, como las instancias de VM y los metadatos del clúster almacenados en Cloud Storage, dentro de la región.
- Consulta Región del clúster para obtener más información sobre las regiones de Compute Engine.
- Consulta Regiones y zonas disponibles para obtener información sobre cómo seleccionar una región. También puedes ejecutar el comando gcloud compute regions list para mostrar una lista de las regiones disponibles.
Conectividad: Las instancias de máquina virtual de Compute Engine (VM) en un clúster del servicio administrado para Apache Spark, que constan de VM principales y de trabajador, requieren conectividad cruzada completa de redes de IP interna. La red de VPC default proporciona esta conectividad (consulta Configuración de red del clúster del servicio administrado para Apache Spark).

gcloud

Para crear un clúster del servicio administrado para Apache Spark en la línea de comandos, ejecuta el comando gcloud dataproc clusters create de forma local en una ventana de terminal o en Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION

El comando crea un clúster con la configuración predeterminada del servicio administrado para Apache Spark para las instancias de máquina virtual principal y trabajadora, tamaños y tipos de disco, tipo de red, región y zona donde se implementa el clúster y otras configuraciones de clúster. Consulta el comando gcloud dataproc clusters create si deseas obtener información sobre el uso de marcas de línea de comandos para personalizar la configuración de los clústeres.

Crea un clúster con un archivo YAML

Ejecuta el siguiente comando de gcloud para exportar la configuración de un clúster existente del servicio administrado para Apache Spark a un archivo cluster.yaml.
```
gcloud dataproc clusters export EXISTING_CLUSTER_NAME \
    --region=REGION \
    --destination=cluster.yaml
```

Importa la configuración del archivo YAML para crear un clúster nuevo.

gcloud dataproc clusters import NEW_CLUSTER_NAME \
    --region=REGION \
    --source=cluster.yaml

Nota: Durante la operación de exportación, se filtran los campos específicos del clúster como el nombre del clúster, las etiquetas aplicadas de forma automática y los campos de solo salida. Estos campos no están permitidos en el archivo YAML importado que se usa para crear un clúster.

Nota: Puedes hacer clic en los vínculos REST equivalente o línea de comandos en la parte inferior del panel izquierdo de la página de la consola del servicio administrado para Apache Spark Google Cloud Crear un clúster para que la consola cree una solicitud de la API de REST equivalente o un comando de la herramienta gcloud para usar en tu código o desde la línea de comandos para crear un clúster.

REST

En esta sección, se muestra cómo crear un clúster con los valores requeridos y la configuración predeterminada (1 principal, 2 trabajadores).

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

CLUSTER_NAME: nombre del clúster
PROJECT: Google Cloud Es el ID del proyecto.
REGION: Es una región de Compute Engine disponible en la que se creará el clúster.
ZONE: Es una zona opcional dentro de la región seleccionada en la que se creará el clúster.

Método HTTP y URL:

POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters

Cuerpo JSON de la solicitud:

{
  "project_id":"PROJECT",
  "cluster_name":"CLUSTER_NAME",
  "config":{
    "master_config":{
      "num_instances":1,
      "machine_type_uri":"n1-standard-2",
      "image_uri":""
    },
    "softwareConfig": {
      "imageVersion": "",
      "properties": {},
      "optionalComponents": []
    },
    "worker_config":{
      "num_instances":2,
      "machine_type_uri":"n1-standard-2",
      "image_uri":""
    },
    "gce_cluster_config":{
      "zone_uri":"ZONE"
    }
  }
}

Para enviar tu solicitud, expande una de estas opciones:

curl (Linux, macOS o Cloud Shell)

Nota: Con el siguiente comando, se supone que accediste a gcloud CLI con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login , o a través del uso de Cloud Shell, que accede de forma automática a gcloud CLI . Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters"

PowerShell (Windows)

Nota: El siguiente comando supone que accediste a gcloud CLI con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login . Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

{
"name": "projects/PROJECT/regions/REGION/operations/b5706e31......",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata",
    "clusterName": "CLUSTER_NAME",
    "clusterUuid": "5fe882b2-...",
    "status": {
      "state": "PENDING",
      "innerState": "PENDING",
      "stateStartTime": "2019-11-21T00:37:56.220Z"
    },
    "operationType": "CREATE",
    "description": "Create cluster with 2 workers",
    "warnings": [
      "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ...""
    ]
  }
}

Console

Abre la página del servicio administrado para Apache Spark Crear un clúster en la Google Cloud consola en tu navegador y, luego, haz clic en Crear en la fila del clúster en Compute Engine en la página Crear un clúster de Dataproc en Compute Engine. El panel Configura el clúster se selecciona con campos completados con valores predeterminados. Puedes seleccionar cada panel y confirmar o cambiar los valores predeterminados para personalizar tu clúster.

Haz clic en Crear para generar el clúster. El nombre del clúster aparece en la página Clústeres y su estado se actualiza a En ejecución después de aprovisionar el clúster. Haz clic en el nombre del clúster para abrir su página de detalles, en la que podrás examinar los trabajos, las instancias y los ajustes de configuración de tu clúster, y conectarte a las interfaces web que se ejecutan en él.

Go

Instala la biblioteca cliente.

Configura credenciales predeterminadas de la aplicación.

Ejecuta el código.

import (
	"context"
	"fmt"
	"io"

	dataproc "cloud.google.com/go/dataproc/apiv1"
	"cloud.google.com/go/dataproc/apiv1/dataprocpb"
	"google.golang.org/api/option"
)

func createCluster(w io.Writer, projectID, region, clusterName string) error {
	// projectID := "your-project-id"
	// region := "us-central1"
	// clusterName := "your-cluster"
	ctx := context.Background()

	// Create the cluster client.
	endpoint := region + "-dataproc.googleapis.com:443"
	clusterClient, err := dataproc.NewClusterControllerClient(ctx, option.WithEndpoint(endpoint))
	if err != nil {
		return fmt.Errorf("dataproc.NewClusterControllerClient: %w", err)
	}
	defer clusterClient.Close()

	// Create the cluster config.
	req := &dataprocpb.CreateClusterRequest{
		ProjectId: projectID,
		Region:    region,
		Cluster: &dataprocpb.Cluster{
			ProjectId:   projectID,
			ClusterName: clusterName,
			Config: &dataprocpb.ClusterConfig{
				MasterConfig: &dataprocpb.InstanceGroupConfig{
					NumInstances:   1,
					MachineTypeUri: "n1-standard-2",
				},
				WorkerConfig: &dataprocpb.InstanceGroupConfig{
					NumInstances:   2,
					MachineTypeUri: "n1-standard-2",
				},
			},
		},
	}

	// Create the cluster.
	op, err := clusterClient.CreateCluster(ctx, req)
	if err != nil {
		return fmt.Errorf("CreateCluster: %w", err)
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		return fmt.Errorf("CreateCluster.Wait: %w", err)
	}

	// Output a success message.
	fmt.Fprintf(w, "Cluster created successfully: %s", resp.ClusterName)
	return nil
}

Java

Instala la biblioteca cliente.
Configura credenciales predeterminadas de la aplicación.

Ejecuta el código.

import com.google.api.gax.longrunning.OperationFuture;
import com.google.cloud.dataproc.v1.Cluster;
import com.google.cloud.dataproc.v1.ClusterConfig;
import com.google.cloud.dataproc.v1.ClusterControllerClient;
import com.google.cloud.dataproc.v1.ClusterControllerSettings;
import com.google.cloud.dataproc.v1.ClusterOperationMetadata;
import com.google.cloud.dataproc.v1.InstanceGroupConfig;
import java.io.IOException;
import java.util.concurrent.ExecutionException;

public class CreateCluster {

  public static void createCluster() throws IOException, InterruptedException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "your-project-id";
    String region = "your-project-region";
    String clusterName = "your-cluster-name";
    createCluster(projectId, region, clusterName);
  }

  public static void createCluster(String projectId, String region, String clusterName)
      throws IOException, InterruptedException {
    String myEndpoint = String.format("%s-dataproc.googleapis.com:443", region);

    // Configure the settings for the cluster controller client.
    ClusterControllerSettings clusterControllerSettings =
        ClusterControllerSettings.newBuilder().setEndpoint(myEndpoint).build();

    // Create a cluster controller client with the configured settings. The client only needs to be
    // created once and can be reused for multiple requests. Using a try-with-resources
    // closes the client, but this can also be done manually with the .close() method.
    try (ClusterControllerClient clusterControllerClient =
        ClusterControllerClient.create(clusterControllerSettings)) {
      // Configure the settings for our cluster.
      InstanceGroupConfig masterConfig =
          InstanceGroupConfig.newBuilder()
              .setMachineTypeUri("n1-standard-2")
              .setNumInstances(1)
              .build();
      InstanceGroupConfig workerConfig =
          InstanceGroupConfig.newBuilder()
              .setMachineTypeUri("n1-standard-2")
              .setNumInstances(2)
              .build();
      ClusterConfig clusterConfig =
          ClusterConfig.newBuilder()
              .setMasterConfig(masterConfig)
              .setWorkerConfig(workerConfig)
              .build();
      // Create the cluster object with the desired cluster config.
      Cluster cluster =
          Cluster.newBuilder().setClusterName(clusterName).setConfig(clusterConfig).build();

      // Create the Cloud Dataproc cluster.
      OperationFuture<Cluster, ClusterOperationMetadata> createClusterAsyncRequest =
          clusterControllerClient.createClusterAsync(projectId, region, cluster);
      Cluster response = createClusterAsyncRequest.get();

      // Print out a success message.
      System.out.printf("Cluster created successfully: %s", response.getClusterName());

    } catch (ExecutionException e) {
      System.err.println(String.format("Error executing createCluster: %s ", e.getMessage()));
    }
  }
}

Node.js

Instala la biblioteca cliente.
Configura credenciales predeterminadas de la aplicación.

Ejecuta el código.

const dataproc = require('@google-cloud/dataproc');

// TODO(developer): Uncomment and set the following variables
// projectId = 'YOUR_PROJECT_ID'
// region = 'YOUR_CLUSTER_REGION'
// clusterName = 'YOUR_CLUSTER_NAME'

// Create a client with the endpoint set to the desired cluster region
const client = new dataproc.v1.ClusterControllerClient({
  apiEndpoint: `${region}-dataproc.googleapis.com`,
  projectId: projectId,
});

async function createCluster() {
  // Create the cluster config
  const request = {
    projectId: projectId,
    region: region,
    cluster: {
      clusterName: clusterName,
      config: {
        masterConfig: {
          numInstances: 1,
          machineTypeUri: 'n1-standard-2',
        },
        workerConfig: {
          numInstances: 2,
          machineTypeUri: 'n1-standard-2',
        },
      },
    },
  };

  // Create the cluster
  const [operation] = await client.createCluster(request);
  const [response] = await operation.promise();

  // Output a success message
  console.log(`Cluster created successfully: ${response.clusterName}`);

Python

Instala la biblioteca cliente.

Configura credenciales predeterminadas de la aplicación.

Ejecuta el código.

from google.cloud import dataproc_v1 as dataproc


def create_cluster(project_id, region, cluster_name):
    """This sample walks a user through creating a Cloud Dataproc cluster
    using the Python client library.

    Args:
        project_id (string): Project to use for creating resources.
        region (string): Region where the resources should live.
        cluster_name (string): Name to use for creating a cluster.
    """

    # Create a client with the endpoint set to the desired cluster region.
    cluster_client = dataproc.ClusterControllerClient(
        client_options={"api_endpoint": f"{region}-dataproc.googleapis.com:443"}
    )

    # Create the cluster config.
    cluster = {
        "project_id": project_id,
        "cluster_name": cluster_name,
        "config": {
            "master_config": {"num_instances": 1, "machine_type_uri": "n1-standard-2"},
            "worker_config": {"num_instances": 2, "machine_type_uri": "n1-standard-2"},
        },
    }

    # Create the cluster.
    operation = cluster_client.create_cluster(
        request={"project_id": project_id, "region": region, "cluster": cluster}
    )
    result = operation.result()

    # Output a success message.
    print(f"Cluster created successfully: {result.cluster_name}")

Crea un clúster Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Crea un clúster del servicio administrado para Apache Spark

gcloud

Crea un clúster con un archivo YAML

REST

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Console

Go

Java

Node.js

Python

Crea un clúster