"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Claves de encriptación administradas por el cliente (CMEK)

Cuando utilizas Managed Service para Apache Spark, los datos del clúster y del trabajo se almacenan en discos persistentes asociados con las VMs de Compute Engine en tu clúster y en un bucket de staging de Cloud Storage. De forma predeterminada, estos datos del disco persistente y del bucket se encriptan con una clave de encriptación de datos (DEK) generada por Google y una clave de encriptación de claves (KEK).

Si deseas controlar y administrar la clave de encriptación de claves (KEK), puedes usar claves de encriptación administradas por el cliente (CMEK) (Google sigue controlando la clave de encriptación de datos [DEK]). Para obtener más información sobre las claves de encriptación de datos de Google, consulta Encriptación en reposo.

Encriptación de datos del clúster con CMEK

Puedes usar claves de encriptación administradas por el cliente (CMEK) para encriptar los siguientes datos del clúster:

Datos en discos persistentes conectados a VMs de clústeres de Managed Service para Apache Spark
Datos de argumentos del trabajo enviados a tu clúster, como una cadena de consulta enviada con un trabajo de Spark SQL
Metadatos del clúster, resultado del controlador del trabajo y otros datos escritos en el bucket de staging de tu clúster de Managed Service para Apache Spark

Antes de comenzar

Accede a tu cuenta de Google Cloud . Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc, Cloud Key Management Service, Compute Engine, and Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Instala Google Cloud CLI.

Nota: Si ya instalaste gcloud CLI, ejecuta gcloud components update para asegurarte de tener la versión más reciente.

Si usas un proveedor de identidad externo (IdP), primero debes acceder a la gcloud CLI con tu identidad federada.

Para inicializar gcloud CLI, ejecuta el siguiente comando:

gcloud init

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc, Cloud Key Management Service, Compute Engine, and Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Instala Google Cloud CLI.

Nota: Si ya instalaste gcloud CLI, ejecuta gcloud components update para asegurarte de tener la versión más reciente.

Si usas un proveedor de identidad externo (IdP), primero debes acceder a la gcloud CLI con tu identidad federada.

Para inicializar gcloud CLI, ejecuta el siguiente comando:

gcloud init

Crea claves

Para proteger tus recursos de Managed Service para Apache Spark con CMEK, puedes automatizar la creación de claves o crearlas de forma manual.

Creación automática de claves

Usa Autokey para automatizar el aprovisionamiento y la asignación de CMEK. Autokey genera llaveros de claves y claves a pedido cuando se crean recursos. Los agentes de servicio usan las claves en las operaciones de encriptación y desencriptación. Si es necesario, Autokey crea los agentes y les otorga los roles de Identity and Access Management (IAM) requeridos. Para obtener más información, consulta Descripción general de las claves automáticas.

Creación manual de claves

Sigue estos pasos para crear manualmente claves para la encriptación con CMEK de los datos del clúster:

Crea una o más claves con Cloud KMS. El nombre del recurso, también llamado ID de recurso de una clave, que usarás en los pasos siguientes, se construye de la siguiente manera:
```
projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
```
Usa la página Claves criptográficas en la consola deGoogle Cloud para copiar el ID de un recurso de clave en el portapapeles.
La clave (CMEK) debe estar en la misma ubicación que el recurso encriptado. Por ejemplo, la CMEK que se usa para encriptar un recurso en la región us-central1 también debe estar ubicada en esa región.us-central1
Para asegurarte de que cada una de las siguientes cuentas de servicio, cuenta de servicio del agente de servicio de Compute Engine, cuenta de servicio del agente de servicio de Cloud Storage y cuenta de servicio del agente de servicio de Managed Service for Apache Spark, tenga los permisos necesarios para proteger los recursos con claves de Cloud KMS, pídele a tu administrador que otorgue el rol de IAM de Encriptador/Desencriptador de CryptoKey de Cloud KMS (roles/cloudkms.cryptoKeyEncrypterDecrypter) a cada una de las siguientes cuentas de servicio, cuenta de servicio del agente de servicio de Compute Engine, cuenta de servicio del agente de servicio de Cloud Storage y cuenta de servicio del agente de servicio de Managed Service for Apache Spark, en tu proyecto.

Ejemplo de asignación del rol de Encriptador/Desencriptador de CryptoKey de Cloud KMS a la cuenta de servicio del agente de servicio de Managed Service para Apache Spark con Google Cloud CLI:
```
gcloud projects add-iam-policy-binding KMS_PROJECT_ID \
--member serviceAccount:service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
--role roles/cloudkms.cryptoKeyEncrypterDecrypter
```
Reemplaza lo siguiente:

KMS_PROJECT_ID: Es el ID de tu Google Cloud proyecto que contiene la clave de Cloud KMS.

PROJECT_NUMBER: Es el número del proyecto (no el ID del proyecto) de tu proyecto de Google Cloud que ejecuta recursos de Managed Service para Apache Spark.
Si el rol de agente de servicio de Managed Service para Apache Spark no está asociado a la cuenta de servicio de agente de servicio de Managed Service para Apache Spark, agrega el permiso serviceusage.services.use a un rol personalizado asociado a la cuenta de servicio de agente de servicio de Managed Service para Apache Spark.

Crea un clúster con CMEK

Pasa el ID del recurso de tu clave cuando crees el clúster de Managed Service para Apache Spark.

gcloud CLI

Para encriptar los datos del disco persistente del clúster con tu clave, pasa el ID del recurso de tu clave a la marca --gce-pd-kms-key cuando crees el clúster.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --gce-pd-kms-key='projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME' \
    other arguments ...

Puedes verificar la configuración de la clave desde la herramienta de línea de comandos de gcloud.

gcloud dataproc clusters describe CLUSTER_NAME \
    --region=REGION

Fragmento del resultado del comando:

...
configBucket: dataproc- ...
  encryptionConfig:
    gcePdKmsKeyName: projects/project-id/locations/region/keyRings/key-ring-name/cryptoKeys/key-name
...

Para encriptar los datos del disco persistente del clúster y los datos de los argumentos del trabajo con tu clave, pasa el ID del recurso de la clave a la marca --kms-key cuando crees el clúster. Consulta [Cluster.EncryptionConfig.kmsKey](/managed-spark/docs/reference/rest/v1/ClusterConfig#EncryptionConfig.FIELDS.kms_key) para obtener una lista de los tipos de trabajos y argumentos que se encriptan con la marca `--kms-key`.
```
gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --kms-key='projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME' \
    other arguments ...
      
```
Puedes verificar la configuración de la clave con el comando dataproc clusters describe de gcloud CLI. El ID del recurso de la clave se configura en gcePdKmsKeyName y kmsKey para usar tu clave con la encriptación de los datos de argumentos del trabajo y del disco persistente del clúster.
```
gcloud dataproc clusters describe CLUSTER_NAME \
    --region=REGION
      
```
Fragmento del resultado del comando:
```
...
configBucket: dataproc- ...
  encryptionConfig:
  gcePdKmsKeyName: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
  kmsKey: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
...
    
```
Puedes usar la marca --gce-pd-kms-key o la marca --kms-key, pero no ambas, para encriptar los datos del clúster con tu clave.
Para encriptar los metadatos del clúster, el controlador de trabajos y otros datos de salida escritos en tu bucket de staging de Managed Service para Apache Spark en Cloud Storage, haz lo siguiente:
- Crea tu propio bucket con CMEK. Cuando agregues la clave al bucket, usa una clave que hayas creado en el paso 1.
- Pasa el nombre del bucket a la marca --bucket cuando crees el clúster.
```
gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --bucket=CMEK_BUCKET_NAME \
    other arguments ...
        
```
También puedes pasar buckets habilitados para CMEK al comando "gcloud dataproc jobs submit" si tu trabajo toma argumentos de bucket, como se muestra en el siguiente ejemplo de "cmek-bucket":
```
gcloud dataproc jobs submit pyspark gs://cmek-bucket/wordcount.py \
    --region=region \
    --cluster=cluster-name \
    -- gs://cmek-bucket/shakespeare.txt gs://cmek-bucket/counts
      
```
- Managed Service para Apache Spark no administra las claves de encriptación administradas por el cliente en tu bucket de Cloud Storage.
- El uso de un bucket con una clave de encriptación administrada por el cliente puede demorar el tiempo de escritura en los archivos grandes.

API de REST

Para encriptar los datos del disco persistente de la VM del clúster con tu clave, incluye el campo ClusterConfig.EncryptionConfig.gcePdKmsKeyName como parte de una solicitud cluster.create.
Puedes verificar la configuración de la clave con el comando dataproc clusters describe de gcloud CLI.
```
gcloud dataproc clusters describe CLUSTER_NAME \
    --region=REGION
    
```
Fragmento del resultado del comando:
```
...
configBucket: dataproc- ...
  encryptionConfig:
    gcePdKmsKeyName: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
...
    
```
Para encriptar los datos del disco persistente de la VM del clúster y los datos de los argumentos del trabajo con tu clave, incluye el campo Cluster.EncryptionConfig.kmsKey como parte de una solicitud cluster.create. Consulta Cluster.EncryptionConfig.kmsKey para obtener una lista de los tipos de trabajos y argumentos que se encriptan con el campo --kms-key.
Puedes incluir el campo Cluster.EncryptionConfig.gcePdKmsKeyName o el campo Cluster.EncryptionConfig.kmsKey, pero no ambos, en tu solicitud de creación de clúster.

Puedes verificar la configuración de la clave con el comando dataproc clusters describe de gcloud CLI. El ID del recurso de la clave se configura en gcePdKmsKeyName y kmsKey para usar tu clave con la encriptación de los datos de argumentos del trabajo y del disco persistente del clúster.
```
gcloud dataproc clusters describe CLUSTER_NAME \
    --region=REGION
    
```
Fragmento del resultado del comando:
```
...
configBucket: dataproc- ...
  encryptionConfig:
    gcePdKmsKeyName: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
    kmsKey: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
...
    
```
Para encriptar los metadatos del clúster, el controlador de trabajos y otros datos de salida escritos en tu bucket de staging de Managed Service para Apache Spark en Cloud Storage, haz lo siguiente:
- Crea tu propio bucket con CMEK. Cuando agregues la clave al bucket, usa una clave que hayas creado en el paso 1.
- Pasa el nombre del bucket al campo ClusterConfig.configBucket como parte de una solicitud cluster.create.
```
gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --bucket=CMEK_BUCKET_NAME \
    other arguments ...
    
```
- Managed Service para Apache Spark no administra las claves de encriptación administradas por el cliente en tu bucket de Cloud Storage.
- El uso de un bucket con una clave de encriptación administrada por el cliente puede demorar el tiempo de escritura en los archivos grandes.
También puedes pasar buckets habilitados para CMEK al comando "gcloud dataproc jobs submit" si tu trabajo toma argumentos de bucket, como se muestra en el siguiente ejemplo de "cmek-bucket":
```
gcloud dataproc jobs submit pyspark gs://cmek-bucket/wordcount.py \
    --region=region \
    --cluster=cluster-name \
    -- gs://cmek-bucket/shakespeare.txt gs://cmek-bucket/counts
      
```

Usa CMEK con datos de plantillas de flujo de trabajo

Los datos de argumentos de trabajos de plantillas de flujo de trabajo de Managed Service para Apache Spark, como la cadena de consulta de un trabajo de Spark SQL, se pueden encriptar con la CMEK. Sigue los pasos 1, 2 y 3 de esta sección para usar CMEK con tu plantilla de flujo de trabajo de Managed Service para Apache Spark. Consulta WorkflowTemplate.EncryptionConfig.kmsKey para obtener una lista de los tipos de trabajos y argumentos de plantillas de flujos de trabajo que se encriptan con la CMEK cuando se habilita esta función.

Crea una clave con Cloud KMS. El nombre del recurso de la clave, que usarás en los pasos siguientes, se construye de la siguiente manera:
```
projects/project-id/locations/region/keyRings/key-ring-name/cryptoKeys/key-name
```
Usa la página Claves criptográficas de la consola deGoogle Cloud para copiar el ID de recurso de una clave en el portapapeles.
Para permitir que las cuentas de servicio de Managed Service para Apache Spark usen tu clave, haz lo siguiente:
1. Asigna el rol CryptoKey Encrypter/Decrypter de Cloud KMS a la cuenta de servicio del agente de servicio de Managed Service para Apache Spark. Puedes usar gcloud CLI para asignar el rol:
```
 gcloud projects add-iam-policy-binding KMS_PROJECT_ID \
 --member serviceAccount:service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
 --role roles/cloudkms.cryptoKeyEncrypterDecrypter
```
  Reemplaza lo siguiente:
  
  KMS_PROJECT_ID: Es el ID de tu proyecto Google Cloud que ejecuta Cloud KMS. Este proyecto también puede ser el que ejecuta los recursos de Managed Service para Apache Spark.
  
  PROJECT_NUMBER: Es el número del proyecto (no el ID del proyecto) de tu proyecto de Google Cloud que ejecuta recursos de Managed Service para Apache Spark.
2. Habilita la API de Cloud KMS en el proyecto que ejecuta los recursos de Managed Service para Apache Spark.
3. Si el rol de agente de servicio de Managed Service para Apache Spark no está asociado a la cuenta de servicio de agente de servicio de Managed Service para Apache Spark, agrega el permiso serviceusage.services.use al rol personalizado asociado a la cuenta de servicio de agente de servicio de Managed Service para Apache Spark. Si el rol de agente de servicio de Managed Service para Apache Spark está adjunto a la cuenta de servicio del agente de servicio de Managed Service para Apache Spark, puedes omitir este paso.
Puedes usar gcloud CLI o la API de Dataproc para establecer la clave que creaste en el paso 1 en un flujo de trabajo. Una vez que se establece la clave en un flujo de trabajo, todos los argumentos y las consultas del trabajo del flujo de trabajo se encriptan con la clave para cualquiera de los tipos de trabajo y argumentos que se enumeran en WorkflowTemplate.EncryptionConfig.kmsKey.
gcloud CLI

Pasa el ID del recurso de tu clave a la marca --kms-key cuando crees la plantilla de flujo de trabajo con el comando gcloud dataproc workflow-templates create.

Ejemplo:
```
gcloud dataproc workflow-templates create my-template-name \
    --region=region \
    --kms-key='projects/project-id/locations/region/keyRings/key-ring-name/cryptoKeys/key-name' \
    other arguments ...
```
Puedes verificar la configuración de la clave desde la herramienta de línea de comandos de gcloud.
```
gcloud dataproc workflow-templates describe TEMPLATE_NAME \
    --region=REGION
```
```
...
id: my-template-name
encryptionConfig:
kmsKey: projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
...
```
API de REST

Usa WorkflowTemplate.EncryptionConfig.kmsKey como parte de una solicitud workflowTemplates.create.

Puedes verificar la configuración de la clave con una solicitud workflowTemplates.get. El JSON que se muestra contiene el kmsKey:
```
...
"id": "my-template-name",
"encryptionConfig": {
  "kmsKey": "projects/project-id/locations/region/keyRings/key-ring-name/cryptoKeys/key-name"
},
```

Cloud External Key Manager

Cloud External Key Manager (Cloud EKM) te permite proteger los datos de Managed Service para Apache Spark con claves administradas por un socio externo de administración de claves compatible. Los pasos que debes seguir para usar Cloud EKM en Managed Service para Apache Spark son los mismos que usas para configurar claves CMEK, con la siguiente diferencia: tu clave apunta a un URI para la clave administrada de forma externa (consulta Descripción general de Cloud EKM).

Errores de Cloud EKM

Cuando usas Cloud EKM, un intento de crear un clúster puede fallar debido a errores asociados con entradas, Cloud EKM, el sistema de administración de claves externas, o comunicaciones entre Cloud EKM y el sistema externo. Si usas la API de REST o la consola de Google Cloud , los errores se registran en Cloud Logging. Puedes examinar los errores del clúster con errores desde la pestaña Ver registro.

Claves de encriptación administradas por el cliente (CMEK) Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Encriptación de datos del clúster con CMEK

Antes de comenzar

Crea claves

Creación automática de claves

Creación manual de claves

Crea un clúster con CMEK

gcloud CLI

API de REST

Usa CMEK con datos de plantillas de flujo de trabajo

gcloud CLI

API de REST

Cloud External Key Manager

Errores de Cloud EKM

Claves de encriptación administradas por el cliente (CMEK)