Utiliser CMEK avec Google Cloud Serverless pour Apache Spark

Par défaut, Google Cloud Serverless pour Apache Spark chiffre le contenu client au repos. Serverless pour Apache Spark gère le chiffrement sans intervention de votre part. Cette option est appelée chiffrement par défaut de Google.

Si vous souhaitez contrôler vos clés de chiffrement, vous pouvez utiliser des clés de chiffrement gérées par le client (CMEK) dans Cloud KMS avec des services bénéficiant d'une intégration des CMEK, y compris Serverless pour Apache Spark. L'utilisation de clés Cloud KMS vous permet de contrôler leur niveau de protection, leur emplacement, leur calendrier de rotation, leurs autorisations d'utilisation et d'accès, ainsi que leurs limites cryptographiques. Cloud KMS vous permet également de suivre l'utilisation des clés, de consulter les journaux d'audit et de contrôler les cycles de vie des clés. Au lieu de laisser Google posséder et gérer les clés de chiffrement de clés (KEK) symétriques qui protègent vos données, c'est vous qui vous chargez de cette tâche dans Cloud KMS.

Une fois que vous avez configuré vos ressources avec des CMEK, l'accès à vos ressources Serverless pour Apache Spark est semblable à celui du chiffrement par défaut de Google. Pour en savoir plus sur les options de chiffrement, consultez Clés de chiffrement gérées par le client (CMEK).

Utiliser CMEK

Suivez les étapes de cette section pour utiliser CMEK afin de chiffrer les données que Google Cloud Serverless pour Apache Spark écrit sur le disque persistant et dans le bucket de préparation Dataproc.

À partir du 23 avril 2024 :

Serverless pour Apache Spark utilise également votre clé CMEK pour chiffrer les arguments des job par lot. Le rôle IAM Chiffreur/Déchiffreur de CryptoKey Cloud KMS doit être attribué au compte de service de l'agent de service Dataproc pour activer ce comportement. Si le rôle d'agent de service Dataproc n'est pas associé au compte de service de l'agent de service Dataproc, ajoutez l'autorisation serviceusage.services.use à un rôle personnalisé associé au compte de service de l'agent de service Dataproc . L'API Cloud KMS doit être activée sur le projet qui exécute les ressources Serverless pour Apache Spark.
batches.list renvoie un champ unreachable qui liste tous les lots avec des arguments de tâche qui n'ont pas pu être déchiffrés. Vous pouvez envoyer des requêtes batches.get pour obtenir plus d'informations sur les lots inaccessibles.
La clé (CMEK) doit se trouver au même emplacement que la ressource chiffrée. Par exemple, la clé CMEK utilisée pour chiffrer un lot exécuté dans la région us-central1 doit également se trouver dans la région us-central1.

Vous pouvez utiliser Cloud Key Management Service pour créer et gérer des trousseaux et des clés, ou utiliser Cloud KMS Autokey pour créer automatiquement des trousseaux et des clés de manière simplifiée.

Utiliser Cloud KMS Autokey

Activez Autokey sur le dossier contenant votre projet.
Créez un handle de clé. Lorsque vous créez le handle de clé, spécifiez dataproc.googleapis.com/Batch ou dataproc.googleapis.com/Session comme --resource-type. Autokey génère une clé et l'attribue au handle de clé.
Accordez des autorisations aux comptes de service et configurez votre charge de travail par lot ou de session en suivant les étapes 4 et 5 de la section Créer et utiliser des clés manuellement ci-dessous. Lorsque vous envoyez votre charge de travail, spécifiez le nom de ressource du handle de clé au lieu du nom de ressource de la clé dans le champ kmsKey.

Créer et utiliser manuellement des clés

Suivez ces étapes pour créer manuellement des clés Cloud KMS et les utiliser avec Serverless pour Apache Spark.

Créez une clé à l'aide de Cloud Key Management Service (Cloud KMS).
Copiez le nom de la ressource.

Le nom de la ressource se construit de la façon suivante :
```
projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
```
Autorisez les comptes de service Compute Engine, Dataproc et de l'agent de service Cloud Storage à utiliser votre clé :
1. Consultez Protéger les ressources à l'aide de clés Cloud KMS > Rôles requis pour attribuer le rôle Chiffreur/Déchiffreur de clés cryptographiques Cloud KMS au compte de service de l'agent de service Compute Engine. Si ce compte de service ne figure pas sur la page IAM de la console Google Cloud , cliquez sur Inclure les attributions de rôles fournies par Google pour l'afficher.
2. Attribuez le rôle Chiffreur/Déchiffreur de CryptoKey Cloud KMS au compte de service de l'agent de service Dataproc. Pour attribuer le rôle, vous pouvez utiliser Google Cloud CLI comme suit :
```
 gcloud projects add-iam-policy-binding KMS_PROJECT_ID \
 --member serviceAccount:service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
 --role roles/cloudkms.cryptoKeyEncrypterDecrypter
```
  Remplacez les éléments suivants :
  
  KMS_PROJECT_ID : ID de votre projet Google Cloud exécutant Cloud KMS. Il peut également s'agir du projet qui exécute les ressources Dataproc.
  
  PROJECT_NUMBER : numéro (et non ID) de votre projet Google Cloud qui exécute les ressources Dataproc.
3. Activez l'API Cloud KMS sur le projet qui exécute les ressources Serverless pour Apache Spark.
4. Si le rôle d'agent de service Dataproc n'est pas associé au compte de service de l'agent de service Dataproc, ajoutez l'autorisation serviceusage.services.use au rôle personnalisé associé au compte de service de l'agent de service Dataproc. Si le rôle "Agent de service Dataproc" est associé au compte de service de l'agent de service Dataproc, vous pouvez ignorer cette étape.
5. Suivez les étapes pour ajouter votre clé au bucket.
Lorsque vous soumettez une charge de travail par lot :
1. Spécifiez votre clé dans le paramètre kmsKey du lot.
2. Spécifiez le nom de votre bucket Cloud Storage dans le paramètre batch stagingBucket.
Lorsque vous créez une session interactive ou un modèle de session :
1. Spécifiez votre clé dans le paramètre de session kmsKey.
2. Spécifiez le nom de votre bucket Cloud Storage dans le paramètre de session stagingBucket.

Utiliser CMEK avec Google Cloud Serverless pour Apache Spark Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Utiliser CMEK

Utiliser Cloud KMS Autokey

Créer et utiliser manuellement des clés

Utiliser CMEK avec Google Cloud Serverless pour Apache Spark