Cas d'utilisation : contrôle des accès pour un cluster Managed Service pour Apache Spark dans un autre projet

Cette page explique comment gérer le contrôle des accès lorsque vous déployez et exécutez un pipeline qui utilise des clusters Managed Service pour Apache Spark dans un autre Google Cloud projet.

Scénario

Par défaut, lorsqu'une instance Cloud Data Fusion est lancée dans un Google Cloud projet, elle déploie et exécute des pipelines à l'aide de clusters Managed Service pour Apache Spark dans le même projet. Toutefois, votre organisation peut vous demander d'utiliser des clusters dans un autre projet. Dans ce cas d'utilisation, vous devez gérer l'accès entre les projets. La page suivante explique comment modifier les configurations de référence (par défaut) et appliquer les contrôles d'accès appropriés.

Avant de commencer

Pour comprendre les solutions de ce cas d'utilisation, vous devez disposer du contexte suivant :

Hypothèses et champ d'application

Ce cas d'utilisation présente les exigences suivantes :

  • Une instance Cloud Data Fusion privée. Pour des raisons de sécurité, une organisation peut vous demander d'utiliser ce type d'instance.
  • Une source et un récepteur BigQuery.
  • Contrôle des accès avec IAM, et non contrôle d'accès basé sur les rôles.

Solution

Cette solution compare l'architecture et la configuration de référence à celles spécifiques au cas d'utilisation.

Architecture

Les schémas suivants comparent l'architecture du projet pour la création d'une instance Cloud Data Fusion et l'exécution de pipelines lorsque vous utilisez des clusters dans le même projet (de référence) et dans un autre projet via le VPC du projet locataire.

Architecture de référence

Ce schéma présente l'architecture de référence des projets :

Architecture des projets locataires, clients et Dataproc dans Cloud Data Fusion.

Pour la configuration de référence, vous créez une instance Cloud Data Fusion privée et exécutez un pipeline sans personnalisation supplémentaire :

  • Vous utilisez l'un des profils de calcul intégrés.
  • La source et le récepteur se trouvent dans le même projet que l'instance.
  • Aucun rôle supplémentaire n'a été attribué à l'un des comptes de service.

Pour en savoir plus sur les projets locataires et clients, consultez la section Mise en réseau.

Architecture du cas d'utilisation

Ce schéma présente l'architecture du projet lorsque vous utilisez des clusters dans un autre projet :

Architecture des projets locataires, clients et Dataproc dans Cloud Data Fusion.

Configurations

Les sections suivantes comparent les configurations de référence aux configurations spécifiques au cas d'utilisation pour l'utilisation de clusters Managed Service pour Apache Spark dans un autre projet via le VPC par défaut du projet locataire.

Dans les descriptions de cas d'utilisation suivantes, le projet client est celui dans lequel l'instance Cloud Data Fusion s'exécute, et le projet Managed Service pour Apache Spark est celui dans lequel le cluster Managed Service pour Apache Spark est lancé.

VPC et instance du projet locataire

Référence Cas d'utilisation
Dans le schéma d'architecture de référence précédent, le projet locataire contient les composants suivants :
  • Le VPC par défaut, qui est créé automatiquement.
  • Le déploiement physique de l'instance Cloud Data Fusion.
Aucune configuration supplémentaire n'est nécessaire pour ce cas d'utilisation.

Projet client

Référence Cas d'utilisation
Votre Google Cloud projet est celui dans lequel vous déployez et exécutez des pipelines. Par défaut, les clusters Managed Service pour Apache Spark sont lancés dans ce projet lorsque vous exécutez vos pipelines. Dans ce cas d'utilisation, vous gérez deux projets. Sur cette page, le projet client fait référence à l'endroit où l'instance Cloud Data Fusion s'exécute.
Le projet Managed Service pour Apache Spark fait référence à l'endroit où les clusters Managed Service pour Apache Spark sont lancés.

VPC client

Référence Cas d'utilisation

De votre point de vue (celui du client), le VPC client est l'endroit où Cloud Data Fusion est situé logiquement.


Point clé
Vous trouverez les détails du VPC client sur la page "Réseaux VPC" de votre projet.

Accéder aux réseaux VPC

Aucune configuration supplémentaire n'est nécessaire pour ce cas d'utilisation.

Sous-réseau Cloud Data Fusion

Référence Cas d'utilisation

De votre point de vue (celui du client), ce sous-réseau est l'endroit où Cloud Data Fusion est situé logiquement.


Point clé
La région de ce sous-réseau est la même que celle de l'instance Cloud Data Fusion dans le projet locataire.
Aucune configuration supplémentaire n'est nécessaire pour ce cas d'utilisation.

Sous-réseau Managed Service pour Apache Spark

Référence Cas d'utilisation

Le sous-réseau dans lequel les clusters Managed Service pour Apache Spark sont lancés lorsque vous exécutez un pipeline.


Points clés :
  • Pour cette configuration de référence, Managed Service pour Apache Spark est exécuté dans le même sous-réseau que l'instance Cloud Data Fusion.
  • Cloud Data Fusion localise un sous-réseau dans la même région que l'instance et le sous-réseau de Cloud Data Fusion. S'il n'y a qu'un seul sous-réseau dans cette région, les sous-réseaux sont identiques.
  • Le sous-réseau Managed Service pour Apache Spark doit disposer de l'accès privé à Google.

Il s'agit d'un nouveau sous-réseau dans lequel les clusters Managed Service pour Apache Spark sont lancés lorsque vous exécutez un pipeline.


Points clés :
  • Pour ce nouveau sous-réseau, définissez l'accès privé à Google sur Activé.
  • Le sous-réseau Managed Service pour Apache Spark n'a pas besoin de se trouver au même emplacement que l'instance Cloud Data Fusion.

Sources et récepteurs

Référence Cas d'utilisation

Les sources à partir desquelles les données sont extraites et les récepteurs dans lesquels les données sont chargées, tels que les sources et les récepteurs BigQuery.


Point clé:
  • Les tâches qui récupèrent et chargent des données doivent être traitées au même emplacement que l'ensemble de données, sinon une erreur se produit.
Les configurations de contrôle des accès spécifiques au cas d'utilisation sur cette page concernent les sources et les récepteurs BigQuery.

Cloud Storage

Référence Cas d'utilisation

Le bucket de stockage dans le projet client qui permet de transférer des fichiers entre Cloud Data Fusion et Managed Service for Apache Spark.


Points clés :
  • Vous pouvez spécifier ce bucket via l'interface Web Cloud Data Fusion dans les paramètres Profil de calcul pour les clusters éphémères.
  • Pour les pipelines par lot et en temps réel, ou les tâches de réplication : si vous ne spécifiez pas de bucket dans le profil de calcul, Cloud Data Fusion en crée un dans le même projet que l'instance à cet effet.
  • Même pour les clusters Managed Service pour Apache Spark statiques, dans cette configuration de référence, le bucket est créé par Cloud Data Fusion et diffère des buckets de préproduction et temporaires Managed Service pour Apache Spark.
  • L'agent de service de l'API Cloud Data Fusion dispose d'autorisations intégrées pour créer ce bucket dans le projet contenant l'instance Cloud Data Fusion.
Aucune configuration supplémentaire n'est nécessaire pour ce cas d'utilisation.

Buckets temporaires utilisés par la source et le récepteur

Référence Cas d'utilisation

Les buckets temporaires créés par les plug-ins pour vos sources et récepteurs, tels que les tâches de chargement initiées par le plug-in récepteur BigQuery.


Points clés :
  • Vous pouvez définir ces buckets lorsque vous configurez les propriétés du plug-in source et récepteur.
  • Si vous ne définissez pas de bucket, un bucket est créé dans le même projet où Managed Service pour Apache Spark s'exécute.
  • Si l'ensemble de données est multirégional, le bucket est créé dans le même champ d'application.
  • Si vous définissez un bucket dans la configuration du plug-in, la région de celle du bucket doit correspondre à celle de l'ensemble de données.
  • Si vous ne définissez pas de bucket dans les configurations du plug-in, celui qui est créé pour vous est supprimé à la fin du pipeline.
Pour ce cas d'utilisation, le bucket peut être créé dans n'importe quel projet.

Buckets qui sont des sources ou des récepteurs de données pour les plug-ins

Référence Cas d'utilisation
Buckets client, que vous spécifiez dans les configurations des plug-ins, tels que le plug-in Cloud Storage et le plug-in FTP vers Cloud Storage. Aucune configuration supplémentaire n'est nécessaire pour ce cas d'utilisation.

IAM : agent de service de l'API Cloud Data Fusion

Référence Cas d'utilisation

Lorsque l'API Cloud Data Fusion est activée, le rôle Agent de service de l'API Cloud Data Fusion (roles/datafusion.serviceAgent) est automatiquement attribué au compte de service Cloud Data Fusion, l'agent de service principal.


Points clés :
  • Le rôle contient des autorisations pour les services du même projet que l'instance, tels que BigQuery et Managed Service pour Apache Spark. Pour tous les services compatibles, consultez les détails du rôle.
  • Le compte de service Cloud Data Fusion effectue les opérations suivantes :
    • Communication du plan de données (conception et exécution du pipeline) avec d'autres services (par exemple, communication avec Cloud Storage, BigQuery et Datastream au moment de la conception).
    • Provisionnement des clusters Managed Service pour Apache Spark.
  • Si vous effectuez une réplication à partir d'une source Oracle, ce compte de service doit également disposer des rôles Administrateur Datastream et Administrateur de l'espace de stockage dans le projet où la tâche a lieu. Cette page ne traite pas d'un cas d'utilisation de réplication.

Pour ce cas d'utilisation, attribuez le rôle Agent de service de l'API Cloud Data Fusion au compte de service dans le projet Managed Service pour Apache Spark. Attribuez ensuite les rôles suivants dans ce projet :

  • Rôle d'utilisateur de réseau de Compute
  • Rôle Éditeur Dataproc

IAM : compte de service Managed Service pour Apache Spark

Référence Cas d'utilisation

Le compte de service utilisé pour exécuter le pipeline en tant que tâche dans le cluster Managed Service pour Apache Spark. Par défaut, il s'agit du compte de service Compute Engine.


Facultatif : dans la configuration de référence, vous pouvez remplacer le compte de service par défaut compte de service par un autre compte de service du même projet. Attribuez les rôles IAM suivants au nouveau compte de service :

  • Le rôle Exécuteur Cloud Data Fusion. Ce rôle permet à Managed Service pour Apache Spark de communiquer avec l'API Cloud Data Fusion.
  • Le rôle Nœud de calcul Dataproc. Ce rôle permet aux tâches de s'exécuter sur Managed Service pour Apache Spark clusters.
Points clés :
  • Le rôle Utilisateur du compte de service doit être attribué au compte de service de l'agent d'API sur le compte de service Managed Service pour Apache Spark afin que l'agent d'API de service puisse l'utiliser pour lancer des clusters Managed Service pour Apache Spark.

Cet exemple de cas d'utilisation suppose que vous utilisez le compte de service Compute Engine par défaut (PROJECT_NUMBER-compute@developer.gserviceaccount.com) du projet Managed Service pour Apache Spark.


Attribuez les rôles suivants au compte de service Compute Engine par défaut dans le projet Managed Service pour Apache Spark.

  • Le rôle Nœud de calcul Dataproc
  • Le rôle Administrateur de l'espace de stockage (ou, au minimum, l' autorisation `storage.buckets.create`) pour permettre à Managed Service pour Apache Spark de créer des buckets temporaires pour BigQuery.
  • Rôle Utilisateur de job BigQuery. Ce rôle permet à Managed Service pour Apache Spark de créer des tâches de chargement. Les tâches sont créées par défaut dans le projet Managed Service pour Apache Spark.
  • Rôle Éditeur d'ensemble de données BigQuery. Ce rôle permet à Managed Service pour Apache Spark de créer des ensembles de données lors du chargement des données.

Attribuez le rôle Utilisateur du compte de service au compte de service Cloud Data Fusion sur le compte de service Compute Engine par défaut du projet Managed Service pour Apache Spark. Cette action doit être effectuée dans le projet Managed Service pour Apache Spark.

Ajoutez le compte de service Compute Engine par défaut du projet Managed Service pour Apache Spark au projet Cloud Data Fusion. Attribuez également les rôles suivants :

  • Le rôle Lecteur des objets Storage pour récupérer les artefacts associés aux tâches de pipeline à partir du bucket consommateur Cloud Data Fusion.
  • Le rôle Exécuteur Cloud Data Fusion, afin que le cluster Managed Service pour Apache Spark puisse communiquer avec Cloud Data Fusion pendant son exécution.

API

Référence Cas d'utilisation
Lorsque vous activez l'API Cloud Data Fusion, les API suivantes sont également activées. Pour en savoir plus sur ces API, accédez à la page "API et services" de votre projet.

Accéder à "API et services"

  • API Cloud Autoscaling
  • API Dataproc
  • API Cloud Dataproc Control
  • Cloud DNS API
  • API Cloud OS Login
  • API Pub/Sub
  • API Compute Engine
  • API Container Filesystem
  • API Container Registry
  • API Service Account Credentials
  • API Identity and Access Management
  • API Kubernetes Engine

Lorsque vous activez l'API Cloud Data Fusion, les comptes de service suivants sont automatiquement ajoutés à votre projet :

  • Agent de service des API Google
  • Agent de service Compute Engine
  • Agent de service Kubernetes Engine
  • Agent de service Google Container Registry
  • Agent de service Google Cloud Dataproc
  • Agent de service Cloud KMS
  • Compte de service Cloud Pub/Sub
Pour ce cas d'utilisation, activez les API suivantes dans le projet qui contient le projet Managed Service pour Apache Spark :
  • API Compute Engine
  • API Dataproc (elle est probablement déjà activée dans ce projet). L'API Dataproc Control est automatiquement activée lorsque vous activez l'API Dataproc.
  • API Resource Manager.

Clés de chiffrement

Référence Cas d'utilisation

Dans la configuration de référence, les clés de chiffrement peuvent être gérées par Google ou CMEK


Points clés :

Si vous utilisez CMEK, votre configuration de référence nécessite les éléments suivants :

  • La clé doit être régionale et créée dans la même région que l' Cloud Data Fusion instance.
  • Attribuez le rôle Chiffreur/Déchiffreur de CryptoKey Cloud KMS aux comptes de service suivants au niveau de la clé (et non sur la page IAM de la Google Cloud console) dans le projet où elle est créée :
    • Compte de service de l'API Cloud Data Fusion
    • Compte de service Managed Service pour Apache Spark, qui est l'agent de service Compute Engine (service-PROJECT_NUMBER@compute-system.iam.gserviceaccount.com) par défaut
    • Agent de service Google Cloud Dataproc (service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com)
    • Agent de service Cloud Storage (service-PROJECT_NUMBER@gs-project-accounts.iam.gserviceaccount.com)

En fonction des services utilisés dans votre pipeline, tels que BigQuery ou Cloud Storage, le rôle Chiffreur/Déchiffreur de CryptoKey Cloud KMS doit également être attribué aux comptes de service :

  • Le compte de service BigQuery (bq-PROJECT_NUMBER@bigquery-encryption.iam.gserviceaccount.com)
  • Le compte de service Pub/Sub (service-PROJECT_NUMBER@gcp-sa-pubsub.iam.gserviceaccount.com)
  • Le compte de service Spanner (service-PROJECT_NUMBER@gcp-sa-spanner.iam.gserviceaccount.com)

Si vous n'utilisez pas CMEK, aucune modification supplémentaire n'est nécessaire pour ce cas d'utilisation.

Si vous utilisez CMEK, le rôle Chiffreur/Déchiffreur de CryptoKey Cloud KMS doit être attribué au compte de service suivant au niveau de la clé dans le projet où elle est créée :

  • Agent de service Cloud Storage (service-PROJECT_NUMBER@gs-project-accounts.iam.gserviceaccount.com)

En fonction des services utilisés dans votre pipeline, tels que BigQuery ou Cloud Storage, le rôle Chiffreur/Déchiffreur de CryptoKey Cloud KMS doit également être attribué à d'autres comptes de service au niveau de la clé. Exemple :

  • Le compte de service BigQuery (bq-PROJECT_NUMBER@bigquery-encryption.iam.gserviceaccount.com)
  • Le compte de service Pub/Sub (service-PROJECT_NUMBER@gcp-sa-pubsub.iam.gserviceaccount.com)
  • Le compte de service Spanner (service-PROJECT_NUMBER@gcp-sa-spanner.iam.gserviceaccount.com)

Une fois ces configurations spécifiques au cas d'utilisation effectuées, votre pipeline de données peut commencer à s'exécuter sur des clusters dans un autre projet.

Étape suivante