Configuration du réseau du cluster Dataproc

Description : Comprendre la configuration réseau des clusters Dataproc. Implémentez des routes VPC, des règles de pare-feu, l'accès privé à Google et le VPC partagé pour des déploiements sécurisés avec des adresses IP internes uniquement.

Cette page explique les exigences et les options de configuration réseau des clusters Dataproc.

Exigences de connectivité Dataproc

Votre cluster Dataproc doit se trouver dans un réseau Virtual Private Cloud qui répond aux exigences de routage et de pare-feu pour accéder de manière sécurisée aux API Google et à d'autres ressources.

Exigences de routage

Pour établir une communication entre l'agent Dataproc exécuté sur les VM du cluster et l'API de contrôle Dataproc, le réseau VPC du cluster Dataproc doit disposer d'une route vers la passerelle Internet. Cela est également requis pour les clusters avec des adresses IP internes uniquement.

Par défaut, les clusters de version d'image Dataproc 2.2 et ultérieures provisionnent des VM avec des adresses IP internes uniquement. Dataproc active automatiquement l'accès privé à Google (PGA) sur le sous-réseau du cluster pour permettre aux VM du cluster avec des adresses IP internes d'accéder aux API et services Google à l'aide d'une route par défaut générée par le système vers la passerelle Internet par défaut.

Règle Type Plage d'adresses IP de destination Priorité Limites du champ d'application Saut suivant
default-route-[id] Statique 0.0.0.0/0 1000 - Passerelle Internet par défaut

Le PGA garantit que le trafic du cluster ne transite pas par l'Internet public et ne quitte pas les centres de données Google (voir le schéma d'exemple du PGA).

consultez Options de routage.

Il n'est pas recommandé de supprimer la route par défaut vers la passerelle Internet. Si vous souhaitez contrôler l'accès réseau à Internet, utilisez plutôt des règles ou des stratégies de pare-feu.

Si vous avez supprimé la route par défaut vers la passerelle Internet, vous devez ajouter une route par défaut. La plage d'adresses IP de destination doit être 0.0.0.0/0, car les plages d'adresses IP de l'API de contrôle Dataproc ne sont pas statiques.

Exigences de pare-feu

Le réseau VPC de votre cluster Dataproc doit autoriser explicitement le trafic suivant :

  • Trafic initié à partir des VM du cluster Dataproc vers l'API de contrôle Dataproc et d'autres VM du cluster Dataproc. Ce trafic est autorisé par défaut par la règle implicite "allow-all" de sortie du réseau VPC. Si vous avez ajouté des règles de pare-feu de refus de sortie prioritaires, créez une règle de pare-feu d'autorisation de sortie.

  • Le trafic de réponse de l'API de contrôle Dataproc vers les VM du cluster Dataproc est autorisé par défaut, en raison de l'état du pare-feu du réseau VPC.

  • Trafic reçu par les VM du cluster Dataproc provenant d'autres VM du cluster Dataproc. Ce trafic sera refusé par défaut par la règle de pare-feu implicite "deny all" d'entrée du réseau VPC. Vous devez créer une règle de pare-feu d'autorisation d'entrée.

Bonnes pratiques :

  • Utilisez des tags réseau pour les VM de votre cluster Dataproc afin de limiter l'applicabilité des règles de pare-feu requises aux VM du cluster Dataproc uniquement. Si vous n'utilisez pas de tags réseau, vous pouvez spécifier des cibles par le compte de service utilisé pour les VM du cluster. Sinon, vous pouvez configurer des règles de pare-feu pour qu'elles s'appliquent à toutes les VM du réseau VPC.
  • Pour un accès et une connectivité réseau plus sécurisés, utilisez des tags sécurisés au lieu de tags réseau pour définir les sources et les cibles des règles de pare-feu.

Créer une règle de pare-feu d'autorisation d'entrée

Si vous ou votre administrateur réseau ou de sécurité créez une règle de pare-feu d'entrée à appliquer à un réseau VPC de cluster Dataproc, elle doit présenter les caractéristiques suivantes :

  • Le paramètre sources spécifie les sources des paquets. Toutes les VM du cluster Dataproc doivent pouvoir communiquer entre elles. Vous pouvez identifier les VM du cluster par plage d'adresses IP (plage principale du sous-réseau du cluster Dataproc), par tags réseau ou par comptes de service associés aux VM.

  • Les cibles de la règle doivent identifier les VM du cluster. Les cibles peuvent être toutes les VM du réseau VPC, ou vous pouvez identifier les VM par tag réseau cible ou par compte de service cible.

  • La règle doit inclure les protocoles et ports suivants :

    • TCP (tous les ports, 0 à 65535)
    • UDP (tous les ports, 0 à 65535)
    • ICMP

    Dataproc utilise des services qui s'exécutent sur plusieurs ports. La spécification de tous les ports facilite l'exécution des services.

  • La priorité de la règle doit être supérieure à celle de toutes les règles de pare-feu de refus d'entrée qui s'appliquent aux mêmes sources et cibles.

Créer une règle de pare-feu d'autorisation de sortie

Si vous ou votre administrateur réseau ou de sécurité créez une règle de pare-feu de sortie à appliquer à un réseau VPC de cluster Dataproc, elle doit présenter les caractéristiques suivantes :

  • Le destinations paramètre spécifie les destinations des paquets. Toutes les VM du cluster Dataproc doivent pouvoir initier du trafic entre elles et vers l'API de contrôle Dataproc. Étant donné que les adresses IP de l'API de contrôle ne sont pas statiques, la destination doit être spécifiée par la plage d'adresses IP 0.0.0.0/0.

  • Les cibles de la règle doivent identifier les VM du cluster. Les cibles peuvent être toutes les VM du réseau VPC, ou vous pouvez identifier les VM par tag réseau cible ou par compte de service cible.

  • La règle doit inclure les protocoles et ports suivants :

    • TCP (tous les ports, 0 à 65535)
    • UDP (tous les ports, 0 à 65535)
    • ICMP

    Dataproc utilise des services qui s'exécutent sur plusieurs ports. La spécification de tous les ports facilite l'exécution des services.

  • La priorité de la règle doit être supérieure à celle de toutes les règles de pare-feu de refus de sortie qui s'appliquent aux mêmes destinations et cibles.

Diagnostiquer les règles de pare-feu du réseau VPC

Pour auditer les paquets non traités par des règles de pare-feu de priorité supérieure, vous pouvez créer les deux règles de pare-feu de refus suivantes avec une faible priorité (65534). Contrairement aux règles de pare-feu implicites, vous pouvez activer la journalisation des règles de pare-feu pour chacune de ces règles de faible priorité :

  1. Une règle de refus d'entrée (sources 0.0.0.0/0, tous les protocoles, toutes les cibles du réseau VPC)

  2. Une règle de refus de sortie (destinations 0.0.0.0/0, tous les protocoles, toutes les cibles du réseau VPC)

  • Grâce à ces règles de faible priorité et à la journalisation des règles de pare-feu, vous pouvez consigner les paquets non traités par des règles de pare-feu de priorité supérieure (et potentiellement plus spécifiques). Ces deux règles de faible priorité respectent également les bonnes pratiques de sécurité en mettant en œuvre une stratégie de "paquets supprimés" finale.

  • Consultez les journaux des règles de pare-feu pour déterminer si vous souhaitez créer ou modifier des règles de priorité plus élevée afin d'autoriser les paquets. Par exemple, si des paquets envoyés entre les VM du cluster Dataproc sont supprimés, cela peut indiquer que vos règles de pare-feu doivent être ajustées.

Créer un réseau VPC

Au lieu d'utiliser le réseau VPC default, vous pouvez créer votre propre réseau VPC en mode automatique ou personnalisé. Lorsque vous créez le cluster, vous associez votre réseau au cluster.

Environnement Assured Workloads : lorsque vous utilisez un environnement Assured Workloads pour la conformité réglementaire, le cluster, son réseau VPC et ses buckets Cloud Storage doivent être contenus dans l'environnement Assured Workloads.

Créer un cluster utilisant votre réseau VPC

Console

Sélectionnez votre réseau dans la section "Configuration du réseau" du panneau Personnaliser le cluster. Une fois le réseau choisi, le sélecteur Sous-réseau affiche le ou les sous-réseaux disponibles dans la région que vous avez sélectionnée pour le cluster.

Google Cloud CLI

Utilisez gcloud dataproc clusters create avec l'option ‑‑network ou ‑‑subnet pour créer un cluster sur un sous-réseau de votre réseau. Si vous utilisez l'option ‑‑network, le cluster utilise un sous-réseau portant le même nom que le réseau spécifié dans la région où le cluster est créé.

--network example. Étant donné que les réseaux automatiques sont créés avec des sous-réseaux dans chaque région, chaque sous-réseau portant le nom du réseau, vous pouvez transmettre le nom du réseau VPC en mode automatique à l'option ‑‑network. Le cluster utilise le sous-réseau VPC en mode automatique dans la région spécifiée avec l'option ‑‑region.

gcloud dataproc clusters create CLUSTER_NAME \
    --network NETWORK_NAME \
    --region=REGION \
    ... other args ...

--subnet example. Vous pouvez utiliser l'‑‑subnet option pour créer un cluster qui utilise un sous-réseau VPC en mode automatique ou personnalisé dans la région du cluster. Spécifiez le chemin d'accès complet à la ressource du sous-réseau.

gcloud dataproc clusters create CLUSTER_NAMEW \
    --subnet projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME \
    --region=REGION \
    ... other args ...

API REST

Vous pouvez spécifier le champ networkUri ou subnetworkUri de la propriété GceClusterConfig dans le cadre d'une requête clusters.create.

Exemple

POST /v1/projects/my-project-id/regions/us-central1/clusters/
{
  "projectId": "PROJECT_ID",
  "clusterName": CLUSTER_NAME,
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": SUBNET_NAME,
    },
    ...

Créer un cluster utilisant un réseau VPC dans un autre projet

Un cluster Dataproc peut utiliser un réseau VPC partagé défini dans un projet hôte. Le projet dans lequel le cluster Dataproc est créé est appelé projet de service.

  1. Recherchez le numéro de projet du cluster Dataproc :

    1. Ouvrez la page IAM et administration Paramètres dans la Google Cloud console. Sélectionnez le projet dans lequel vous allez créer le cluster Dataproc. Copiez l'ID du projet.
  2. Un compte principal doté du rôle Administrateur de VPC partagé doit procéder comme suit. Consultez les instructions de configuration du VPC partagé pour obtenir des informations générales.

    1. Assurez-vous que le projet hôte du VPC partagé est activé.

    2. Associez le projet avec le cluster Dataproc au projet hôte.

    3. Configurez le compte de service de l'agent de service Dataproc (service-[project-number]@dataproc-accounts.iam.gserviceaccount.com) pour qu'il dispose du rôle Utilisateur de réseau pour le projet hôte :

      1. Ouvrez la page **IAM et administration** dans la Google Cloud console.

      2. Utilisez le sélecteur de projet pour sélectionner le nouveau projet hôte.

      3. Cliquez sur Accorder l'accès.

      4. Remplissez le formulaire "Accorder l'accès" :

        1. Ajouter des comptes principaux : saisissez le compte de service.

        2. Attribuer des rôles : insérez « Réseau Compute » dans la zone de filtre, puis sélectionnez le rôle Utilisateur de réseau Compute.

        3. Cliquez sur Enregistrer.

  3. Une fois que le rôle Network User est attribué au compte de service pour le projet hôte, créez un cluster qui utilise le réseau VPC partagé.

Créer un cluster qui utilise un sous-réseau VPC dans un autre projet

Un cluster Dataproc peut utiliser un sous-réseau VPC partagé défini dans un projet hôte. Le projet dans lequel le cluster Dataproc est créé est appelé projet de service.

  1. Recherchez le numéro de projet du cluster Dataproc :

    1. Ouvrez la page IAM et administration Paramètres dans la Google Cloud console. Sélectionnez le projet dans lequel vous allez créer le cluster Dataproc. Copiez l'ID du projet.
  2. Un compte principal doté du rôle Administrateur de VPC partagé doit procéder comme suit. Consultez les instructions de configuration du VPC partagé pour obtenir des informations générales.

    1. Assurez-vous que le projet hôte du VPC partagé est activé.

    2. Associez le projet avec le cluster Dataproc au projet hôte.

    3. Configurez le compte de service de l'agent de service Dataproc (service-[project-number]@dataproc-accounts.iam.gserviceaccount.com) pour qu'il dispose du rôle Utilisateur de réseau pour le projet hôte :

      1. Ouvrez la page "Réseaux VPC " dans la Google Cloud console.

      2. Utilisez le sélecteur de projet pour sélectionner le projet hôte.

      3. Cliquez sur le réseau contenant le sous-réseau que votre cluster Dataproc utilisera.

      4. Sur la page Détails du réseau VPC, cochez la case à côté du nom du sous-réseau que votre cluster utilisera.

      5. Si le panneau d'informations est fermé, cliquez sur Afficher le panneau d'informations.

      6. Procédez comme suit pour chaque compte de service :

        1. Dans le panneau d'informations, cliquez sur Ajouter un compte principal.

        2. Remplissez le formulaire "Accorder l'accès" :

          1. Ajouter des comptes principaux : saisissez le compte de service.

          2. Attribuer des rôles : insérez « Réseau Compute » dans la zone de filtre, puis sélectionnez le rôle Utilisateur de réseau Compute.

          3. Cliquez sur Enregistrer.

  3. Une fois que le rôle Network User est attribué au compte de service pour le projet hôte, créez un cluster qui utilise le sous-réseau VPC partagé.

Créer un cluster avec des adresses IP internes uniquement

Cette section s'applique aux clusters de version d'image antérieure à 2.2. Les VM de cluster avec des adresses IP internes uniquement sont activées par défaut lors de la création de clusters Dataproc avec des versions d'image 2.2 et ultérieures.

Vous pouvez utiliser la Google Cloud console, gcloud CLI ou l'API Dataproc pour créer un cluster avec des adresses IP internes uniquement. Notez que Dataproc active automatiquement l'accès privé à Google sur le sous-réseau régional du cluster lorsque les adresses IP internes uniquement sont activées pour autoriser les connexions aux API et services Google.

Console

Vous pouvez créer un cluster Dataproc avec des adresses IP internes uniquement à partir de la page Dataproc Créer un cluster dans la Google Cloud console. Cliquez sur Adresse IP interne uniquement dans le panneau Personnaliser le cluster afin d'activer cette fonctionnalité pour votre cluster.

Gcloud CLI

Vous pouvez créer un cluster avec des adresses IP internes uniquement en utilisant la gcloud dataproc clusters create commande avec l'option ‑‑no-address.

gcloud dataproc clusters create CLUSTER_NAME \
    --no-address \
    --network NETWORK_NAME \
    --region=REGION \
    ... other args ...

Étant donné que les réseaux automatiques sont créés avec des sous-réseaux dans chaque région et portent le même nom que le réseau automatique, vous pouvez transmettre le nom du réseau automatique à l'option ‑‑network flag pour créer un cluster qui utilise le sous-réseau automatique dans la région du cluster.

Vous pouvez également utiliser l'option ‑‑subnet pour créer un cluster qui utilise un sous-réseau automatique ou personnalisé dans la région où le cluster est créé. Transmettez à l'option ‑‑subnet le chemin d'accès complet à la ressource du sous-réseau.

gcloud dataproc clusters create cluster-name \
    --no-address \
    --subnet projects/project-id/regions/region/subnetworks/subnetwork-name \
    --region=region \
    ... other args ...

API REST

Vous pouvez utiliser le GceClusterConfig.internalIpOnly champ dans le cadre d'une clusters.create requête pour créer un cluster qui n'active que les adresses IP internes.

Exemple :

POST /v1/projects/my-project-id/regions/us-central1/clusters/
{
  "projectId": "my-project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "custom-subnet-1",
      "zoneUri": "us-central1-b",
      "internalIpOnly": true
    },
    ...

Google Cloud

Télécharger des dépendances avec des clusters avec des adresses IP internes uniquement

Par défaut, les clusters avec des adresses IP internes uniquement n'ont pas accès à Internet. Par conséquent, les tâches qui téléchargent des dépendances sur Internet, telles que celles qui téléchargent des packages de dépendance Spark depuis Maven Central, échouent. Il existe plusieurs solutions pour éviter ce problème :

  1. Utilisez Cloud NAT pour autoriser l'accès du cluster à Internet.

  2. Créez une image personnalisée incluant les dépendances (par exemple, les packages de dépendance Spark dans /usr/lib/spark/jars/).

  3. Chargez les dépendances dans un bucket Cloud Storage, puis utilisez une action d'initialisation pour télécharger les dépendances du bucket lors de la création du cluster.

Réseaux VPC Service Controls et Dataproc

Avec VPC Service Controls, les administrateurs peuvent définir un périmètre de sécurité autour des ressources des services gérés par Google afin de contrôler les communications avec et entre ces services.

Notez les limites et stratégies suivantes lorsque vous utilisez des réseaux VPC Service Controls avec des clusters Dataproc :

Étape suivante