Ce document décrit les exigences de configuration réseau de Managed Service pour Apache Spark.
Exigences concernant les sous-réseaux de cloud privé virtuel
Ce document décrit les exigences concernant les réseaux de cloud privé virtuel pour les charges de travail par lot et les sessions interactives de Managed Service pour Apache Spark.
Accès privé à Google
Les charges de travail par lot et les sessions interactives de Managed Service pour Apache Spark s'exécutent sur des VM avec des adresses IP internes uniquement et sur un sous-réseau régional avec l'accès privé à Google (PGA) activé automatiquement sur le sous-réseau.
Si vous ne spécifiez pas de sous-réseau, Managed Service pour Apache Spark sélectionne le sous-réseau default dans la région de la charge de travail par lot ou de la session comme sous-réseau pour une charge de travail par lot ou une session.
Si votre charge de travail nécessite un accès au réseau externe ou à Internet, par exemple pour télécharger des ressources telles que des modèles ML à partir de PyTorch Hub ou Hugging Face, vous pouvez configurer Cloud NAT pour autoriser le trafic sortant à l'aide d' adresses IP internes sur votre réseau VPC.
Connectivité de sous-réseau ouvert
Le sous-réseau VPC de la région sélectionnée pour la charge de travail par lot ou la session interactive de Managed Service pour Apache Spark doit autoriser la communication interne sur tous les ports entre les instances de VM au sein du sous-réseau.
Pour empêcher que des scripts malveillants dans une charge de travail n'affectent d'autres charges de travail, Managed Service pour Apache Spark déploie des mesures de sécurité par défaut.
La commande Google Cloud CLI suivante associe un pare-feu de réseau à un sous-réseau qui autorise les communications d'entrée internes entre les VM à l'aide de tous les protocoles sur tous les ports :
gcloud compute firewall-rules create allow-internal-ingress \ --network=NETWORK_NAME \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
Remarques :
SUBNET_RANGES: consultez Autoriser les connexions d'entrée internes entre les VM. Le réseau VPC
defaultdans un projet avec la règle de pare-feudefault-allow-internal, qui autorise la communication d'entrée sur tous les ports (tcp:0-65535,udp:0-65535, eticmp protocols:ports), répond à l'exigence de connectivité de sous-réseau ouvert. Toutefois, cette règle autorise également l'entrée de n'importe quelle instance de VM sur le réseau.
Stratégie de pare-feu système régionale créée automatiquement
Pour répondre à l'exigence de connectivité de sous-réseau ouvert,
les charges de travail par lot et les sessions interactives de Managed Service pour Apache Spark
qui utilisent la version d'exécution 3.0 ou ultérieure créent automatiquement une stratégie de pare-feu système régionale
dataproc-firewall-policy-[network-id]-region ou
dataproc-fw-[network-id]-region sur le sous-réseau VPC par lot ou de session.
Cette stratégie contient les règles d'entrée et de sortie suivantes.
| Nom | Objectif | Priorité | Sens | Action | Source et destination | Protocole et ports |
|---|---|---|---|---|---|---|
dataproc-allow-internal-ingress-rule-[subnetworkId] |
Autorise toutes les communications internes nécessaires uniquement à partir d'autres VM Managed Service pour Apache Spark taguées au sein du même sous-réseau. | 4 | ENTRÉE | AUTORISER |
srcSecureTag : valeur de tag sécurisé pour ce sous-réseau.targetSecureTags : valeur de tag sécurisé pour ce sous-réseau. |
Protocoles et ports : tcp:0-65535, udp:0-65535, icmp |
dataproc-allow-internal-egress-rule-[subnetworkId] |
Permet aux VM Managed Service pour Apache Spark de télécharger des packages, par exemple pip et apt-get, et d'accéder aux API Google à l'aide de l'accès privé à Google. | 5 | SORTIE | AUTORISER |
destIpRanges: 0.0.0.0/0.targetSecureTags : valeur de tag sécurisé pour ce sous-réseau. |
Protocoles et ports : tcp:0-65535, udp:0-65535, icmp |
Remarques :
Managed Service pour Apache Spark provisionne un projet locataire associé au projet utilisateur pour stocker les tags sécurisés. Managed Service pour Apache Spark crée un tag sécurisé pour le sous-réseau dans le projet locataire et l'associe aux VM Managed Service pour Apache Spark, ce qui garantit que la stratégie de pare-feu système créée ne s'applique qu'aux VM Managed Service pour Apache Spark.
La stratégie de pare-feu système créée automatiquement n'est pas compatible avec le VPC partagé.
Managed Service pour Apache Spark et réseaux VPC-SC
Avec VPC Service Controls, les administrateurs réseau peuvent définir un périmètre de sécurité autour des ressources des services gérés par Google afin de contrôler les communications avec et entre ces services.
Tenez compte des stratégies suivantes lorsque vous utilisez des réseaux VPC-SC avec Managed Service pour Apache Spark :
Créez une image de conteneur personnalisée qui préinstalle les dépendances en dehors du périmètre VPC-SC, puis envoyez une charge de travail par lot Spark qui utilise votre image de conteneur personnalisée.
Pour en savoir plus, consultez VPC Service Controls— Managed Service pour Apache Spark.