In diesem Dokument werden die Anforderungen für die Netzwerkkonfiguration von Managed Service for Apache Spark beschrieben.
Anforderungen an Virtual Private Cloud-Subnetzwerke
In diesem Dokument werden die Anforderungen an Virtual Private Cloud-Netzwerke für Managed Service for Apache Spark-Batch-Workloads und interaktive Sitzungen beschrieben.
Privater Google-Zugriff
Batcharbeitslasten und interaktive Sitzungen von Managed Service for Apache Spark werden auf VMs mit nur internen IP-Adressen und in einem regionalen Subnetz mit privater Google-Zugriff, PGA) ausgeführt, der automatisch für das Subnetz aktiviert wird.
Wenn Sie kein Subnetz angeben, wählt Managed Service for Apache Spark das Subnetz default in der Region der Batcharbeitslast oder Sitzung als Subnetz für eine Batcharbeitslast oder Sitzung aus.
Wenn für Ihre Arbeitslast ein externes Netzwerk oder Internetzugang erforderlich ist, z. B. um Ressourcen wie ML-Modelle von PyTorch Hub oder Hugging Face herunterzuladen, können Sie Cloud NAT einrichten, um ausgehenden Traffic über interne IPs in Ihrem VPC-Netzwerk zuzulassen.
Subnetzverbindung öffnen
Das VPC-Subnetz für die Region, die für die Managed Service for Apache Spark-Batcharbeitslast oder interaktive Sitzung ausgewählt wurde, muss die interne Kommunikation über alle Ports zwischen VM-Instanzen innerhalb des Subnetzes zulassen.
Damit schädliche Skripts in einer Arbeitslast keine Auswirkungen auf andere Arbeitslasten haben, werden in Managed Service for Apache Spark Standardsicherheitsmaßnahmen bereitgestellt.
Mit dem folgenden Google Cloud CLI-Befehl wird eine Netzwerkfirewall an ein Subnetz angehängt, die interne eingehende Kommunikation zwischen VMs über alle Protokolle auf allen Ports zulässt:
gcloud compute firewall-rules create allow-internal-ingress \ --network=NETWORK_NAME \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
Hinweise:
SUBNET_RANGES: Weitere Informationen finden Sie unter Interne eingehende Verbindungen zwischen VMs zulassen. Das VPC-Netzwerk
defaultin einem Projekt mit der Firewallregeldefault-allow-internal, die eingehende Kommunikation an allen Ports (tcp:0-65535,udp:0-65535undicmp protocols:ports) zulässt, erfüllt die Anforderung für offene Subnetzverbindungen. Diese Regel lässt jedoch auch eingehenden Traffic von jeder VM-Instanz im Netzwerk zu.
Automatisch erstellte regionale System-Firewallrichtlinie
Um die Anforderung Offene Subnetzverbindung zu erfüllen, wird für Managed Service for Apache Spark-Batcharbeitslasten und interaktive Sitzungen, die die Laufzeitversion 3.0 oder höher verwenden, automatisch eine regionale System-Firewallrichtlinie dataproc-firewall-policy-[network-id]-region oder dataproc-fw-[network-id]-region für das VPC-Subnetz des Batch oder der Sitzung erstellt.
Diese Richtlinie enthält die folgenden Regeln für eingehenden und ausgehenden Traffic.
| Name | Zweck | Priorität | Richtung | Aktion | Quelle und Ziel | Protokoll und Ports |
|---|---|---|---|---|---|---|
dataproc-allow-internal-ingress-rule-[subnetworkId] |
Ermöglicht die gesamte erforderliche interne Kommunikation nur von anderen getaggten Managed Service for Apache Spark-VMs innerhalb desselben Subnetzes. | 4 | EINTRITT | ZULASSEN |
srcSecureTag: sicherer Tag-Wert für dieses Subnetz.targetSecureTags:sicherer Tag-Wert für dieses Subnetz. |
tcp:0-65535, udp:0-65535, icmp-Protokolle:Ports |
dataproc-allow-internal-egress-rule-[subnetworkId] |
Ermöglicht es Managed Service for Apache Spark-VMs, Pakete wie pip und apt-get herunterzuladen und mit dem privater Google-Zugriff auf Google APIs zuzugreifen. | 5 | EGRESS | ZULASSEN |
destIpRanges: 0.0.0.0/0.targetSecureTags:sicherer Tag-Wert für dieses Subnetz. |
tcp:0-65535, udp:0-65535, icmp-Protokolle:Ports |
Hinweise:
Managed Service for Apache Spark stellt ein Mandantenprojekt bereit, das dem Nutzerprojekt zugeordnet ist, um sichere Tags zu speichern. Managed Service for Apache Spark erstellt ein sicheres Tag für das Subnetz im Mandantenprojekt und hängt es an Managed Service for Apache Spark-VMs an. So wird sichergestellt, dass die erstellte System-Firewallrichtlinie nur für Managed Service for Apache Spark-VMs gilt.
Automatisch erstellte System-Firewallrichtlinien werden für gemeinsam genutzte VPC nicht unterstützt.
Managed Service for Apache Spark und VPC-SC-Netzwerke
Mit VPC Service Controls können Netzwerkadministratoren einen Sicherheitsbereich für Ressourcen aus von Google verwalteten Diensten festlegen, um die Kommunikation mit und zwischen diesen Diensten zu steuern.
Beachten Sie die folgenden Strategien, wenn Sie VPC-SC-Netzwerke mit Managed Service for Apache Spark verwenden:
Erstellen Sie ein benutzerdefiniertes Container-Image, in dem Abhängigkeiten außerhalb des VPC-SC-Bereichs vorinstalliert sind, und übergeben Sie dann einen Spark-Batchjob, der Ihr benutzerdefiniertes Container-Image verwendet.
Weitere Informationen finden Sie unter VPC Service Controls – Managed Service for Apache Spark.