In diesem Dokument werden die Anforderungen an die Netzwerkkonfiguration von Managed Service for Apache Spark beschrieben.
Anforderungen an Virtual Private Cloud-Subnetze
In diesem Dokument werden die Anforderungen an Virtual Private Cloud-Netzwerke für Managed Service for Apache Spark-Batcharbeitslasten und interaktive Sitzungen beschrieben.
Privater Google-Zugriff
Managed Service for Apache Spark-Batcharbeitslasten und interaktive Sitzungen werden auf VMs mit nur internen IP-Adressen und in einem regionalen Subnetz mit privater Google-Zugriff, PGA) automatisch aktiviert ausgeführt.
Wenn Sie kein Subnetz angeben, wählt Managed Service for Apache Spark das default-Subnetz in der Region der Batcharbeitslast oder Sitzung als Subnetz für eine Batcharbeitslast oder Sitzung aus.
Wenn Ihre Arbeitslast einen externen Netzwerk- oder Internetzugriff erfordert, z. B. um Ressourcen wie ML-Modelle von PyTorch Hub oder Hugging Face herunterzuladen, können Sie Cloud NAT einrichten, um ausgehenden Traffic über interne IPs in Ihrem VPC-Netzwerk zuzulassen.
Offene Subnetzverbindung
Das VPC-Subnetz für die Region, die für die Managed Service for Apache Spark-Batcharbeitslast oder interaktive Sitzung ausgewählt wurde, muss die interne Kommunikation auf allen Ports zwischen VM-Instanzen innerhalb des Subnetzes zulassen.
Um zu verhindern, dass schädliche Skripts in einer Arbeitslast andere Arbeitslasten beeinträchtigen, stellt Managed Service for Apache Spark Standardsicherheits maßnahmen bereit.
Mit dem folgenden Google Cloud CLI-Befehl wird eine Netzwerk-Firewall an ein Subnetz angehängt, das interne eingehende Kommunikation zwischen VMs über alle Protokolle auf allen Ports zulässt:
gcloud compute firewall-rules create allow-internal-ingress \ --network=NETWORK_NAME \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
Hinweise:
SUBNET_RANGES: Weitere Informationen finden Sie unter Interne eingehende Verbindungen zwischen VMs. Das
defaultVPC-Netzwerk in einem Projekt mit derdefault-allow-internalFirewallregel, die eingehende Kommunikation auf allen Ports zulässt (tcp:0-65535,udp:0-65535, undicmp protocols:ports), erfüllt die Anforderung für die offene Subnetzverbindung. Diese Regel lässt jedoch auch eingehenden Traffic von jeder VM-Instanz im Netzwerk zu.
Automatisch erstellte regionale System-Firewallrichtlinie
Um die Anforderung für die offene Subnetzverbindung zu erfüllen,
wird für Managed Service for Apache Spark-Batcharbeitslasten und interaktive Sitzungen
die die Laufzeitversion 3.0 oder höher verwenden, automatisch eine regionale
System-Firewallrichtlinie dataproc-firewall-policy-[network-id]-region oder
dataproc-fw-[network-id]-region im VPC-Subnetz der Batcharbeitslast oder Sitzung erstellt.
Diese Richtlinie enthält die folgenden Regeln für eingehenden und ausgehenden Traffic.
| Name | Zweck | Priorität | Richtung | Aktion | Quelle und Ziel | Protokoll und Ports |
|---|---|---|---|---|---|---|
dataproc-allow-internal-ingress-rule-[subnetworkId] |
Ermöglicht die gesamte erforderliche interne Kommunikation nur von anderen getaggten Managed Service for Apache Spark-VMs im selben Subnetz. | 4 | EINGEHEND | ZULASSEN |
srcSecureTag: Wert des sicheren Tags für dieses Subnetz.targetSecureTags:Wert des sicheren Tags für dieses Subnetz. |
tcp:0-65535, udp:0-65535, icmp protocols:ports |
dataproc-allow-internal-egress-rule-[subnetworkId] |
Ermöglicht Managed Service for Apache Spark-VMs, Pakete wie pip und apt-get herunterzuladen, und über den privater Google-Zugriff auf Google APIs zuzugreifen. | 5 | AUSGEHEND | ZULASSEN |
destIpRanges: 0.0.0.0/0.targetSecureTags:Wert des sicheren Tags für dieses Subnetz. |
tcp:0-65535, udp:0-65535, icmp protocols:ports |
Hinweise:
Managed Service for Apache Spark stellt ein Mandantenprojekt bereit, das mit dem Nutzerprojekt verknüpft ist, um sichere Tags zu speichern. Managed Service for Apache Spark erstellt ein sicheres Tag für das Subnetz im Mandantenprojekt und hängt es an Managed Service for Apache Spark-VMs an. So wird sichergestellt, dass die erstellte System-Firewallrichtlinie nur für Managed Service for Apache Spark-VMs gilt.
Automatisch erstellte System-Firewallrichtlinien werden für freigegebene VPC nicht unterstützt.
Managed Service for Apache Spark und VPC-SC-Netzwerke
Mit VPC Service Controls können Netzwerkadministratoren einen Sicherheitsbereich für Ressourcen aus von Google verwalteten Diensten festlegen, um die Kommunikation mit und zwischen diesen Diensten zu steuern.
Beachten Sie die folgenden Strategien, wenn Sie VPC-SC-Netzwerke mit Managed Service for Apache Spark verwenden:
Erstellen Sie ein benutzerdefiniertes Container-Image in dem Abhängigkeiten außerhalb des VPC-SC-Bereichs vorinstalliert sind, und senden Sie dann eine Spark-Batcharbeitslast die Ihr benutzerdefiniertes Container-Image verwendet.
Weitere Informationen finden Sie unter VPC Service Controls— Managed Service for Apache Spark.