Netzwerkkonfiguration für Managed Service for Apache Spark

In diesem Dokument werden die Anforderungen an die Netzwerkkonfiguration von Managed Service for Apache Spark beschrieben.

Anforderungen an Virtual Private Cloud-Subnetze

In diesem Dokument werden die Anforderungen an Virtual Private Cloud-Netzwerke für Managed Service for Apache Spark-Batcharbeitslasten und interaktive Sitzungen beschrieben.

Privater Google-Zugriff

Managed Service for Apache Spark-Batcharbeitslasten und interaktive Sitzungen werden auf VMs mit nur internen IP-Adressen und in einem regionalen Subnetz mit privater Google-Zugriff, PGA) automatisch aktiviert ausgeführt.

Wenn Sie kein Subnetz angeben, wählt Managed Service for Apache Spark das default-Subnetz in der Region der Batcharbeitslast oder Sitzung als Subnetz für eine Batcharbeitslast oder Sitzung aus.

Wenn Ihre Arbeitslast einen externen Netzwerk- oder Internetzugriff erfordert, z. B. um Ressourcen wie ML-Modelle von PyTorch Hub oder Hugging Face herunterzuladen, können Sie Cloud NAT einrichten, um ausgehenden Traffic über interne IPs in Ihrem VPC-Netzwerk zuzulassen.

Offene Subnetzverbindung

Das VPC-Subnetz für die Region, die für die Managed Service for Apache Spark-Batcharbeitslast oder interaktive Sitzung ausgewählt wurde, muss die interne Kommunikation auf allen Ports zwischen VM-Instanzen innerhalb des Subnetzes zulassen.

Um zu verhindern, dass schädliche Skripts in einer Arbeitslast andere Arbeitslasten beeinträchtigen, stellt Managed Service for Apache Spark Standardsicherheits maßnahmen bereit.

Mit dem folgenden Google Cloud CLI-Befehl wird eine Netzwerk-Firewall an ein Subnetz angehängt, das interne eingehende Kommunikation zwischen VMs über alle Protokolle auf allen Ports zulässt:

gcloud compute firewall-rules create allow-internal-ingress \
    --network=NETWORK_NAME \
    --source-ranges=SUBNET_RANGES \
    --destination-ranges=SUBNET_RANGES \
    --direction=ingress \
    --action=allow \
    --rules=all

Hinweise:

  • SUBNET_RANGES: Weitere Informationen finden Sie unter Interne eingehende Verbindungen zwischen VMs. Das default VPC-Netzwerk in einem Projekt mit der default-allow-internal Firewallregel, die eingehende Kommunikation auf allen Ports zulässt (tcp:0-65535, udp:0-65535, und icmp protocols:ports), erfüllt die Anforderung für die offene Subnetzverbindung. Diese Regel lässt jedoch auch eingehenden Traffic von jeder VM-Instanz im Netzwerk zu.

Automatisch erstellte regionale System-Firewallrichtlinie

Um die Anforderung für die offene Subnetzverbindung zu erfüllen, wird für Managed Service for Apache Spark-Batcharbeitslasten und interaktive Sitzungen die die Laufzeitversion 3.0 oder höher verwenden, automatisch eine regionale System-Firewallrichtlinie dataproc-firewall-policy-[network-id]-region oder dataproc-fw-[network-id]-region im VPC-Subnetz der Batcharbeitslast oder Sitzung erstellt. Diese Richtlinie enthält die folgenden Regeln für eingehenden und ausgehenden Traffic.

Name Zweck Priorität Richtung Aktion Quelle und Ziel Protokoll und Ports
dataproc-allow-internal-ingress-rule-[subnetworkId] Ermöglicht die gesamte erforderliche interne Kommunikation nur von anderen getaggten Managed Service for Apache Spark-VMs im selben Subnetz. 4 EINGEHEND ZULASSEN
  • srcSecureTag: Wert des sicheren Tags für dieses Subnetz.
  • targetSecureTags:Wert des sicheren Tags für dieses Subnetz.
  • tcp:0-65535, udp:0-65535, icmp protocols:ports
    dataproc-allow-internal-egress-rule-[subnetworkId] Ermöglicht Managed Service for Apache Spark-VMs, Pakete wie pip und apt-get herunterzuladen, und über den privater Google-Zugriff auf Google APIs zuzugreifen. 5 AUSGEHEND ZULASSEN
  • destIpRanges: 0.0.0.0/0.
  • targetSecureTags:Wert des sicheren Tags für dieses Subnetz.
  • tcp:0-65535, udp:0-65535, icmp protocols:ports

    Hinweise:

    • Managed Service for Apache Spark stellt ein Mandantenprojekt bereit, das mit dem Nutzerprojekt verknüpft ist, um sichere Tags zu speichern. Managed Service for Apache Spark erstellt ein sicheres Tag für das Subnetz im Mandantenprojekt und hängt es an Managed Service for Apache Spark-VMs an. So wird sichergestellt, dass die erstellte System-Firewallrichtlinie nur für Managed Service for Apache Spark-VMs gilt.

    • Automatisch erstellte System-Firewallrichtlinien werden für freigegebene VPC nicht unterstützt.

    Managed Service for Apache Spark und VPC-SC-Netzwerke

    Mit VPC Service Controls können Netzwerkadministratoren einen Sicherheitsbereich für Ressourcen aus von Google verwalteten Diensten festlegen, um die Kommunikation mit und zwischen diesen Diensten zu steuern.

    Beachten Sie die folgenden Strategien, wenn Sie VPC-SC-Netzwerke mit Managed Service for Apache Spark verwenden:

    Weitere Informationen finden Sie unter VPC Service Controls— Managed Service for Apache Spark.