In diesem Dokument werden die Anforderungen für die Google Cloud Netzwerkkonfiguration von Serverless for Apache Spark beschrieben.
Anforderungen an das Virtual Private Cloud-Subnetzwerk
In diesem Dokument werden die Anforderungen an das Virtual Private Cloud-Netzwerk für Google Cloud Serverless for Apache Spark-Batcharbeitslasten und interaktive Sitzungen erläutert.
Privater Google-Zugriff
Serverless for Apache Spark-Batcharbeitslasten und interaktive Sitzungen werden auf VMs mit nur internen IP-Adressen und in einem regionalen Subnetz mit privatem Google-Zugriff (Private Google Access, PGA) ausgeführt, der automatisch im Subnetz aktiviert ist.
Wenn Sie kein Subnetzwerk angeben, wählt Serverless for Apache Spark das
default Subnetzwerk in der Region der Batcharbeitslast oder Sitzung als Subnetzwerk für eine
Batcharbeitslast oder Sitzung aus.
Wenn Ihre Arbeitslast externen Netzwerk- oder Internet zugriff erfordert, z. B. um Ressourcen wie ML-Modelle von PyTorch Hub oder Hugging Face herunterzuladen, können Sie Cloud NAT einrichten, um ausgehenden Traffic über interne IPs in Ihrem VPC-Netzwerk zuzulassen.
Offene Subnetzwerkverbindung
Das VPC-Subnetzwerk für die Region, die für die Serverless for Apache Spark-Batcharbeitslast oder interaktive Sitzung ausgewählt wurde, muss die interne Subnetzwerkkommunikation auf allen Ports zwischen VM-Instanzen zulassen.
Mit dem folgenden Google Cloud CLI-Befehl wird eine Netzwerk-Firewall an ein Subnetzwerk angehängt, das interne eingehende Kommunikation zwischen VMs über alle Protokolle auf allen Ports zulässt:
gcloud compute firewall-rules create allow-internal-ingress \ --network=NETWORK_NAME \ --source-ranges=SUBNET_RANGES \ --destination-ranges=SUBNET_RANGES \ --direction=ingress \ --action=allow \ --rules=all
Hinweise:
SUBNET_RANGES: Weitere Informationen finden Sie unter Interne eingehende Verbindungen zwischen VMs zulassen. Das
defaultVPC-Netzwerk in einem Projekt mit derdefault-allow-internalFirewallregel, die eingehende Kommunikation auf allen Ports (tcp:0-65535,udp:0-65535, undicmp protocols:ports) zulässt, erfüllt die Anforderung für die offene Subnetzwerkverbindung. Diese Regel lässt jedoch auch eingehenden Traffic von jeder VM-Instanz im Netzwerk zu.
Serverless for Apache Spark- und VPC-SC-Netzwerke
Mit VPC Service Controls, können Netzwerkadministratoren einen Sicherheitsbereich für Ressourcen aus von Google verwalteten Diensten festlegen, um die Kommunikation mit und zwischen diesen Diensten zu steuern.
Beachten Sie die folgenden Strategien bei der Verwendung von VPC-SC Netzwerken mit Serverless for Apache Spark:
Erstellen Sie ein benutzerdefiniertes Container-Image in dem Abhängigkeiten außerhalb des VPC-SC-Bereichs vorinstalliert sind, und senden Sie dann eine Spark-Batcharbeitslast die Ihr benutzerdefiniertes Container-Image verwendet.
Weitere Informationen finden Sie unter VPC Service Controls – Serverless for Apache Spark.