„Managed Service for Apache Spark“ ist der neue Name für das Produkt, das früher als „Dataproc on Compute Engine“ (Clusterbereitstellung) und „Google Cloud Serverless for Apache Spark“ (serverlose Bereitstellung) bekannt war.

Cluster mit einzelnem Knoten

Cluster mit einzelnem Knoten sind Managed Service for Apache Spark-Cluster mit nur einem Knoten. Der einzelne Knoten fungiert als Master und Worker für den Managed Service for Apache Spark-Cluster. Obwohl Cluster mit einzelnem Knoten nur einen Knoten haben, sind die meisten Managed Service for Apache Spark-Konzepte und -Funktionen weiter relevant. Ausnahmen sind in der Liste unten aufgeführt.

Cluster mit einzelnem Knoten können in vielen Situationen sinnvoll sein:

Beim Testen neuer Versionen von Spark und Hadoop sowie anderen Open-Source-Komponenten
Beim Erstellen von PoC-Demonstrationen (Proof of Concept)
Leichtere Projekte im Bereich Data Science
Nicht kritische Datenverarbeitung in kleinem Umfang
Schulungen zum Spark- und Hadoop-Ökosystem

Semantik von Clustern mit einzelnem Knoten

Die folgende Semantik bezieht sich auf Managed Service for Apache Spark-Cluster mit einzelnem Knoten.

Cluster mit nur einem Knoten werden auf dieselbe Weise wie Managed Service for Apache Spark-Cluster mit mehreren Knoten konfiguriert und umfassen Dienste wie HDFS und YARN.
Cluster mit einzelnem Knoten werden als Masterknoten für Initialisierungsaktionen angegeben.
Bei Clustern mit einem einzelnen Knoten werden 0 Worker angezeigt, da der einzelne Knoten sowohl als Master als auch als Worker fungiert.
Cluster mit nur einem Knoten erhalten Hostnamen gemäß dem Muster clustername-m. Mit diesem Hostnamen können Sie eine SSH-Verbindung oder eine Verbindung zur Web-UI auf dem Knoten erstellen.
Cluster mit einzelnem Knoten können nicht auf Cluster mit mehreren Knoten aufgerüstet werden. Cluster mit einzelnem Knoten sind nach ihrer Erstellung auf einen einzigen Knoten beschränkt. Cluster mit mehreren Knoten können nicht auf Cluster mit einzelnem Knoten herunterskaliert werden.

Beschränkungen

Cluster mit einem einzelnen Knoten werden nicht für die parallele Datenverarbeitung in großem Umfang empfohlen. Wenn Sie die Ressourcen für einen Cluster mit nur einem Knoten überschreiten, wird ein Managed Service for Apache Spark-Cluster mit mehreren Knoten empfohlen.
Cluster mit einem einzelnen Knoten werden nicht mit hoher Verfügbarkeit angeboten, da der Cluster nur einen Knoten enthält.
Cluster mit einzelnem Knoten können keine VMs auf Abruf verwenden.