Provisionierungseigenschaften für Managed Service for Apache Spark

Der Provisioner für den verwalteten Dienst für Apache Spark in Cloud Data Fusion ruft die Dataproc API auf, um Cluster in Ihren Google Cloud-Projekten zu erstellen und zu löschen. Sie können die Cluster in den Einstellungen des Bereitstellungstools konfigurieren.

Weitere Informationen zur Kompatibilität zwischen Cloud Data Fusion-Versionen und Managed Service for Apache Spark-Versionen finden Sie unter Versionskompatibilität.

Eigenschaften

Attribut Beschreibung
Projekt-ID Das Google Cloud -Projekt, in dem der Managed Service for Apache Spark-Cluster erstellt wird. Die Dataproc API muss für das Projekt aktiviert sein.
Dienstkontoschlüssel für Creator

Der dem Provisioner bereitgestellte Dienstkontoschlüssel muss die Berechtigung für den Zugriff auf die Managed Service for Apache Spark- und Compute Engine-APIs haben. Da Ihr Kontoschlüssel vertraulich ist, empfehlen wir, ihn über Secure Storage bereitzustellen.

Nachdem Sie den sicheren Schlüssel erstellt haben, können Sie ihn einem Namespace oder einem System-Compute-Profil hinzufügen. Klicken Sie für ein Namespace-Rechenprofil auf das -Schild und wählen Sie den sicheren Schlüssel aus. Geben Sie für ein System-Compute-Profil den Namen des Schlüssels im Feld Secure Account Key (Sicherer Kontoschlüssel) ein.

Region Ein geografischer Standort, an dem Sie Ihre Ressourcen hosten können, z. B. die Rechenknoten für den Managed Service for Apache Spark-Cluster.
Zone Ein isolierter Bereitstellungsbereich innerhalb einer Region.
Netzwerk Das VPC-Netzwerk in Ihrem Google Cloud -Projekt, das beim Erstellen eines Managed Service for Apache Spark-Clusters verwendet wird.
Netzwerk-Hostprojekt-ID Wenn sich das Netzwerk in einem anderen Google Cloud Projekt befindet, geben Sie die ID dieses Projekts ein. Geben Sie für eine freigegebene VPC die Hostprojekt-ID ein, in der sich das Netzwerk befindet.
Subnetz Das Subnetz, das beim Erstellen von Clustern verwendet werden soll. Sie muss sich im angegebenen Netzwerk und in der Region befinden, in der sich die Zone befindet. Wenn Sie dieses Feld leer lassen, wird ein Subnetz basierend auf dem Netzwerk und der Zone ausgewählt.
Runner-Dienstkonto Der Dienstkontoname der virtuellen Maschinen (VMs) von Managed Service for Apache Spark, die zum Ausführen von Programmen verwendet werden. Wenn Sie dieses Feld leer lassen, wird das Compute Engine-Standarddienstkonto verwendet.
Anzahl der Master

Die Anzahl der Masterknoten im Cluster. Diese Knoten enthalten den YARN Resource Manager, HDFS NameNode und alle Treiber. Muss auf 1 oder 3 festgelegt sein.

Der Standardwert ist 1.

Master-Maschinentyp

Der Typ der zu verwendenden Master-Maschine. Wählen Sie einen der folgenden Maschinentypen aus:

  • n1
  • n2
  • n2d
  • e2

In Cloud Data Fusion-Version 6.7.2 und höher ist e2 die Standardeinstellung.

In Version 6.7.1 ist der Standardwert n2.

In Version 6.7.0 und früher ist der Standardwert n1.

Master-Kerne

Anzahl der virtuellen Kerne, die einem Masterknoten zugewiesen sind.

Der Standardwert ist 2.

Master-Arbeitsspeicher (GB)

Die Menge an Arbeitsspeicher in Gigabyte, die einem Masterknoten zugewiesen ist.

Der Standardwert ist 8 GB.

Größe des Master-Laufwerks (GB)

Die Größe des Laufwerks in Gigabyte, das einem Masterknoten zugewiesen ist.

Der Standardwert ist 1.000 GB.

Master-Laufwerkstyp

Typ des Bootlaufwerks für einen Masterknoten:

  • Nichtflüchtiger Standardspeicher
  • Nichtflüchtiger SSD-Speicher

Der Standardwert ist nichtflüchtiger Standardspeicher.

Worker-Maschinentyp

Der Typ der zu verwendenden Worker-Maschine. Wählen Sie einen der folgenden Maschinentypen aus:

  • n1
  • n2
  • n2d
  • e2

In Cloud Data Fusion-Version 6.7.2 und höher ist e2 die Standardeinstellung.

In Version 6.7.1 ist der Standardwert n2.

In Version 6.7.0 und früher ist der Standardwert n1.

Worker-Cores

Anzahl der einem Worker-Knoten zugewiesenen virtuellen Kerne.

Der Standardwert ist 2.

Worker-Arbeitsspeicher (GB)

Die Menge an Arbeitsspeicher in Gigabyte, die einem Worker-Knoten zugewiesen ist.

Der Standardwert ist 8 GB.

Größe des Worker-Laufwerks (GB)

Die Größe des Laufwerks in Gigabyte, das einem Worker-Knoten zugewiesen ist.

Der Standardwert ist 1.000 GB.

Worker-Laufwerkstyp

Typ des Bootlaufwerks für einen Worker-Knoten:

  • Nichtflüchtiger Standardspeicher
  • Nichtflüchtiger SSD-Speicher

Der Standardwert ist nichtflüchtiger Standardspeicher.

Vordefiniertes Autoscaling verwenden Ermöglicht die Verwendung von vordefiniertem Autoscaling für Managed Service for Apache Spark.
Anzahl der primären Worker

Worker-Knoten enthalten einen YARN NodeManager und einen HDFS DataNode.

Der Standardwert ist 2.

Anzahl der sekundären Worker Sekundäre Worker-Knoten enthalten einen YARN NodeManager, aber keinen HDFS DataNode. Dieser Wert ist normalerweise auf null gesetzt, es sei denn, eine Autoscaling-Richtlinie erfordert einen höheren Wert.
Autoscaling-Richtlinie

Pfad für die Autoscaling-Richtlinien-ID oder den Ressourcen-URI.

Informationen zur Konfiguration und Verwendung von Autoscaling für Managed Service for Apache Spark, um Cluster automatisch und dynamisch an die Arbeitslastanforderungen anzupassen, finden Sie unter Wann sollte Autoscaling verwendet werden? und Autoscaling von Managed Service for Apache Spark-Clustern.

Metadaten Zusätzliche Metadaten für Instanzen, die in Ihrem Cluster ausgeführt werden. Sie können es in der Regel verwenden, um Abrechnungen und Rückbuchungen nachzuverfolgen. Weitere Informationen finden Sie unter Clustermetadaten.
Netzwerk-Tags Weisen Sie Netzwerk-Tags zu, um Firewallregeln auf die spezifischen Knoten eines Clusters anzuwenden. Netzwerk-Tags müssen mit einem Kleinbuchstaben beginnen und dürfen Kleinbuchstaben, Ziffern und Bindestriche enthalten. Am Ende des Tags muss ein Kleinbuchstabe oder eine Ziffer stehen.
Secure Boot aktivieren

Aktiviert Secure Boot auf den VMs von Managed Service for Apache Spark.

Standardwert ist False.

vTPM aktivieren

Aktiviert das Virtual Trusted Platform Module (vTPM) auf den VMs des Managed Service for Apache Spark.

Standardwert ist False.

Integritätsmonitoring aktivieren

Aktiviert das virtuelle Integritätsmonitoring auf den VMs von Managed Service for Apache Spark.

Standardwert ist False.

Image-Version Die Image-Version von Managed Service for Apache Spark. Wenn Sie dieses Feld leer lassen, wird automatisch eine ausgewählt. Wenn die Property Benutzerdefinierte Bild-URI leer gelassen wird, wird diese Property ignoriert.
URI eines benutzerdefinierten Images Der Image-URI für Managed Service for Apache Spark. Wenn Sie dieses Feld leer lassen, wird der Wert aus dem Attribut Bildversion abgeleitet.
Staging-Bucket Cloud Storage-Bucket, der zum Staging von Jobabhängigkeiten und Konfigurationsdateien für die Ausführung von Pipelines in Managed Service for Apache Spark verwendet wird.
Temporärer Bucket

Cloud Storage-Bucket, der zum Speichern sitzungsspezifischer Cluster- und Jobdaten wie Spark-Verlaufsdateien in Managed Service for Apache Spark verwendet wird.

Diese Eigenschaft wurde in Cloud Data Fusion-Version 6.9.2 eingeführt.

Name des Verschlüsselungsschlüssels Der vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Key, CMEK), der von Managed Service for Apache Spark verwendet wird.
OAuth-Bereiche

Die OAuth 2.0-Bereiche, die Sie möglicherweise anfordern müssen, um auf Google-APIs zuzugreifen, je nachdem, welche Zugriffsebene Sie benötigen. Google Cloud Plattformbereich ist immer enthalten.

Diese Eigenschaft wurde in Cloud Data Fusion-Version 6.9.2 eingeführt.

Initialisierungsaktionen Eine Liste von Skripts, die während der Initialisierung des Clusters ausgeführt werden. Initialisierungsaktionen sollten in Cloud Storage platziert werden.
Clusterattribute Clusterattribute, die die Standardkonfigurationseigenschaften der Hadoop-Dienste überschreiben. Weitere Informationen zu den anwendbaren Schlüssel/Wert-Paaren finden Sie unter Clusterattribute.
Häufig verwendete Labels

Labels zum Organisieren der erstellten Managed Service for Apache Spark-Cluster und -Jobs.

Sie können jede Ressource mit einem Label versehen und dann die Ressourcen nach Labels filtern. Informationen zu Labels werden an das Abrechnungssystem weitergeleitet, sodass Kunden die in Rechnung gestellten Kosten nach Label aufschlüsseln können.

Maximale Inaktivitätszeit

Konfigurieren Sie Managed Service for Apache Spark so, dass ein Cluster gelöscht wird, wenn er länger als die angegebene Anzahl von Minuten inaktiv ist. Cluster werden normalerweise direkt nach dem Ende eines Laufs gelöscht. In seltenen Fällen kann das Löschen jedoch fehlschlagen. Weitere Informationen finden Sie unter Fehlerbehebung beim Löschen von Clustern.

Der Standardwert ist 30 Minuten.

Clusterlöschung überspringen

Gibt an, ob das Löschen des Clusters am Ende eines Laufs übersprungen werden soll. Sie müssen Cluster manuell löschen. Dies sollte nur zur Fehlerbehebung bei einem fehlgeschlagenen Lauf verwendet werden.

Standardwert ist False.

Stackdriver Logging-Integration aktivieren

Aktivieren Sie die Stackdriver Logging-Integration.

Standardwert ist True.

Stackdriver Monitoring-Integration aktivieren

Aktivieren Sie die Stackdriver Monitoring-Integration.

Standardwert ist True.

Component Gateway aktivieren

Aktivieren Sie das Komponenten-Gateway, um auf die Schnittstellen des Clusters zuzugreifen, z. B. auf den YARN ResourceManager und den Spark HistoryServer.

Standardwert ist False.

Externe IP-Adresse bevorzugen

Wenn das System auf Google Cloud im selben Netzwerk wie der Cluster ausgeführt wird, verwendet es normalerweise die interne IP-Adresse für die Kommunikation mit dem Cluster. Wenn Sie immer die externe IP-Adresse verwenden möchten, setzen Sie diesen Wert auf True.

Standardwert ist False.

Verzögerung für Umfrage erstellen

Die Anzahl der Sekunden, die nach dem Erstellen eines Clusters gewartet werden soll, bevor mit dem Polling begonnen wird, um festzustellen, ob der Cluster erstellt wurde.

Der Standardwert beträgt 60 Sekunden.

Mit den Polling-Einstellungen wird festgelegt, wie oft der Clusterstatus beim Erstellen und Löschen von Clustern abgefragt wird. Wenn viele Pipelines gleichzeitig ausgeführt werden sollen, sollten Sie diese Einstellungen ändern.

Jitter für Umfragen erstellen

Maximale Menge an zufälligem Jitter in Sekunden, die der Verzögerung beim Erstellen eines Clusters hinzugefügt werden soll. Mit dieser Eigenschaft können Sie viele gleichzeitige API-Aufrufe in Google Cloud verhindern, wenn viele Pipelines genau zur selben Zeit ausgeführt werden sollen.

Der Standardwert beträgt 20 Sekunden.

Verzögerung beim Löschen von Umfragen

Die Anzahl der Sekunden, die nach dem Löschen eines Clusters gewartet werden soll, bevor mit dem Polling begonnen wird, um festzustellen, ob der Cluster gelöscht wurde.

Der Standardwert beträgt 30 Sekunden.

Polling-Intervall

Die Anzahl der Sekunden, die zwischen den Abfragen des Clusterstatus gewartet werden soll.

Der Standardwert ist 2.

Attribute der Web-Benutzeroberfläche für Managed Service for Apache Spark-Profile, die JSON-Attributen zugeordnet sind

Name der UI-Eigenschaft für das Profil von Managed Service for Apache Spark JSON-Attributname für das Profil von Managed Service for Apache Spark
Profil-Label name
Profilname label
Beschreibung description
Projekt-ID projectId
Dienstkontoschlüssel für Creator accountKey
Region region
Zone zone
Netzwerk network
Netzwerk-Hostprojekt-ID networkHostProjectId
Subnetz subnet
Runner-Dienstkonto serviceAccount
Anzahl der Master masterNumNodes
Master-Maschinentyp masterMachineType
Master-Kerne masterCPUs
Master-Arbeitsspeicher (GB) masterMemoryMB
Größe des Master-Laufwerks (GB) masterDiskGB
Master-Laufwerkstyp masterDiskType
Anzahl der primären Worker workerNumNodes
Anzahl der sekundären Worker secondaryWorkerNumNodes
Worker-Maschinentyp workerMachineType
Worker-Cores workerCPUs
Worker-Arbeitsspeicher (GB) workerMemoryMB
Größe des Worker-Laufwerks (GB) workerDiskGB
Worker-Laufwerkstyp workerDiskType
Metadaten clusterMetaData
Netzwerk-Tags networkTags
Secure Boot aktivieren secureBootEnabled
vTPM aktivieren vTpmEnabled
Integritätsmonitoring aktivieren integrityMonitoringEnabled
Image-Version imageVersion
URI eines benutzerdefinierten Images customImageUri
Cloud Storage-Bucket gcsBucket
Name des Verschlüsselungsschlüssels encryptionKeyName
Autoscaling-Richtlinie autoScalingPolicy
Initialisierungsaktionen initActions
Clusterattribute clusterProperties
Labels clusterLabels
Maximale Inaktivitätszeit idleTTL
Clusterlöschung überspringen skipDelete
Stackdriver Logging-Integration aktivieren stackdriverLoggingEnabled
Stackdriver Monitoring-Integration aktivieren stackdriverMonitoringEnabled
Component Gateway aktivieren componentGatewayEnabled
Externe IP-Adresse bevorzugen preferExternalIP
Verzögerung für Umfrage erstellen pollCreateDelay
Jitter für Umfragen erstellen pollCreateJitter
Verzögerung beim Löschen von Umfragen pollDeleteDelay
Polling-Intervall pollInterval

Best Practices

Beachten Sie beim Erstellen eines statischen Clusters für Ihre Pipelines die Best Practices für die Clusterkonfiguration.

Nächste Schritte