Provisionierungseigenschaften für Managed Service for Apache Spark

Der Provisioner für den verwalteten Dienst für Apache Spark in Cloud Data Fusion ruft die Dataproc API auf, um Cluster in Ihren Google Cloud-Projekten zu erstellen und zu löschen. Sie können die Cluster in den Einstellungen des Bereitstellungstools konfigurieren.

Weitere Informationen zur Kompatibilität zwischen Cloud Data Fusion-Versionen und Managed Service for Apache Spark-Versionen finden Sie unter Versionskompatibilität.

Eigenschaften

Attribut	Beschreibung
Projekt-ID	Das Google Cloud -Projekt, in dem der Managed Service for Apache Spark-Cluster erstellt wird. Die Dataproc API muss für das Projekt aktiviert sein.
Dienstkontoschlüssel für Creator	Der dem Provisioner bereitgestellte Dienstkontoschlüssel muss die Berechtigung für den Zugriff auf die Managed Service for Apache Spark- und Compute Engine-APIs haben. Da Ihr Kontoschlüssel vertraulich ist, empfehlen wir, ihn über Secure Storage bereitzustellen. Nachdem Sie den sicheren Schlüssel erstellt haben, können Sie ihn einem Namespace oder einem System-Compute-Profil hinzufügen. Klicken Sie für ein Namespace-Rechenprofil auf das -Schild und wählen Sie den sicheren Schlüssel aus. Geben Sie für ein System-Compute-Profil den Namen des Schlüssels im Feld Secure Account Key (Sicherer Kontoschlüssel) ein.
Region	Ein geografischer Standort, an dem Sie Ihre Ressourcen hosten können, z. B. die Rechenknoten für den Managed Service for Apache Spark-Cluster.
Zone	Ein isolierter Bereitstellungsbereich innerhalb einer Region.
Netzwerk	Das VPC-Netzwerk in Ihrem Google Cloud -Projekt, das beim Erstellen eines Managed Service for Apache Spark-Clusters verwendet wird.
Netzwerk-Hostprojekt-ID	Wenn sich das Netzwerk in einem anderen Google Cloud Projekt befindet, geben Sie die ID dieses Projekts ein. Geben Sie für eine freigegebene VPC die Hostprojekt-ID ein, in der sich das Netzwerk befindet.
Subnetz	Das Subnetz, das beim Erstellen von Clustern verwendet werden soll. Sie muss sich im angegebenen Netzwerk und in der Region befinden, in der sich die Zone befindet. Wenn Sie dieses Feld leer lassen, wird ein Subnetz basierend auf dem Netzwerk und der Zone ausgewählt.
Runner-Dienstkonto	Der Dienstkontoname der virtuellen Maschinen (VMs) von Managed Service for Apache Spark, die zum Ausführen von Programmen verwendet werden. Wenn Sie dieses Feld leer lassen, wird das Compute Engine-Standarddienstkonto verwendet.
Anzahl der Master	Die Anzahl der Masterknoten im Cluster. Diese Knoten enthalten den YARN Resource Manager, HDFS NameNode und alle Treiber. Muss auf 1 oder 3 festgelegt sein. Der Standardwert ist 1.
Master-Maschinentyp	Der Typ der zu verwendenden Master-Maschine. Wählen Sie einen der folgenden Maschinentypen aus: n1 n2 n2d e2 In Cloud Data Fusion-Version 6.7.2 und höher ist e2 die Standardeinstellung. In Version 6.7.1 ist der Standardwert n2. In Version 6.7.0 und früher ist der Standardwert n1.
Master-Kerne	Anzahl der virtuellen Kerne, die einem Masterknoten zugewiesen sind. Der Standardwert ist 2.
Master-Arbeitsspeicher (GB)	Die Menge an Arbeitsspeicher in Gigabyte, die einem Masterknoten zugewiesen ist. Der Standardwert ist 8 GB.
Größe des Master-Laufwerks (GB)	Die Größe des Laufwerks in Gigabyte, das einem Masterknoten zugewiesen ist. Der Standardwert ist 1.000 GB.
Master-Laufwerkstyp	Typ des Bootlaufwerks für einen Masterknoten: Nichtflüchtiger Standardspeicher Nichtflüchtiger SSD-Speicher Der Standardwert ist nichtflüchtiger Standardspeicher.
Worker-Maschinentyp	Der Typ der zu verwendenden Worker-Maschine. Wählen Sie einen der folgenden Maschinentypen aus: n1 n2 n2d e2 In Cloud Data Fusion-Version 6.7.2 und höher ist e2 die Standardeinstellung. In Version 6.7.1 ist der Standardwert n2. In Version 6.7.0 und früher ist der Standardwert n1.
Worker-Cores	Anzahl der einem Worker-Knoten zugewiesenen virtuellen Kerne. Der Standardwert ist 2.
Worker-Arbeitsspeicher (GB)	Die Menge an Arbeitsspeicher in Gigabyte, die einem Worker-Knoten zugewiesen ist. Der Standardwert ist 8 GB.
Größe des Worker-Laufwerks (GB)	Die Größe des Laufwerks in Gigabyte, das einem Worker-Knoten zugewiesen ist. Der Standardwert ist 1.000 GB.
Worker-Laufwerkstyp	Typ des Bootlaufwerks für einen Worker-Knoten: Nichtflüchtiger Standardspeicher Nichtflüchtiger SSD-Speicher Der Standardwert ist nichtflüchtiger Standardspeicher.
Vordefiniertes Autoscaling verwenden	Ermöglicht die Verwendung von vordefiniertem Autoscaling für Managed Service for Apache Spark.
Anzahl der primären Worker	Worker-Knoten enthalten einen YARN NodeManager und einen HDFS DataNode. Der Standardwert ist 2.
Anzahl der sekundären Worker	Sekundäre Worker-Knoten enthalten einen YARN NodeManager, aber keinen HDFS DataNode. Dieser Wert ist normalerweise auf null gesetzt, es sei denn, eine Autoscaling-Richtlinie erfordert einen höheren Wert.
Autoscaling-Richtlinie	Pfad für die Autoscaling-Richtlinien-ID oder den Ressourcen-URI. Informationen zur Konfiguration und Verwendung von Autoscaling für Managed Service for Apache Spark, um Cluster automatisch und dynamisch an die Arbeitslastanforderungen anzupassen, finden Sie unter Wann sollte Autoscaling verwendet werden? und Autoscaling von Managed Service for Apache Spark-Clustern.
Metadaten	Zusätzliche Metadaten für Instanzen, die in Ihrem Cluster ausgeführt werden. Sie können es in der Regel verwenden, um Abrechnungen und Rückbuchungen nachzuverfolgen. Weitere Informationen finden Sie unter Clustermetadaten.
Netzwerk-Tags	Weisen Sie Netzwerk-Tags zu, um Firewallregeln auf die spezifischen Knoten eines Clusters anzuwenden. Netzwerk-Tags müssen mit einem Kleinbuchstaben beginnen und dürfen Kleinbuchstaben, Ziffern und Bindestriche enthalten. Am Ende des Tags muss ein Kleinbuchstabe oder eine Ziffer stehen.
Secure Boot aktivieren	Aktiviert Secure Boot auf den VMs von Managed Service for Apache Spark. Standardwert ist False.
vTPM aktivieren	Aktiviert das Virtual Trusted Platform Module (vTPM) auf den VMs des Managed Service for Apache Spark. Standardwert ist False.
Integritätsmonitoring aktivieren	Aktiviert das virtuelle Integritätsmonitoring auf den VMs von Managed Service for Apache Spark. Standardwert ist False.
Image-Version	Die Image-Version von Managed Service for Apache Spark. Wenn Sie dieses Feld leer lassen, wird automatisch eine ausgewählt. Wenn die Property Benutzerdefinierte Bild-URI leer gelassen wird, wird diese Property ignoriert.
URI eines benutzerdefinierten Images	Der Image-URI für Managed Service for Apache Spark. Wenn Sie dieses Feld leer lassen, wird der Wert aus dem Attribut Bildversion abgeleitet.
Staging-Bucket	Cloud Storage-Bucket, der zum Staging von Jobabhängigkeiten und Konfigurationsdateien für die Ausführung von Pipelines in Managed Service for Apache Spark verwendet wird.
Temporärer Bucket	Cloud Storage-Bucket, der zum Speichern sitzungsspezifischer Cluster- und Jobdaten wie Spark-Verlaufsdateien in Managed Service for Apache Spark verwendet wird. Diese Eigenschaft wurde in Cloud Data Fusion-Version 6.9.2 eingeführt.
Name des Verschlüsselungsschlüssels	Der vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Key, CMEK), der von Managed Service for Apache Spark verwendet wird.
OAuth-Bereiche	Die OAuth 2.0-Bereiche, die Sie möglicherweise anfordern müssen, um auf Google-APIs zuzugreifen, je nachdem, welche Zugriffsebene Sie benötigen. Google Cloud Plattformbereich ist immer enthalten. Diese Eigenschaft wurde in Cloud Data Fusion-Version 6.9.2 eingeführt.
Initialisierungsaktionen	Eine Liste von Skripts, die während der Initialisierung des Clusters ausgeführt werden. Initialisierungsaktionen sollten in Cloud Storage platziert werden.
Clusterattribute	Clusterattribute, die die Standardkonfigurationseigenschaften der Hadoop-Dienste überschreiben. Weitere Informationen zu den anwendbaren Schlüssel/Wert-Paaren finden Sie unter Clusterattribute.
Häufig verwendete Labels	Labels zum Organisieren der erstellten Managed Service for Apache Spark-Cluster und -Jobs. Sie können jede Ressource mit einem Label versehen und dann die Ressourcen nach Labels filtern. Informationen zu Labels werden an das Abrechnungssystem weitergeleitet, sodass Kunden die in Rechnung gestellten Kosten nach Label aufschlüsseln können.
Maximale Inaktivitätszeit	Konfigurieren Sie Managed Service for Apache Spark so, dass ein Cluster gelöscht wird, wenn er länger als die angegebene Anzahl von Minuten inaktiv ist. Cluster werden normalerweise direkt nach dem Ende eines Laufs gelöscht. In seltenen Fällen kann das Löschen jedoch fehlschlagen. Weitere Informationen finden Sie unter Fehlerbehebung beim Löschen von Clustern. Der Standardwert ist 30 Minuten.
Clusterlöschung überspringen	Gibt an, ob das Löschen des Clusters am Ende eines Laufs übersprungen werden soll. Sie müssen Cluster manuell löschen. Dies sollte nur zur Fehlerbehebung bei einem fehlgeschlagenen Lauf verwendet werden. Standardwert ist False.
Stackdriver Logging-Integration aktivieren	Aktivieren Sie die Stackdriver Logging-Integration. Standardwert ist True.
Stackdriver Monitoring-Integration aktivieren	Aktivieren Sie die Stackdriver Monitoring-Integration. Standardwert ist True.
Component Gateway aktivieren	Aktivieren Sie das Komponenten-Gateway, um auf die Schnittstellen des Clusters zuzugreifen, z. B. auf den YARN ResourceManager und den Spark HistoryServer. Standardwert ist False.
Externe IP-Adresse bevorzugen	Wenn das System auf Google Cloud im selben Netzwerk wie der Cluster ausgeführt wird, verwendet es normalerweise die interne IP-Adresse für die Kommunikation mit dem Cluster. Wenn Sie immer die externe IP-Adresse verwenden möchten, setzen Sie diesen Wert auf True. Standardwert ist False.
Verzögerung für Umfrage erstellen	Die Anzahl der Sekunden, die nach dem Erstellen eines Clusters gewartet werden soll, bevor mit dem Polling begonnen wird, um festzustellen, ob der Cluster erstellt wurde. Der Standardwert beträgt 60 Sekunden. Mit den Polling-Einstellungen wird festgelegt, wie oft der Clusterstatus beim Erstellen und Löschen von Clustern abgefragt wird. Wenn viele Pipelines gleichzeitig ausgeführt werden sollen, sollten Sie diese Einstellungen ändern.
Jitter für Umfragen erstellen	Maximale Menge an zufälligem Jitter in Sekunden, die der Verzögerung beim Erstellen eines Clusters hinzugefügt werden soll. Mit dieser Eigenschaft können Sie viele gleichzeitige API-Aufrufe in Google Cloud verhindern, wenn viele Pipelines genau zur selben Zeit ausgeführt werden sollen. Der Standardwert beträgt 20 Sekunden.
Verzögerung beim Löschen von Umfragen	Die Anzahl der Sekunden, die nach dem Löschen eines Clusters gewartet werden soll, bevor mit dem Polling begonnen wird, um festzustellen, ob der Cluster gelöscht wurde. Der Standardwert beträgt 30 Sekunden.
Polling-Intervall	Die Anzahl der Sekunden, die zwischen den Abfragen des Clusterstatus gewartet werden soll. Der Standardwert ist 2.

Attribute der Web-Benutzeroberfläche für Managed Service for Apache Spark-Profile, die JSON-Attributen zugeordnet sind

Name der UI-Eigenschaft für das Profil von Managed Service for Apache Spark	JSON-Attributname für das Profil von Managed Service for Apache Spark
Profil-Label	`name`
Profilname	`label`
Beschreibung	`description`
Projekt-ID	`projectId`
Dienstkontoschlüssel für Creator	`accountKey`
Region	`region`
Zone	`zone`
Netzwerk	`network`
Netzwerk-Hostprojekt-ID	`networkHostProjectId`
Subnetz	`subnet`
Runner-Dienstkonto	`serviceAccount`
Anzahl der Master	`masterNumNodes`
Master-Maschinentyp	`masterMachineType`
Master-Kerne	`masterCPUs`
Master-Arbeitsspeicher (GB)	`masterMemoryMB`
Größe des Master-Laufwerks (GB)	`masterDiskGB`
Master-Laufwerkstyp	`masterDiskType`
Anzahl der primären Worker	`workerNumNodes`
Anzahl der sekundären Worker	`secondaryWorkerNumNodes`
Worker-Maschinentyp	`workerMachineType`
Worker-Cores	`workerCPUs`
Worker-Arbeitsspeicher (GB)	`workerMemoryMB`
Größe des Worker-Laufwerks (GB)	`workerDiskGB`
Worker-Laufwerkstyp	`workerDiskType`
Metadaten	`clusterMetaData`
Netzwerk-Tags	`networkTags`
Secure Boot aktivieren	`secureBootEnabled`
vTPM aktivieren	`vTpmEnabled`
Integritätsmonitoring aktivieren	`integrityMonitoringEnabled`
Image-Version	`imageVersion`
URI eines benutzerdefinierten Images	`customImageUri`
Cloud Storage-Bucket	`gcsBucket`
Name des Verschlüsselungsschlüssels	`encryptionKeyName`
Autoscaling-Richtlinie	`autoScalingPolicy`
Initialisierungsaktionen	`initActions`
Clusterattribute	`clusterProperties`
Labels	`clusterLabels`
Maximale Inaktivitätszeit	`idleTTL`
Clusterlöschung überspringen	`skipDelete`
Stackdriver Logging-Integration aktivieren	`stackdriverLoggingEnabled`
Stackdriver Monitoring-Integration aktivieren	`stackdriverMonitoringEnabled`
Component Gateway aktivieren	`componentGatewayEnabled`
Externe IP-Adresse bevorzugen	`preferExternalIP`
Verzögerung für Umfrage erstellen	`pollCreateDelay`
Jitter für Umfragen erstellen	`pollCreateJitter`
Verzögerung beim Löschen von Umfragen	`pollDeleteDelay`
Polling-Intervall	`pollInterval`

Best Practices

Beachten Sie beim Erstellen eines statischen Clusters für Ihre Pipelines die Best Practices für die Clusterkonfiguration.

Nächste Schritte

Weitere Informationen zum Verwalten von Berechnungsprofilen

Provisionierungseigenschaften für Managed Service for Apache Spark Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Eigenschaften

Attribute der Web-Benutzeroberfläche für Managed Service for Apache Spark-Profile, die JSON-Attributen zugeordnet sind

Best Practices

Nächste Schritte

Provisionierungseigenschaften für Managed Service for Apache Spark