Der Provisioner für den verwalteten Dienst für Apache Spark in Cloud Data Fusion ruft die Dataproc API auf, um Cluster in Ihren Google Cloud-Projekten zu erstellen und zu löschen. Sie können die Cluster in den Einstellungen des Bereitstellungstools konfigurieren.
Weitere Informationen zur Kompatibilität zwischen Cloud Data Fusion-Versionen und Managed Service for Apache Spark-Versionen finden Sie unter Versionskompatibilität.
Eigenschaften
| Attribut | Beschreibung |
|---|---|
| Projekt-ID | Das Google Cloud -Projekt, in dem der Managed Service for Apache Spark-Cluster erstellt wird. Die Dataproc API muss für das Projekt aktiviert sein. |
| Dienstkontoschlüssel für Creator | Der dem Provisioner bereitgestellte Dienstkontoschlüssel muss die Berechtigung für den Zugriff auf die Managed Service for Apache Spark- und Compute Engine-APIs haben. Da Ihr Kontoschlüssel vertraulich ist, empfehlen wir, ihn über Secure Storage bereitzustellen. Nachdem Sie den sicheren Schlüssel erstellt haben, können Sie ihn einem Namespace oder einem System-Compute-Profil hinzufügen. Klicken Sie für ein Namespace-Rechenprofil auf das -Schild und wählen Sie den sicheren Schlüssel aus. Geben Sie für ein System-Compute-Profil den Namen des Schlüssels im Feld Secure Account Key (Sicherer Kontoschlüssel) ein. |
| Region | Ein geografischer Standort, an dem Sie Ihre Ressourcen hosten können, z. B. die Rechenknoten für den Managed Service for Apache Spark-Cluster. |
| Zone | Ein isolierter Bereitstellungsbereich innerhalb einer Region. |
| Netzwerk | Das VPC-Netzwerk in Ihrem Google Cloud -Projekt, das beim Erstellen eines Managed Service for Apache Spark-Clusters verwendet wird. |
| Netzwerk-Hostprojekt-ID | Wenn sich das Netzwerk in einem anderen Google Cloud Projekt befindet, geben Sie die ID dieses Projekts ein. Geben Sie für eine freigegebene VPC die Hostprojekt-ID ein, in der sich das Netzwerk befindet. |
| Subnetz | Das Subnetz, das beim Erstellen von Clustern verwendet werden soll. Sie muss sich im angegebenen Netzwerk und in der Region befinden, in der sich die Zone befindet. Wenn Sie dieses Feld leer lassen, wird ein Subnetz basierend auf dem Netzwerk und der Zone ausgewählt. |
| Runner-Dienstkonto | Der Dienstkontoname der virtuellen Maschinen (VMs) von Managed Service for Apache Spark, die zum Ausführen von Programmen verwendet werden. Wenn Sie dieses Feld leer lassen, wird das Compute Engine-Standarddienstkonto verwendet. |
| Anzahl der Master | Die Anzahl der Masterknoten im Cluster. Diese Knoten enthalten den YARN Resource Manager, HDFS NameNode und alle Treiber. Muss auf 1 oder 3 festgelegt sein. Der Standardwert ist 1. |
| Master-Maschinentyp | Der Typ der zu verwendenden Master-Maschine. Wählen Sie einen der folgenden Maschinentypen aus:
In Cloud Data Fusion-Version 6.7.2 und höher ist e2 die Standardeinstellung. In Version 6.7.1 ist der Standardwert n2. In Version 6.7.0 und früher ist der Standardwert n1. |
| Master-Kerne | Anzahl der virtuellen Kerne, die einem Masterknoten zugewiesen sind. Der Standardwert ist 2. |
| Master-Arbeitsspeicher (GB) | Die Menge an Arbeitsspeicher in Gigabyte, die einem Masterknoten zugewiesen ist. Der Standardwert ist 8 GB. |
| Größe des Master-Laufwerks (GB) | Die Größe des Laufwerks in Gigabyte, das einem Masterknoten zugewiesen ist. Der Standardwert ist 1.000 GB. |
| Master-Laufwerkstyp | Typ des Bootlaufwerks für einen Masterknoten:
Der Standardwert ist nichtflüchtiger Standardspeicher. |
| Worker-Maschinentyp | Der Typ der zu verwendenden Worker-Maschine. Wählen Sie einen der folgenden Maschinentypen aus:
In Cloud Data Fusion-Version 6.7.2 und höher ist e2 die Standardeinstellung. In Version 6.7.1 ist der Standardwert n2. In Version 6.7.0 und früher ist der Standardwert n1. |
| Worker-Cores | Anzahl der einem Worker-Knoten zugewiesenen virtuellen Kerne. Der Standardwert ist 2. |
| Worker-Arbeitsspeicher (GB) | Die Menge an Arbeitsspeicher in Gigabyte, die einem Worker-Knoten zugewiesen ist. Der Standardwert ist 8 GB. |
| Größe des Worker-Laufwerks (GB) | Die Größe des Laufwerks in Gigabyte, das einem Worker-Knoten zugewiesen ist. Der Standardwert ist 1.000 GB. |
| Worker-Laufwerkstyp | Typ des Bootlaufwerks für einen Worker-Knoten:
Der Standardwert ist nichtflüchtiger Standardspeicher. |
| Vordefiniertes Autoscaling verwenden | Ermöglicht die Verwendung von vordefiniertem Autoscaling für Managed Service for Apache Spark. |
| Anzahl der primären Worker | Worker-Knoten enthalten einen YARN NodeManager und einen HDFS DataNode. Der Standardwert ist 2. |
| Anzahl der sekundären Worker | Sekundäre Worker-Knoten enthalten einen YARN NodeManager, aber keinen HDFS DataNode. Dieser Wert ist normalerweise auf null gesetzt, es sei denn, eine Autoscaling-Richtlinie erfordert einen höheren Wert. |
| Autoscaling-Richtlinie | Pfad für die Autoscaling-Richtlinien-ID oder den Ressourcen-URI. Informationen zur Konfiguration und Verwendung von Autoscaling für Managed Service for Apache Spark, um Cluster automatisch und dynamisch an die Arbeitslastanforderungen anzupassen, finden Sie unter Wann sollte Autoscaling verwendet werden? und Autoscaling von Managed Service for Apache Spark-Clustern. |
| Metadaten | Zusätzliche Metadaten für Instanzen, die in Ihrem Cluster ausgeführt werden. Sie können es in der Regel verwenden, um Abrechnungen und Rückbuchungen nachzuverfolgen. Weitere Informationen finden Sie unter Clustermetadaten. |
| Netzwerk-Tags | Weisen Sie Netzwerk-Tags zu, um Firewallregeln auf die spezifischen Knoten eines Clusters anzuwenden. Netzwerk-Tags müssen mit einem Kleinbuchstaben beginnen und dürfen Kleinbuchstaben, Ziffern und Bindestriche enthalten. Am Ende des Tags muss ein Kleinbuchstabe oder eine Ziffer stehen. |
| Secure Boot aktivieren | Aktiviert Secure Boot auf den VMs von Managed Service for Apache Spark. Standardwert ist False. |
| vTPM aktivieren | Aktiviert das Virtual Trusted Platform Module (vTPM) auf den VMs des Managed Service for Apache Spark. Standardwert ist False. |
| Integritätsmonitoring aktivieren | Aktiviert das virtuelle Integritätsmonitoring auf den VMs von Managed Service for Apache Spark. Standardwert ist False. |
| Image-Version | Die Image-Version von Managed Service for Apache Spark. Wenn Sie dieses Feld leer lassen, wird automatisch eine ausgewählt. Wenn die Property Benutzerdefinierte Bild-URI leer gelassen wird, wird diese Property ignoriert. |
| URI eines benutzerdefinierten Images | Der Image-URI für Managed Service for Apache Spark. Wenn Sie dieses Feld leer lassen, wird der Wert aus dem Attribut Bildversion abgeleitet. |
| Staging-Bucket | Cloud Storage-Bucket, der zum Staging von Jobabhängigkeiten und Konfigurationsdateien für die Ausführung von Pipelines in Managed Service for Apache Spark verwendet wird. |
| Temporärer Bucket | Cloud Storage-Bucket, der zum Speichern sitzungsspezifischer Cluster- und Jobdaten wie Spark-Verlaufsdateien in Managed Service for Apache Spark verwendet wird. Diese Eigenschaft wurde in Cloud Data Fusion-Version 6.9.2 eingeführt. |
| Name des Verschlüsselungsschlüssels | Der vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Key, CMEK), der von Managed Service for Apache Spark verwendet wird. |
| OAuth-Bereiche | Die OAuth 2.0-Bereiche, die Sie möglicherweise anfordern müssen, um auf Google-APIs zuzugreifen, je nachdem, welche Zugriffsebene Sie benötigen. Google Cloud Plattformbereich ist immer enthalten. Diese Eigenschaft wurde in Cloud Data Fusion-Version 6.9.2 eingeführt. |
| Initialisierungsaktionen | Eine Liste von Skripts, die während der Initialisierung des Clusters ausgeführt werden. Initialisierungsaktionen sollten in Cloud Storage platziert werden. |
| Clusterattribute | Clusterattribute, die die Standardkonfigurationseigenschaften der Hadoop-Dienste überschreiben. Weitere Informationen zu den anwendbaren Schlüssel/Wert-Paaren finden Sie unter Clusterattribute. |
| Häufig verwendete Labels | Labels zum Organisieren der erstellten Managed Service for Apache Spark-Cluster und -Jobs. Sie können jede Ressource mit einem Label versehen und dann die Ressourcen nach Labels filtern. Informationen zu Labels werden an das Abrechnungssystem weitergeleitet, sodass Kunden die in Rechnung gestellten Kosten nach Label aufschlüsseln können. |
| Maximale Inaktivitätszeit | Konfigurieren Sie Managed Service for Apache Spark so, dass ein Cluster gelöscht wird, wenn er länger als die angegebene Anzahl von Minuten inaktiv ist. Cluster werden normalerweise direkt nach dem Ende eines Laufs gelöscht. In seltenen Fällen kann das Löschen jedoch fehlschlagen. Weitere Informationen finden Sie unter Fehlerbehebung beim Löschen von Clustern. Der Standardwert ist 30 Minuten. |
| Clusterlöschung überspringen | Gibt an, ob das Löschen des Clusters am Ende eines Laufs übersprungen werden soll. Sie müssen Cluster manuell löschen. Dies sollte nur zur Fehlerbehebung bei einem fehlgeschlagenen Lauf verwendet werden. Standardwert ist False. |
| Stackdriver Logging-Integration aktivieren | Aktivieren Sie die Stackdriver Logging-Integration. Standardwert ist True. |
| Stackdriver Monitoring-Integration aktivieren | Aktivieren Sie die Stackdriver Monitoring-Integration. Standardwert ist True. |
| Component Gateway aktivieren | Aktivieren Sie das Komponenten-Gateway, um auf die Schnittstellen des Clusters zuzugreifen, z. B. auf den YARN ResourceManager und den Spark HistoryServer. Standardwert ist False. |
| Externe IP-Adresse bevorzugen | Wenn das System auf Google Cloud im selben Netzwerk wie der Cluster ausgeführt wird, verwendet es normalerweise die interne IP-Adresse für die Kommunikation mit dem Cluster. Wenn Sie immer die externe IP-Adresse verwenden möchten, setzen Sie diesen Wert auf True. Standardwert ist False. |
| Verzögerung für Umfrage erstellen | Die Anzahl der Sekunden, die nach dem Erstellen eines Clusters gewartet werden soll, bevor mit dem Polling begonnen wird, um festzustellen, ob der Cluster erstellt wurde. Der Standardwert beträgt 60 Sekunden. Mit den Polling-Einstellungen wird festgelegt, wie oft der Clusterstatus beim Erstellen und Löschen von Clustern abgefragt wird. Wenn viele Pipelines gleichzeitig ausgeführt werden sollen, sollten Sie diese Einstellungen ändern. |
| Jitter für Umfragen erstellen | Maximale Menge an zufälligem Jitter in Sekunden, die der Verzögerung beim Erstellen eines Clusters hinzugefügt werden soll. Mit dieser Eigenschaft können Sie viele gleichzeitige API-Aufrufe in Google Cloud verhindern, wenn viele Pipelines genau zur selben Zeit ausgeführt werden sollen. Der Standardwert beträgt 20 Sekunden. |
| Verzögerung beim Löschen von Umfragen | Die Anzahl der Sekunden, die nach dem Löschen eines Clusters gewartet werden soll, bevor mit dem Polling begonnen wird, um festzustellen, ob der Cluster gelöscht wurde. Der Standardwert beträgt 30 Sekunden. |
| Polling-Intervall | Die Anzahl der Sekunden, die zwischen den Abfragen des Clusterstatus gewartet werden soll. Der Standardwert ist 2. |
Attribute der Web-Benutzeroberfläche für Managed Service for Apache Spark-Profile, die JSON-Attributen zugeordnet sind
| Name der UI-Eigenschaft für das Profil von Managed Service for Apache Spark | JSON-Attributname für das Profil von Managed Service for Apache Spark |
|---|---|
| Profil-Label | name |
| Profilname | label |
| Beschreibung | description |
| Projekt-ID | projectId |
| Dienstkontoschlüssel für Creator | accountKey |
| Region | region |
| Zone | zone |
| Netzwerk | network |
| Netzwerk-Hostprojekt-ID | networkHostProjectId |
| Subnetz | subnet |
| Runner-Dienstkonto | serviceAccount |
| Anzahl der Master | masterNumNodes |
| Master-Maschinentyp | masterMachineType |
| Master-Kerne | masterCPUs |
| Master-Arbeitsspeicher (GB) | masterMemoryMB |
| Größe des Master-Laufwerks (GB) | masterDiskGB |
| Master-Laufwerkstyp | masterDiskType |
| Anzahl der primären Worker | workerNumNodes |
| Anzahl der sekundären Worker | secondaryWorkerNumNodes |
| Worker-Maschinentyp | workerMachineType |
| Worker-Cores | workerCPUs |
| Worker-Arbeitsspeicher (GB) | workerMemoryMB |
| Größe des Worker-Laufwerks (GB) | workerDiskGB |
| Worker-Laufwerkstyp | workerDiskType |
| Metadaten | clusterMetaData |
| Netzwerk-Tags | networkTags |
| Secure Boot aktivieren | secureBootEnabled |
| vTPM aktivieren | vTpmEnabled |
| Integritätsmonitoring aktivieren | integrityMonitoringEnabled |
| Image-Version | imageVersion |
| URI eines benutzerdefinierten Images | customImageUri |
| Cloud Storage-Bucket | gcsBucket |
| Name des Verschlüsselungsschlüssels | encryptionKeyName |
| Autoscaling-Richtlinie | autoScalingPolicy |
| Initialisierungsaktionen | initActions |
| Clusterattribute | clusterProperties |
| Labels | clusterLabels |
| Maximale Inaktivitätszeit | idleTTL |
| Clusterlöschung überspringen | skipDelete |
| Stackdriver Logging-Integration aktivieren | stackdriverLoggingEnabled |
| Stackdriver Monitoring-Integration aktivieren | stackdriverMonitoringEnabled |
| Component Gateway aktivieren | componentGatewayEnabled |
| Externe IP-Adresse bevorzugen | preferExternalIP |
| Verzögerung für Umfrage erstellen | pollCreateDelay |
| Jitter für Umfragen erstellen | pollCreateJitter |
| Verzögerung beim Löschen von Umfragen | pollDeleteDelay |
| Polling-Intervall | pollInterval |
Best Practices
Beachten Sie beim Erstellen eines statischen Clusters für Ihre Pipelines die Best Practices für die Clusterkonfiguration.