Compute-Profile verwalten

Ein Compute-Profil gibt an, wie und wo Pipelines ausgeführt werden. Sie enthält alle Informationen, die zum Einrichten und Löschen der physischen Ausführungsumgebung einer Pipeline erforderlich sind. In einem Rechenprofil wird der Name eines Bereitstellers und die Konfigurationseinstellungen für diesen Bereitsteller angegeben.

Jedes Rechenprofil hat einen Bereich: system oder user. Sie können System-Compute-Profile für alle Namespaces darunter verwenden. Nutzer-Compute-Profile sind in einem Namespace vorhanden und können nur von Pipelines in diesem Namespace verwendet werden. Batchpipelines können Rechenprofile zugewiesen werden. Wenn einer Pipeline ein Berechnungsprofil zugewiesen wird, wird der im Profil angegebene Provisioner verwendet, um einen Cluster zu erstellen, in dem die Pipeline ausgeführt wird.

Ein Administrator kann beispielsweise kleine, mittlere und große Rechenprofile erstellen. Sie konfigurieren jedes Profil mit den Google CloudAnmeldedaten, die zum Erstellen und Löschen von Managed Service for Apache Spark-Clustern im Google Cloud Konto des Unternehmens erforderlich sind.

  • Das kleine Profil ist für die Erstellung eines Clusters mit fünf Knoten konfiguriert.
  • Das mittlere Profil ist für die Erstellung eines Clusters mit 20 Knoten konfiguriert.
  • Das große Profil ist für die Erstellung eines Clusters mit 50 Knoten konfiguriert.

Der Administrator weist das kleine Profil Pipelines zu, die stündlich für kleine Datenmengen ausgeführt werden sollen. Sie weisen das große Profil Pipelines zu, die täglich für eine große Datenmenge ausgeführt werden.

Standardmäßiges Berechnungsprofil

Standardmäßig verwendet Cloud Data Fusion „Autoscale“ als Rechenprofil. Das Schätzen der richtigen Anzahl von Cluster-Workern (Knoten) für eine Arbeitslast ist schwierig und eine einzelne Clustergröße für eine gesamte Pipeline ist oft nicht ideal. Managed Service for Apache Spark Autoscaling bietet einen Mechanismus zur Automatisierung der Clusterressourcenverwaltung und ermöglicht das Autoscaling von Cluster-Worker-VMs. Weitere Informationen finden Sie unter Autoscaling.

Auf der Seite Compute config (Compute-Konfiguration) sehen Sie eine Liste von Profilen. Dort gibt es die Spalte Total cores (Gesamtzahl der Kerne) mit der maximalen Anzahl von vCPUs, auf die das Profil skaliert werden kann, z. B. Up to 84.

System- und Nutzerberechnungsprofile

Ein Rechenprofil gibt an, welcher Provisioner beim Erstellen eines Clusters verwendet werden soll, und legt die Clusterkonfiguration fest. Sie geben auch die Provisionierungskonfiguration an, die beim Erstellen eines Clusters verwendet werden soll.

  • Wenn Sie ein System-Rechenprofil erstellen möchten, rufen Sie in Cloud Data Fusion Studio die Seite Systemadministrator auf. Auf dieser Seite werden alle Systemberechnungsprofile aufgeführt und Sie können neue Systemberechnungsprofile erstellen.
  • Wenn Sie ein Nutzer-Rechenprofil erstellen möchten, rufen Sie in Cloud Data Fusion Studio die Seite Namespace-Verwaltung auf und wählen Sie den Namespace aus, in dem das Profil erstellt werden soll. Anschließend können Sie ein Profil erstellen, das nur in diesem Namespace vorhanden ist.

Zuweisung von Berechnungsprofilen

Sie können Batchpipelines auf folgende Weise Rechenprofile zuweisen:

  • Weisen Sie der Cloud Data Fusion-Instanz ein Standardprofil zu.
  • Weisen Sie einem bestimmten Namespace ein Standardprofil zu.
  • Weisen Sie einer Batchpipeline ein Profil zu, das für manuell gestartete Ausführungen verwendet werden soll.
  • Weisen Sie einem Pipelinezeitplan ein Profil zu.

Wenn im Zeitplan, der einen Lauf auslöst, ein Profil festgelegt ist oder Sie eine Pipeline manuell ausführen und dieser Pipeline ein Profil zugewiesen ist, verwendet Cloud Data Fusion dieses Rechenprofil.

Wenn kein Profil festgelegt ist, verwendet Cloud Data Fusion das Standardprofil für den Namespace. Wenn kein Standardprofil für den Namespace festgelegt ist,

Cloud Data Fusion verwendet das Systemstandardprofil. Wenn kein Systemstandard festgelegt ist, wird das integrierte Profil verwendet.

Standard-Compute-Profil zuweisen

Wenn Sie einem Cloud Data Fusion-Namespace oder einer Cloud Data Fusion-Instanz Standardprofile zuweisen möchten, rufen Sie Cloud Data Fusion Studio auf und klicken Sie auf Systemadministrator > Konfiguration > System-Compute-Profile. Klicken Sie auf den Stern  neben dem Profilnamen, um das Standardprofil auszuwählen.

Optional: Standardprofile mit den Preferences Microservices festlegen

  • Wenn Sie das Standardprofil festlegen möchten, legen Sie eine Einstellung für die Cloud Data Fusion-Instanz mit dem Schlüssel system.profile.name und dem Wert system:<profile-name> fest.
  • Wenn Sie das Standardprofil für einen Namespace festlegen möchten, legen Sie eine Einstellung für den ausgewählten Namespace mit dem Schlüssel system.profile.name und dem Wert <scope>:<profile-name> fest.

Compute-Profil für manuelle Ausführungen zuweisen

So weisen Sie ein Profil für manuelle Pipelineausführungen zu:

  1. Rufen Sie die Detailseite der Pipeline auf.
  2. Klicken Sie auf Konfigurieren > Compute-Konfiguration.
  3. Wählen Sie ein Profil aus und klicken Sie auf Speichern. Das ausgewählte Profil wird verwendet, wenn die Pipeline manuell ausgeführt wird.

Alternativ können Sie die Preferences-Microservices verwenden, um das Profil für manuelle Läufe festzulegen. Dazu legen Sie die Einstellung für die DataPipelineWorkflow-Einheit mit dem Schlüssel system.profile.name und dem Wert <scope>:<profile-name> fest.

Einem Zeitplan ein Compute-Profil zuweisen

Wenn Sie einen Zeitplan für eine Pipeline erstellen, können Sie ihm ein Profil zuweisen. Wenn durch den Zeitplan eine Pipelineausführung ausgelöst wird, wird dieses Profil für die Ausführung verwendet. Das gilt für Zeitpläne und für Pläne, die von anderen Pipelines ausgelöst werden.

Compute-Profilkonfiguration überschreiben

Wenn ein Profil erstellt wird, kann jede Konfigurationseinstellung durch Sperren unveränderlich gemacht werden. Wenn Konfigurationseinstellungen jedoch nicht gesperrt sind, können sie zur Laufzeit überschrieben werden. So überschreiben Sie die Profilkonfiguration:

  1. Wählen Sie auf der Seite „Pipeline-Liste“ die bereitgestellte Pipeline aus, die Sie ausführen möchten.
  2. Klicken Sie auf der Seite „Pipeline-Details“ auf Konfigurieren.
  3. Wählen Sie ein Rechenprofil aus und klicken Sie auf Anpassen.
  4. Nehmen Sie die gewünschten Änderungen vor und klicken Sie auf Speichern.

Mit Laufzeitargumenten und Zeitplaneigenschaften können Sie die Clustergröße und andere Einstellungen ändern.

  • Wenn Sie das verwendete Profil überschreiben möchten, legen Sie ein Laufzeitargument mit dem Schlüssel system.profile.name und dem Wert <scope>:<profile-name> fest.
  • Wenn Sie eine Profileigenschaft überschreiben möchten, legen Sie ein Laufzeitargument mit dem Schlüssel system.profile.properties.<property-name> und dem Wert für diese Eigenschaft fest.

Wenn Sie beispielsweise den Wert von numWorkerssetting auf 10 überschreiben möchten, legen Sie eine Einstellung oder ein Laufzeitargument mit dem Schlüssel system.profile.properties.numWorkers und dem Wert 10 fest.

Nächste Schritte