Auf dieser Seite wird beschrieben, wie Sie Managed Service for Apache Spark-Cluster für Ihre Pipelineausführungen in Cloud Data Fusion wiederverwenden. Weitere Informationen finden Sie unter Cluster wiederverwenden und Pipeline für einen vorhandenen Managed Service for Apache Spark-Cluster ausführen.
Hinweis
- Sie benötigen eine Cloud Data Fusion-Instanz in Version 6.5.0 oder höher.
Clusterwiederverwendung aktivieren
Sie können Cluster in einem neuen Rechenprofil oder in einem Profil wiederverwenden, das in einer bereitgestellten Pipeline verwendet wurde.
Clusterwiederverwendung in einem neuen Profil aktivieren
Rufen Sie Ihre Instanz auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Wenn Sie die Instanz in Cloud Data Fusion Studio öffnen möchten, klicken Sie auf Instanzen und dann auf Instanz anzeigen.
Klicken Sie auf Systemadministrator > Konfiguration > Systemberechnungsprofile.
Klicken Sie auf Neues Profil erstellen.
Wählen Sie den Bereitsteller Managed Service for Apache Spark aus.
Geben Sie im Fenster Profil für Managed Service for Apache Spark erstellen die Details zu Ihrem Cluster ein:
- Geben Sie in den Feldern Profillabel und Profilname einen Namen ein, mit dem das Profil identifiziert werden kann, z. B.
execution_compute-profile. - Beschreiben Sie im Feld Beschreibung den Zweck des Profils, z. B.
Profile used for pipeline execution. - Geben Sie im Feld Maximale Leerlaufzeit einen Wert ein. Weitere Informationen finden Sie unter Maximale Leerlaufzeit festlegen.
- Setzen Sie das Feld Skip cluster delete auf
True. Weitere Informationen finden Sie unter Wann Cluster wiederverwendet werden sollten. - Optional: Konfigurieren Sie andere optionale Felder.
- Klicken Sie auf Erstellen.
- Geben Sie in den Feldern Profillabel und Profilname einen Namen ein, mit dem das Profil identifiziert werden kann, z. B.
Clusterwiederverwendung in einer bereitgestellten Pipeline aktivieren
Rufen Sie Ihre Instanz auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Wenn Sie die Instanz in Cloud Data Fusion Studio öffnen möchten, klicken Sie auf Instanzen und dann auf Instanz anzeigen.
Klicken Sie auf Liste.
Klicken Sie auf den Tab Bereitgestellt und dann auf einen Pipelinennamen. Die bereitgestellte Pipeline wird auf der Seite Studio in der Cloud Data Fusion-Weboberfläche geöffnet.
Klicken Sie auf Konfigurieren.
Klicken Sie im Fenster Compute-Konfiguration auf das ausgewählte Profil und dann auf Anpassen.
Geben Sie im angezeigten Fenster die folgenden Werte ein:
- Geben Sie im Feld Maximale Leerlaufzeit einen Wert ein. Weitere Informationen finden Sie unter Maximale Leerlaufzeit festlegen.
- Setzen Sie Clusterlöschung überspringen auf
True. Weitere Informationen finden Sie unter Wann Cluster wiederverwendet werden sollten.
Klicken Sie auf Fertig.