Managed Service for Apache Spark 佈建器屬性

Cloud Data Fusion 中的 Apache Spark 代管服務佈建器會呼叫 Dataproc API,在您的 Google Cloud專案中建立及刪除叢集。您可以在供應商的設定中設定叢集。

如要進一步瞭解 Cloud Data Fusion 版本與 Managed Service for Apache Spark 版本的相容性,請參閱版本相容性

屬性

屬性 說明
專案 ID Google Cloud 用來建立 Managed Service for Apache Spark 叢集的專案。專案必須啟用 Dataproc API。
建立者服務帳戶金鑰

提供給佈建工具的服務帳戶金鑰必須具備存取 Managed Service for Apache Spark 和 Compute Engine API 的權限。由於帳戶金鑰屬於機密資訊,建議您使用安全儲存空間提供帳戶金鑰。

建立安全金鑰後,您可以將金鑰新增至命名空間或系統運算設定檔。如果是命名空間運算設定檔,請按一下 盾牌,然後選取安全金鑰。如果是系統運算設定檔,請在「Secure Account Key」(安全帳戶金鑰) 欄位中輸入金鑰名稱。

區域 地理位置,可做為資源的代管位置,例如 Managed Service for Apache Spark 叢集的運算節點。
可用區 區域內的獨立部署範圍。
網路 在 Google Cloud 專案中建立虛擬私有雲網路,以供建立 Managed Service for Apache Spark 叢集時使用。
網路主專案 ID 如果網路位於其他專案,請輸入該專案的 ID。 Google Cloud 如果是 Shared VPC,請輸入網路所在的主專案 ID。
子網路 建立叢集時要使用的子網路。必須位於指定網路內,且位於該區域所在的地區。如果留空,系統會根據網路和區域選取子網路。
執行元件服務帳戶 用於執行程式的 Managed Service for Apache Spark 虛擬機器 (VM) 服務帳戶名稱。如果留空,系統會使用預設的 Compute Engine 服務帳戶。
主要節點數量

叢集中的主要節點數。這些節點包含 YARN Resource Manager、HDFS NameNode 和所有驅動程式。必須設為 13

預設值為 1

主要機型

要使用的主要機器類型。選取下列其中一種機型:

  • n1
  • n2
  • n2d
  • e2

在 Cloud Data Fusion 6.7.2 以上版本中,預設為 e2

在 6.7.1 版中,預設值為 n2

在 6.7.0 版和更早版本中,預設值為 n1

主核心

分配給主節點的虛擬核心數。

預設值為 2

主記憶體 (GB)

分配給主要節點的記憶體量 (以 GB 為單位)。

預設值為 8 GB

主磁碟大小 (GB)

分配給主節點的磁碟大小 (以 GB 為單位)。

預設值為 1000 GB

主要磁碟類型

主要節點的開機磁碟類型:

  • 標準永久磁碟
  • SSD 永久磁碟

預設值為「標準永久磁碟」。

Worker 機型

要使用的工作站機器類型。選取下列其中一種機型:

  • n1
  • n2
  • n2d
  • e2

在 Cloud Data Fusion 6.7.2 以上版本中,預設為 e2

在 6.7.1 版中,預設值為 n2

在 6.7.0 版和更早版本中,預設值為 n1

工作人員核心

分配給 worker 節點的虛擬核心數。

預設值為 2

工作人員記憶體 (GB)

分配給 worker 節點的記憶體量 (以 GB 為單位)。

預設值為 8 GB

工作站磁碟大小 (GB)

分配給 worker 節點的磁碟大小 (以 GB 為單位)。

預設值為 1000 GB

工作站磁碟類型

worker 節點的開機磁碟類型:

  • 標準永久磁碟
  • SSD 永久磁碟

預設值為「標準永久磁碟」。

使用預先定義的自動調度資源功能 啟用預先定義的 Managed Service for Apache Spark 自動調度資源
主要工作人員人數

工作站節點包含 YARN NodeManager 和 HDFS DataNode。

預設值為 2

次要 worker 數量 次要工作站節點包含 YARN NodeManager,但不包含 HDFS DataNode。除非自動調度資源政策要求,否則這項值通常會設為零。
自動調度資源政策

自動調度資源政策 ID 或資源 URI 的路徑。

如要瞭解如何設定及使用 Managed Service for Apache Spark 自動調度資源功能,自動且動態地調整叢集大小,以滿足工作負載需求,請參閱「何時該使用自動調度資源功能」和「自動調度 Managed Service for Apache Spark 叢集資源」。

中繼資料 在叢集中執行的執行個體其他中繼資料。您通常可以透過這項功能追蹤帳單和退款。詳情請參閱「叢集中繼資料」。
網路標記 指派網路標記,將防火牆規則套用到叢集的特定節點。網路標記可以使用小寫英文字母、數字和連字號,開頭須為小寫英文字母,標記結尾必須為小寫英文字母或數字。
啟用安全啟動功能

在 Managed Service for Apache Spark VM 上啟用安全啟動

預設值為 False

啟用 vTPM

在 Apache Spark VM 的代管服務上啟用虛擬信任平台模組 (vTPM)。

預設值為 False

啟用完整性監控功能

在 Managed Service for Apache Spark VM 上啟用虛擬完整性監控

預設值為 False

映像檔版本 Managed Service for Apache Spark 映像檔版本。如果留空,系統會自動選取一個。如果「自訂圖片 URI」屬性留空,系統會忽略這個屬性。
自訂圖片 URI Managed Service for Apache Spark 映像檔 URI。如果留空,系統會從「圖片版本」屬性推斷。
暫存 bucket Cloud Storage bucket,用於暫存工作依附元件和設定檔,以便在 Managed Service for Apache Spark 中執行管道。
暫時 bucket

用於儲存暫時性叢集和工作資料的 Cloud Storage bucket,例如 Managed Service for Apache Spark 中的 Spark 記錄檔。

這項屬性是在 Cloud Data Fusion 6.9.2 版中推出。

加密金鑰名稱 Managed Service for Apache Spark 使用的客戶管理加密金鑰 (CMEK)。
OAuth 範圍

您可能需要要求存取的 OAuth 2.0 範圍,才能存取 Google API,具體視您需要的存取層級而定。Google Cloud 平台範圍一律包含在內。

這項屬性是在 Cloud Data Fusion 6.9.2 版中推出。

初始化動作 叢集初始化期間要執行的指令碼清單。 初始化動作應放在 Cloud Storage 上。
叢集屬性 叢集屬性會覆寫 Hadoop 服務的預設設定屬性。如要進一步瞭解適用的鍵/值配對,請參閱「叢集屬性」。
常見標籤

用於整理所建立 Managed Service for Apache Spark 叢集和作業的標籤。

您可以為每項資源加上標籤,然後依標籤篩選資源。 標籤相關資訊會轉送到結帳系統,方便客戶依據標籤查看帳單費用明細

閒置時間上限

設定 Managed Service for Apache Spark,在叢集閒置時間超過指定分鐘數時刪除叢集。叢集通常會在執行結束後直接刪除,但極少數情況下可能會刪除失敗。詳情請參閱「排解叢集刪除問題」。

預設值為 30 分鐘。

略過叢集刪除作業

是否要在執行結束時略過叢集刪除作業。您必須手動刪除叢集。只有在偵錯失敗的執行作業時,才應使用這項功能。

預設值為 False

啟用 Stackdriver Logging 整合

啟用 Stackdriver Logging 整合功能。

預設值為 True

啟用 Stackdriver Monitoring 整合

啟用 Stackdriver Monitoring 整合功能。

預設值為 True

啟用元件閘道

啟用元件閘道,即可存取叢集的介面,例如 YARN ResourceManager 和 Spark HistoryServer。

預設值為 False

偏好使用外部 IP

如果系統與叢集位於 Google Cloud 同一網路,通常會使用內部 IP 位址與叢集通訊。如要一律使用外部 IP 位址,請將這個值設為 True

預設值為 False

建立輪詢延遲

建立叢集後,開始輪詢叢集是否已建立的等待秒數。

預設值為 60 秒。

輪詢設定可控制建立及刪除叢集時,輪詢叢集狀態的頻率。如果排定在同一時間執行的管道數量眾多,建議變更這些設定。

建立輪詢抖動

建立叢集時,要加入延遲時間的隨機抖動量上限 (以秒為單位)。如果您有許多管道排定在同一時間執行,可以使用這個屬性來防止 Google Cloud 中發生許多同步 API 呼叫。

預設值為 20 秒。

延遲刪除意見調查

刪除叢集後,開始輪詢叢集是否已刪除前要等待的秒數。

預設值為 30 秒。

輪詢間隔

輪詢叢集狀態的間隔秒數。

預設值為 2

對應至 JSON 屬性的 Managed Service for Apache Spark 設定檔網頁介面屬性

Managed Service for Apache Spark 設定檔 UI 屬性名稱 Managed Service for Apache Spark 設定檔 JSON 屬性名稱
設定檔標籤 name
設定檔名稱 label
說明 description
專案 ID projectId
建立者服務帳戶金鑰 accountKey
區域 region
可用區 zone
網路 network
網路主專案 ID networkHostProjectId
子網路 subnet
執行元件服務帳戶 serviceAccount
主要節點數量 masterNumNodes
主要機型 masterMachineType
主核心 masterCPUs
主記憶體 (GB) masterMemoryMB
主磁碟大小 (GB) masterDiskGB
主要磁碟類型 masterDiskType
主要工作人員人數 workerNumNodes
次要 worker 數量 secondaryWorkerNumNodes
Worker 機型 workerMachineType
工作人員核心 workerCPUs
工作人員記憶體 (GB) workerMemoryMB
工作站磁碟大小 (GB) workerDiskGB
工作站磁碟類型 workerDiskType
中繼資料 clusterMetaData
網路標記 networkTags
啟用安全啟動功能 secureBootEnabled
啟用 vTPM vTpmEnabled
啟用完整性監控功能 integrityMonitoringEnabled
映像檔版本 imageVersion
自訂圖片 URI customImageUri
Cloud Storage bucket gcsBucket
加密金鑰名稱 encryptionKeyName
自動調度資源政策 autoScalingPolicy
初始化動作 initActions
叢集屬性 clusterProperties
標籤 clusterLabels
閒置時間上限 idleTTL
略過叢集刪除作業 skipDelete
啟用 Stackdriver Logging 整合 stackdriverLoggingEnabled
啟用 Stackdriver Monitoring 整合 stackdriverMonitoringEnabled
啟用元件閘道 componentGatewayEnabled
偏好使用外部 IP preferExternalIP
建立輪詢延遲 pollCreateDelay
建立輪詢抖動 pollCreateJitter
延遲刪除意見調查 pollDeleteDelay
輪詢間隔 pollInterval

最佳做法

為管道建立靜態叢集時,請參閱叢集設定最佳做法

後續步驟