Cloud Data Fusion 中的 Apache Spark 代管服務佈建器會呼叫 Dataproc API,在您的 Google Cloud專案中建立及刪除叢集。您可以在供應商的設定中設定叢集。
如要進一步瞭解 Cloud Data Fusion 版本與 Managed Service for Apache Spark 版本的相容性,請參閱版本相容性。
屬性
| 屬性 | 說明 |
|---|---|
| 專案 ID | Google Cloud 用來建立 Managed Service for Apache Spark 叢集的專案。專案必須啟用 Dataproc API。 |
| 建立者服務帳戶金鑰 | 提供給佈建工具的服務帳戶金鑰必須具備存取 Managed Service for Apache Spark 和 Compute Engine API 的權限。由於帳戶金鑰屬於機密資訊,建議您使用安全儲存空間提供帳戶金鑰。 建立安全金鑰後,您可以將金鑰新增至命名空間或系統運算設定檔。如果是命名空間運算設定檔,請按一下 盾牌,然後選取安全金鑰。如果是系統運算設定檔,請在「Secure Account Key」(安全帳戶金鑰) 欄位中輸入金鑰名稱。 |
| 區域 | 地理位置,可做為資源的代管位置,例如 Managed Service for Apache Spark 叢集的運算節點。 |
| 可用區 | 區域內的獨立部署範圍。 |
| 網路 | 在 Google Cloud 專案中建立虛擬私有雲網路,以供建立 Managed Service for Apache Spark 叢集時使用。 |
| 網路主專案 ID | 如果網路位於其他專案,請輸入該專案的 ID。 Google Cloud 如果是 Shared VPC,請輸入網路所在的主專案 ID。 |
| 子網路 | 建立叢集時要使用的子網路。必須位於指定網路內,且位於該區域所在的地區。如果留空,系統會根據網路和區域選取子網路。 |
| 執行元件服務帳戶 | 用於執行程式的 Managed Service for Apache Spark 虛擬機器 (VM) 服務帳戶名稱。如果留空,系統會使用預設的 Compute Engine 服務帳戶。 |
| 主要節點數量 | 叢集中的主要節點數。這些節點包含 YARN Resource Manager、HDFS NameNode 和所有驅動程式。必須設為 1 或 3。 預設值為 1。 |
| 主要機型 | 要使用的主要機器類型。選取下列其中一種機型:
在 Cloud Data Fusion 6.7.2 以上版本中,預設為 e2。 在 6.7.1 版中,預設值為 n2。 在 6.7.0 版和更早版本中,預設值為 n1。 |
| 主核心 | 分配給主節點的虛擬核心數。 預設值為 2。 |
| 主記憶體 (GB) | 分配給主要節點的記憶體量 (以 GB 為單位)。 預設值為 8 GB。 |
| 主磁碟大小 (GB) | 分配給主節點的磁碟大小 (以 GB 為單位)。 預設值為 1000 GB。 |
| 主要磁碟類型 | 主要節點的開機磁碟類型:
預設值為「標準永久磁碟」。 |
| Worker 機型 | 要使用的工作站機器類型。選取下列其中一種機型:
在 Cloud Data Fusion 6.7.2 以上版本中,預設為 e2。 在 6.7.1 版中,預設值為 n2。 在 6.7.0 版和更早版本中,預設值為 n1。 |
| 工作人員核心 | 分配給 worker 節點的虛擬核心數。 預設值為 2。 |
| 工作人員記憶體 (GB) | 分配給 worker 節點的記憶體量 (以 GB 為單位)。 預設值為 8 GB。 |
| 工作站磁碟大小 (GB) | 分配給 worker 節點的磁碟大小 (以 GB 為單位)。 預設值為 1000 GB。 |
| 工作站磁碟類型 | worker 節點的開機磁碟類型:
預設值為「標準永久磁碟」。 |
| 使用預先定義的自動調度資源功能 | 啟用預先定義的 Managed Service for Apache Spark 自動調度資源。 |
| 主要工作人員人數 | 工作站節點包含 YARN NodeManager 和 HDFS DataNode。 預設值為 2。 |
| 次要 worker 數量 | 次要工作站節點包含 YARN NodeManager,但不包含 HDFS DataNode。除非自動調度資源政策要求,否則這項值通常會設為零。 |
| 自動調度資源政策 | 自動調度資源政策 ID 或資源 URI 的路徑。 如要瞭解如何設定及使用 Managed Service for Apache Spark 自動調度資源功能,自動且動態地調整叢集大小,以滿足工作負載需求,請參閱「何時該使用自動調度資源功能」和「自動調度 Managed Service for Apache Spark 叢集資源」。 |
| 中繼資料 | 在叢集中執行的執行個體其他中繼資料。您通常可以透過這項功能追蹤帳單和退款。詳情請參閱「叢集中繼資料」。 |
| 網路標記 | 指派網路標記,將防火牆規則套用到叢集的特定節點。網路標記可以使用小寫英文字母、數字和連字號,開頭須為小寫英文字母,標記結尾必須為小寫英文字母或數字。 |
| 啟用安全啟動功能 | 在 Managed Service for Apache Spark VM 上啟用安全啟動。 預設值為 False。 |
| 啟用 vTPM | 在 Apache Spark VM 的代管服務上啟用虛擬信任平台模組 (vTPM)。 預設值為 False。 |
| 啟用完整性監控功能 | 在 Managed Service for Apache Spark VM 上啟用虛擬完整性監控。 預設值為 False。 |
| 映像檔版本 | Managed Service for Apache Spark 映像檔版本。如果留空,系統會自動選取一個。如果「自訂圖片 URI」屬性留空,系統會忽略這個屬性。 |
| 自訂圖片 URI | Managed Service for Apache Spark 映像檔 URI。如果留空,系統會從「圖片版本」屬性推斷。 |
| 暫存 bucket | Cloud Storage bucket,用於暫存工作依附元件和設定檔,以便在 Managed Service for Apache Spark 中執行管道。 |
| 暫時 bucket | 用於儲存暫時性叢集和工作資料的 Cloud Storage bucket,例如 Managed Service for Apache Spark 中的 Spark 記錄檔。 這項屬性是在 Cloud Data Fusion 6.9.2 版中推出。 |
| 加密金鑰名稱 | Managed Service for Apache Spark 使用的客戶管理加密金鑰 (CMEK)。 |
| OAuth 範圍 | 您可能需要要求存取的 OAuth 2.0 範圍,才能存取 Google API,具體視您需要的存取層級而定。Google Cloud 平台範圍一律包含在內。 這項屬性是在 Cloud Data Fusion 6.9.2 版中推出。 |
| 初始化動作 | 叢集初始化期間要執行的指令碼清單。 初始化動作應放在 Cloud Storage 上。 |
| 叢集屬性 | 叢集屬性會覆寫 Hadoop 服務的預設設定屬性。如要進一步瞭解適用的鍵/值配對,請參閱「叢集屬性」。 |
| 常見標籤 | 用於整理所建立 Managed Service for Apache Spark 叢集和作業的標籤。 您可以為每項資源加上標籤,然後依標籤篩選資源。 標籤相關資訊會轉送到結帳系統,方便客戶依據標籤查看帳單費用明細。 |
| 閒置時間上限 | 設定 Managed Service for Apache Spark,在叢集閒置時間超過指定分鐘數時刪除叢集。叢集通常會在執行結束後直接刪除,但極少數情況下可能會刪除失敗。詳情請參閱「排解叢集刪除問題」。 預設值為 30 分鐘。 |
| 略過叢集刪除作業 | 是否要在執行結束時略過叢集刪除作業。您必須手動刪除叢集。只有在偵錯失敗的執行作業時,才應使用這項功能。 預設值為 False。 |
| 啟用 Stackdriver Logging 整合 | 啟用 Stackdriver Logging 整合功能。 預設值為 True。 |
| 啟用 Stackdriver Monitoring 整合 | 啟用 Stackdriver Monitoring 整合功能。 預設值為 True。 |
| 啟用元件閘道 | 啟用元件閘道,即可存取叢集的介面,例如 YARN ResourceManager 和 Spark HistoryServer。 預設值為 False。 |
| 偏好使用外部 IP | 如果系統與叢集位於 Google Cloud 同一網路,通常會使用內部 IP 位址與叢集通訊。如要一律使用外部 IP 位址,請將這個值設為 True。 預設值為 False。 |
| 建立輪詢延遲 | 建立叢集後,開始輪詢叢集是否已建立的等待秒數。 預設值為 60 秒。 輪詢設定可控制建立及刪除叢集時,輪詢叢集狀態的頻率。如果排定在同一時間執行的管道數量眾多,建議變更這些設定。 |
| 建立輪詢抖動 | 建立叢集時,要加入延遲時間的隨機抖動量上限 (以秒為單位)。如果您有許多管道排定在同一時間執行,可以使用這個屬性來防止 Google Cloud 中發生許多同步 API 呼叫。 預設值為 20 秒。 |
| 延遲刪除意見調查 | 刪除叢集後,開始輪詢叢集是否已刪除前要等待的秒數。 預設值為 30 秒。 |
| 輪詢間隔 | 輪詢叢集狀態的間隔秒數。 預設值為 2。 |
對應至 JSON 屬性的 Managed Service for Apache Spark 設定檔網頁介面屬性
| Managed Service for Apache Spark 設定檔 UI 屬性名稱 | Managed Service for Apache Spark 設定檔 JSON 屬性名稱 |
|---|---|
| 設定檔標籤 | name |
| 設定檔名稱 | label |
| 說明 | description |
| 專案 ID | projectId |
| 建立者服務帳戶金鑰 | accountKey |
| 區域 | region |
| 可用區 | zone |
| 網路 | network |
| 網路主專案 ID | networkHostProjectId |
| 子網路 | subnet |
| 執行元件服務帳戶 | serviceAccount |
| 主要節點數量 | masterNumNodes |
| 主要機型 | masterMachineType |
| 主核心 | masterCPUs |
| 主記憶體 (GB) | masterMemoryMB |
| 主磁碟大小 (GB) | masterDiskGB |
| 主要磁碟類型 | masterDiskType |
| 主要工作人員人數 | workerNumNodes |
| 次要 worker 數量 | secondaryWorkerNumNodes |
| Worker 機型 | workerMachineType |
| 工作人員核心 | workerCPUs |
| 工作人員記憶體 (GB) | workerMemoryMB |
| 工作站磁碟大小 (GB) | workerDiskGB |
| 工作站磁碟類型 | workerDiskType |
| 中繼資料 | clusterMetaData |
| 網路標記 | networkTags |
| 啟用安全啟動功能 | secureBootEnabled |
| 啟用 vTPM | vTpmEnabled |
| 啟用完整性監控功能 | integrityMonitoringEnabled |
| 映像檔版本 | imageVersion |
| 自訂圖片 URI | customImageUri |
| Cloud Storage bucket | gcsBucket |
| 加密金鑰名稱 | encryptionKeyName |
| 自動調度資源政策 | autoScalingPolicy |
| 初始化動作 | initActions |
| 叢集屬性 | clusterProperties |
| 標籤 | clusterLabels |
| 閒置時間上限 | idleTTL |
| 略過叢集刪除作業 | skipDelete |
| 啟用 Stackdriver Logging 整合 | stackdriverLoggingEnabled |
| 啟用 Stackdriver Monitoring 整合 | stackdriverMonitoringEnabled |
| 啟用元件閘道 | componentGatewayEnabled |
| 偏好使用外部 IP | preferExternalIP |
| 建立輪詢延遲 | pollCreateDelay |
| 建立輪詢抖動 | pollCreateJitter |
| 延遲刪除意見調查 | pollDeleteDelay |
| 輪詢間隔 | pollInterval |
最佳做法
為管道建立靜態叢集時,請參閱叢集設定最佳做法。
後續步驟
- 進一步瞭解如何管理運算設定檔。