如要補充開機磁碟,您可以將本機固態硬碟 (本機 SSD) 附加至叢集中的主要執行個體、主要工作站和次要工作站節點。如果叢集提供本機 SSD,HDFS 和暫存資料 (例如 Shuffle 輸出) 會使用本機 SSD,而非開機永久磁碟。
- 比起永久磁碟,本機 SSD 可提供更快速的讀取和寫入時間 (請參閱「本機 SSD 效能」)。
- 每個本機 SSD 的大小固定為 375 GB,但您可以連接多個本機 SSD 來增加 SSD 儲存空間 (請參閱「關於本機 SSD」)。
- 每個本機 SSD 都會掛接至 Dataproc 叢集節點中的
/mnt/<id>。 - 本機 SSD 預設使用
ext4做為檔案系統。
使用本機 SSD
gcloud 指令
使用 gcloud dataproc clusters create 指令搭配 --num-master-local-ssds、--num-workers-local-ssds 和 --num-secondary-worker-local-ssds 旗標,將本機 SSD 附加至叢集的主要、主要和次要工作站節點。
您可以使用 SCSI (小型電腦系統介面) 或 NVME (非揮發性記憶體高速) 介面,將本機 SSD 連接至 Dataproc VM (請參閱本機 SSD 效能)。預設的 Dataproc 叢集 VM 本機 SSD 介面為 SCSI 介面。使用 gcloud dataproc clusters create 指令,搭配 --master-local-ssd-interface、--worker-local-ssd-interface 和 --secondary-worker-local-ssd-interface 旗標,為主要、主要和次要工作站節點指定本機 SSD 介面。
範例:
gcloud dataproc clusters create cluster-name \ --region=region \ --num-master-local-ssds=1 \ --num-worker-local-ssds=1 \ --num-secondary-worker-local-ssds=1 \ --master-local-ssd-interface=NVME \ --worker-local-ssd-interface=NVME \ --secondary-worker-local-ssd-interface=NVME \ ... other args ...
REST API
在 cluster.create API 要求中,將 masterConfig、workerConfig 和 secondaryWorkerConfig
InstanceGroupConfig 中的 numLocalSsds 欄位設為叢集主要、主要工作站和次要工作站節點,即可將本機 SSD 附加至這些節點。
您可以使用 SCSI (小型電腦系統介面) 或 NVME (非揮發性記憶體高速) 介面,將本機 SSD 連接至 Dataproc VM (請參閱本機 SSD 效能)。預設的 Dataproc 叢集 VM 本機 SSD 介面為 SCSI 介面。在 cluster.create API 要求中,於 masterConfig、workerConfig 和 secondaryWorkerConfig
InstanceGroupConfig 中設定 localSsdInterface 欄位,為叢集的主要執行個體、主要工作站和次要工作站節點指定要附加本機 SSD 的「SCSI」或「NVME」介面。
控制台
在 Google Cloud 控制台的 Dataproc「Create a cluster」(建立叢集) 頁面,透過「Configure nodes」(設定節點) 面板建立叢集,並將本機 SSD 連接至主要、主要和次要 worker 節點。