Managed Service for Apache Spark 本機 SSD

如要補充開機磁碟,您可以將本機固態硬碟 (本機 SSD) 附加至叢集中的主要執行個體、主要工作站和次要工作站節點。如果叢集提供本機 SSD,HDFS 和暫存資料 (例如 Shuffle 輸出) 會使用本機 SSD,而非開機永久磁碟。

  • 比起永久磁碟,本機 SSD 可提供更快速的讀取和寫入時間 (請參閱「本機 SSD 效能」)。
  • 每個本機 SSD 的大小固定為 375 GB,但您可以連接多個本機 SSD 來增加 SSD 儲存空間 (請參閱「關於本機 SSD」)。
  • 每個本機 SSD 都會掛接至 Managed Service for Apache Spark 叢集節點中的 /mnt/<id>
  • 本機 SSD 預設使用 ext4 做為檔案系統。

使用本機 SSD

控制台

在 Google Cloud 主控台的 Managed Service for Apache Spark「建立叢集」頁面,透過「設定節點」面板建立叢集,並將本機 SSD 連接至主要、主要和次要工作者節點。

gcloud 指令

使用 gcloud dataproc clusters create 指令搭配 --num-master-local-ssds--num-workers-local-ssds--num-secondary-worker-local-ssds 旗標,將本機 SSD 附加至叢集的主要、主要和次要工作站節點。

您可以使用 SCSI (小型電腦系統介面) 或 NVME (非揮發性記憶體高速) 介面,將本機 SSD 連接至 Managed Service for Apache Spark VM (請參閱本機 SSD 效能)。預設的 Managed Service for Apache Spark 叢集 VM 本機 SSD 介面為 SCSI 介面。使用 gcloud dataproc clusters create 指令,搭配 --master-local-ssd-interface--worker-local-ssd-interface--secondary-worker-local-ssd-interface 旗標,為主要、主要和次要工作站節點指定本機 SSD 介面。

範例:

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

REST API

cluster.create API 要求中,將 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中的 numLocalSsds 欄位設為叢集主要、主要工作站和次要工作站節點,即可將本機 SSD 附加至這些節點。

您可以使用 SCSI (小型電腦系統介面) 或 NVME (非揮發性記憶體高速) 介面,將本機 SSD 連接至 Managed Service for Apache Spark VM (請參閱本機 SSD 效能)。預設的 Managed Service for Apache Spark 叢集 VM 本機 SSD 介面為 SCSI 介面。在 cluster.create API 要求中,於 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中設定 localSsdInterface 欄位,指定要將本機 SSD 連接至叢集主要、主要工作站和次要工作站節點的「SCSI」或「NVME」介面。