Lokale SSDs in Managed Service for Apache Spark

Als Ergänzung zum Bootlaufwerk können Sie lokale SSDs (Solid State Drive) an Master-, primäre Worker- und sekundäre Worker-Knoten in Ihrem Cluster anhängen. Wenn dem Cluster lokale SSDs bereitgestellt werden, verwenden sowohl HDFS- als auch Scratch-Daten wie Shuffle-Ausgaben die lokalen SSDs anstelle des nichtflüchtigen Bootlaufwerks.

  • Im Vergleich zu nichtflüchtigem Speicher bieten lokale SSDs schnellere Lese- und Schreibzeiten (siehe Leistung lokaler SSDs).
  • Die Größe 375 GB der einzelnen lokalen SSDs ist fest vorgegeben. Sie können jedoch mehrere lokale SSDs anhängen, um den SSD-Speicher zu erhöhen (siehe Lokale SSDs).
  • Jede lokale SSD wird auf Managed Service for Apache Spark-Clusterknoten unter /mnt/<id> bereitgestellt.
  • Lokale SSDs verwenden ext4 als Standarddateisystem.

Lokale SSDs verwenden

Console

Erstellen Sie einen Cluster und fügen Sie lokale SSDs an die Haupt-, primären und sekundären Worker-Knoten über den Bereich „Knoten konfigurieren“ der Managed Service for Apache Spark Cluster erstellen-Seite der Google Cloud Console an.

gcloud-Befehl

Verwenden Sie den gcloud dataproc clusters create Befehl mit den --num-master-local-ssds, --num-workers-local-ssds und --num-secondary-worker-local-ssds Flags, um lokale SSDs an die Master-, primären und sekundären Worker- Knoten des Clusters anzuhängen.

Lokale SSDs können über eine SCSI (Small Computer System Interface) oder NVME-Schnittstelle (Non-Volatile Memory Express) an Managed Service for Apache Spark-VMs angehängt werden (siehe Leistung lokaler SSDs). Die Standardschnittstelle für lokale SSDs für Managed Service for Apache Spark-Cluster-VMs ist die SCSI-Schnittstelle. Verwenden Sie den gcloud dataproc clusters create Befehl mit den --master-local-ssd-interface, --worker-local-ssd-interface und --secondary-worker-local-ssd-interface Flags, um die Schnittstelle für lokale SSDs für Master-, primäre und sekundäre Worker-Knoten anzugeben.

Beispiel :

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

REST API

Legen Sie das numLocalSsds Feld in den masterConfig, workerConfig, und secondaryWorkerConfig InstanceGroupConfig der cluster.create API-Anfrage fest, um lokale SSDs an die Master-, primären und sekundären Worker-Knoten des Clusters anzuhängen.

Lokale SSDs können über eine SCSI (Small Computer System Interface) oder NVME-Schnittstelle (Non-Volatile Memory Express) an Managed Service for Apache Spark-VMs angehängt werden (siehe Leistung lokaler SSDs). Die Standardschnittstelle für lokale SSDs für Managed Service for Apache Spark-Cluster-VMs ist die SCSI-Schnittstelle. Legen Sie das localSsdInterface Feld in den masterConfig, workerConfig, und secondaryWorkerConfig InstanceGroupConfig Objekten der cluster.create API-Anfrage fest, um die Schnittstelle „SCSI“ oder „NVME“ anzugeben, über die lokale SSDs an die Master-, primären und sekundären Worker-Knoten des Clusters angehängt werden.