Disques SSD locaux Managed Service pour Apache Spark

Pour compléter le disque de démarrage, vous pouvez associer des disques SSD locaux aux nœuds maîtres, principaux et secondaires de votre cluster. Lorsque des disques SSD locaux sont fournis au cluster, les données HDFS et les données temporaires, telles que les sorties brassées, utilisent les disques SSD locaux au lieu du disque persistant de démarrage.

  • Les disques SSD locaux peuvent fournir des vitesses d'écriture et de lecture supérieures à celles du disque persistant (consultez Performances des disques SSD locaux).
  • La taille de chaque disque SSD local de 375 Go est fixe, mais vous pouvez associer plusieurs disques SSD locaux pour augmenter le stockage SSD (consultez À propos des disques SSD locaux).
  • Chaque disque SSD local est installé sur /mnt/<id> dans les nœuds de cluster Managed Service pour Apache Spark.
  • Les disques SSD locaux utilisent ext4 comme système de fichiers par défaut.

Utiliser des disques SSD locaux

Console

Créez un cluster et associez des disques SSD locaux aux nœuds maîtres, principaux et secondaires depuis le panneau "Configurer les nœuds" de la page Créer un cluster de Managed Service pour Apache Spark dans la Google Cloud console.

Commande gcloud

Exécutez la gcloud dataproc clusters create commande avec les options --num-master-local-ssds, --num-workers-local-ssds et --num-secondary-worker-local-ssds pour associer des disques SSD locaux aux nœuds maîtres, principaux et secondaires du cluster.

Les disques SSD locaux peuvent être associés à des VM Managed Service pour Apache Spark à l'aide d'une interface SCSI (Small Computer System Interface) ou NVMe (Non-Volatile Memory Express) (consultez Performances des disques SSD locaux). L'interface de disque SSD local par défaut pour les VM de cluster Managed Service pour Apache Spark est l'interface SCSI. Exécutez la commande gcloud dataproc clusters create avec les options --master-local-ssd-interface, --worker-local-ssd-interface et --secondary-worker-local-ssd-interface pour spécifier l'interface de disque SSD local pour les nœuds maîtres, principaux et secondaires.

Exemple :

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

API REST

Définissez le numLocalSsds champ dans les paramètres masterConfig, workerConfig, et secondaryWorkerConfig InstanceGroupConfig dans une requête API cluster.create pour associer des disques SSD locaux aux nœuds maîtres, principaux et secondaires du cluster.

Les disques SSD locaux peuvent être associés à des VM Managed Service pour Apache Spark à l'aide d'une interface SCSI (Small Computer System Interface) ou NVMe (Non-Volatile Memory Express) (consultez Performances des disques SSD locaux). L'interface de disque SSD local par défaut pour les VM de cluster Managed Service pour Apache Spark est l'interface SCSI. Définissez le localSsdInterface champ dans les paramètres masterConfig, workerConfig, et secondaryWorkerConfig InstanceGroupConfig dans une requête API cluster.create pour spécifier l'interface "SCSI" ou "NVMe" afin d'associer des disques SSD locaux aux nœuds maîtres, principaux et secondaires du cluster.