Le VM flessibili sono una funzionalità di Dataproc che ti consente di specificare elenchi di tipi di VM con priorità per i nodi master, worker primari e worker secondari di Dataproc quando crei un cluster Dataproc.
Perché utilizzare le VM flessibili?
In precedenza, se un tipo di VM non era disponibile quando inviavi una richiesta di creazione del cluster, la richiesta non andava a buon fine e dovevi aggiornare la richiesta, lo script o il codice per specificare un tipo di VM "migliore successivo". Questa procedura di nuova richiesta poteva comportare più iterazioni finché non specificavi un tipo di VM disponibile.
La funzionalità VM flessibili di Dataproc consente di completare la richiesta di creazione del cluster selezionando i tipi di VM master, worker primari e worker secondari dagli elenchi di VM classificati, quindi cercando le zone all'interno della regione del cluster specificata con la disponibilità dei tipi di VM elencati.
Terminologia
- Tipo di VM: la famiglia, la capacità di memoria e il numero di core CPU di un'istanza VM. Dataproc supporta l'utilizzo di tipi di VM predefiniti e personalizzati.
- Nodi master e worker primari: un cluster ha un nodo master e almeno due worker primari.
- Worker secondari: Worker secondari sono facoltativi e non archiviano i dati. Funzionano solo come nodi di elaborazione. Puoi utilizzare i worker secondari per scalare il calcolo senza scalare lo spazio di archiviazione. Il tipo di worker secondario VM flessibile predefinito è una VM spot, che è un tipo preemptible (vedi Worker secondari di Dataproc).
Utilizzo
- Le VM flessibili sono disponibili in Dataproc
su Compute Engine
2.0.74+,2.1.76+,2.2.42+, e successive versioni immagine. - La creazione di cluster con VM flessibili master o worker primari richiede più tempo (circa 32 secondi in più).
- Il nome del cluster non deve superare i 45 caratteri.
- Per tutti i tipi di VM è necessario lo stesso tipo di disco.
- Puoi specificare fino a cinque elenchi di tipi di VM classificati, con un massimo di 10 tipi di VM in un elenco. Per ulteriori informazioni, consulta Come richiedere VM flessibili.
- La creazione di un cluster con VM flessibili richiede l'utilizzo di posizionamento automatico della zona di Dataproc, che consente a Dataproc di scegliere la zona con la capacità di soddisfare le richieste di tipo di VM.
- Se la richiesta di creazione del cluster include un a policy di scalabilità automatica, le VM flessibili possono appartenere a famiglie di VM diverse, ma devono avere la stessa quantità di memoria e lo stesso numero di core.
- Quando esegue il provisioning delle VM flessibili, Dataproc utilizza le prenotazioni disponibili "corrispondenti" , ma non le prenotazioni "specifiche" (vedi Utilizzare le istanze riservate). I tipi di macchina che corrispondono alle prenotazioni vengono selezionati per primi all'interno di un ranking, seguiti da tipi di VM con il maggior numero di CPU.
- Dataproc applica Google Cloud le quote al provisioning delle VM flessibili.
- Sebbene tu possa specificare rapporti CPU-memoria diversi per i tipi di VM worker primari e secondari in un cluster, ciò può comportare un peggioramento delle prestazioni perché il rapporto CPU-memoria più piccolo viene utilizzato come unità di container più piccola.
- Se aggiorni un cluster creato utilizzando le VM flessibili, Dataproc seleziona e aggiunge i worker dagli elenchi di VM flessibili che hai fornito quando hai creato il cluster.
Come richiedere VM flessibili
Puoi specificare le VM flessibili quando crei un cluster Dataproc utilizzando la Google Cloud console, Google Cloud CLI o l'API Dataproc.
- Puoi specificare fino a cinque elenchi di tipi di VM classificati, con un massimo di 10 tipi di VM in un elenco. Gli elenchi con il ranking più basso hanno la priorità più alta. Per impostazione predefinita, gli elenchi di VM flessibili hanno un ranking di 0. All'interno di un elenco, Dataproc dà la priorità ai tipi di VM con prenotazioni inutilizzate, seguiti dalle dimensioni delle VM più grandi. I tipi di VM all'interno di un elenco con lo stesso numero di CPU vengono trattati allo stesso modo.
Console
Per creare un cluster con VM flessibili worker secondari, procedi nel seguente modo:
- Apri la pagina Crea un cluster su Compute Engine di Dataproc nella Google Cloud console.
- Il riquadro Configura cluster è selezionato con i campi compilati con i valori predefiniti. Puoi modificare il nome suggerito e la regione del cluster, nonché apportare altre modifiche. Assicurati che Qualsiasi sia selezionata come zona del cluster per consentire al posizionamento automatico della zona di Dataproc di scegliere la zona con la migliore disponibilità dei tipi di VM specificati negli elenchi di VM flessibili.
- Seleziona il riquadro Configura nodi. Nella sezione Nodi worker secondari, specifica il numero e la prerilasciabilità dei worker secondari.
- Fai clic su Aggiungi un worker secondario per ogni ranking di worker secondari, specificando uno o più tipi di macchina da includere in ogni ranking.
- Dopo aver confermato e specificato i dettagli del cluster nei riquadri di creazione del cluster, fai clic su Crea.
gcloud
Utilizza il
gcloud dataproc clusters create
comando per aggiungere più flag master-machine-types, worker-machine-types e secondary-worker-machine-types
per specificare gli elenchi di VM flessibili classificati per i worker master, primari e
secondari.
L'esempio seguente richiede i tipi di VM master, primari e secondari con le seguenti priorità:
- Esegui il provisioning delle VM
e2-standard-8se disponibili (ranking 0); se le macchinee2-standard-8non sono disponibili, esegui il provisioning delle VMn2-standard-8(ranking 1).
Poiché il tipo di worker secondario non è specificato, verrà eseguito il provisioning delle VM secondarie spot preemptible.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --zone="" \ --master-machine-types="type=e2-standard-8,rank=0" \ --master-machine-types="type=n2-standard-8,rank=1" \ --num-workers=10 \ --worker-machine-types="type=e2-standard-8,rank=0" \ --worker-machine-types="type=n2-standard-8,rank=1" \ --num-secondary-workers=4 \ --secondary-worker-machine-types="type=e2-standard-8,rank=0" \ --secondary-worker-machine-types="type=n2-standard-8,rank=1"
Note:
--zone="": la funzionalità VM flessibili richiede il posizionamento automatico della zona di Dataproc per consentire a Dataproc di scegliere la zona in cui sono disponibili i tipi di VM da utilizzare. Il passaggio di un valore vuoto ("") al flag--zoneesegue l'override di qualsiasi selezione di zona specificata in predefinitogcloud config list.
API
Utilizza instanceFlexibilityPolicy.instanceSelectionList
come parte di una richiesta
clusters.create
dell'API Dataproc per specificare un elenco classificato di
machineTypes
per i worker master, primari e secondari.
Esempio: il seguente snippet JSON di un clusters.create
corpo della richiesta
specifica i tipi di macchina master (masterConfig), worker primario (workerConfig) e worker secondario
(secondaryWorkerConfig) con ranking 0 e ranking 1.
{
"projectId": "PROJECT_ID",
"clusterName": "CLUSTER_NAME",
"config": {
"gceClusterConfig": {
"zoneUri": ""
},
"masterConfig": {
"numInstances": 1,
"instanceFlexibilityPolicy": {
"instanceSelectionList": [
{
"machineTypes": ["e2-standard-8"],
"rank": 0
},
{
"machineTypes": ["n2-standard-8"],
"rank": 1
}
]
}
},
"workerConfig": {
"numInstances": 10,
"instanceFlexibilityPolicy": {
"instanceSelectionList": [
{
"machineTypes": ["e2-standard-8"],
"rank": 0
},
{
"machineTypes": ["n2-standard-8"],
"rank": 1
}
]
}
},
"secondaryWorkerConfig": {
"numInstances": 4,
"instanceFlexibilityPolicy": {
"instanceSelectionList": [
{
"machineTypes": ["e2-standard-8"],
"rank": 0
},
{
"machineTypes": ["n2-standard-8"],
"rank": 1
}
]
}
}
}
}
Eseguire l'override delle proprietà delle VM flessibili
Dataproc imposta le proprietà a livello di cluster. Quando crei un cluster che utilizza le VM flessibili, puoi eseguire l'override delle proprietà generate dal sistema per i tipi di VM flessibili worker primari e secondari.
gcloud
Per eseguire l'override delle proprietà durante la creazione di un cluster, utilizza il --properties
flag con la seguente sintassi:
--properties="$ROLE:$MACHINE_TYPE:$COMPONENT_PREFIX:$COMPONENT_PROPERTY=$VALUE"
- ROLE può essere
primary_workerosecondary_worker. - Separa più proprietà con una virgola.
Esegui il seguente gcloud dataproc clusters create comando per eseguire l'override
del numero di vCPU che YARN alloca per NodeManager sui worker secondari. Questo esempio imposta il valore yarn.nodemanager.resource.cpu-vcores in
yarn-site.xml su 6 per tutte le VM worker secondarie e2-standard-8 e n2-standard-8.
gcloud dataproc clusters create CLUSTER_NAME \
--num-workers=10 \
--num-secondary-workers=4 \
--worker-machine-types="type=e2-standard-8,rank=0" \
--worker-machine-types="type=n2-standard-8,rank=1" \
--master-machine-types="type=e2-standard-8,rank=0" \
--master-machine-types="type=n2-standard-8,rank=1" \
--secondary-worker-machine-types="type=e2-standard-8,rank=0" \
--secondary-worker-machine-types="type=n2-standard-8,rank=1" \
--region=us-central1 \
--zone="" \
--properties="secondary_worker:e2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores=6,secondary_worker:n2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores=6"
API
Per eseguire l'override delle proprietà, definiscile nel campo properties dell'
SoftwareConfig
oggetto nella richiesta di creazione del cluster.
Utilizza la seguente sintassi per la chiave della proprietà:
ROLE:MACHINE_TYPE:COMPONENT_PREFIX:COMPONENT_PROPERTY
- ROLE può essere
primary_workerosecondary_worker.
Il seguente SoftwareConfig oggetto esegue l'override del numero di vCPU che
YARN alloca per NodeManager sui worker secondari. Questo esempio imposta il
yarn.nodemanager.resource.cpu-vcores valore su 6
per tutte le VM worker secondarie e2-standard-8 e n2-standard-8.
{
"imageVersion":"2.2.42",
"properties": {
"secondary_worker:e2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores" : "6",
"secondary_worker:n2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores" : "6"
}
}
Passaggi successivi
- Scopri di più sulle proprietà dei cluster Dataproc .
- Scopri come creare un cluster Dataproc.