Risolvere i problemi di creazione del cluster

Questo documento spiega i messaggi di errore comuni relativi alla creazione di cluster e fornisce suggerimenti per la risoluzione dei problemi di creazione di cluster.

Messaggi di errore comuni relativi alla creazione di cluster

User not authorized to act as service account

Causa: l'entità che tenta di creare il cluster Dataproc non dispone delle autorizzazioni necessarie per utilizzare il service account specificato. Gli utenti di Dataproc devono disporre dell'autorizzazione del service account ActAs per eseguire il deployment delle risorse Dataproc; questa autorizzazione è inclusa nel ruolo Utente account di servizio (roles/iam.serviceAccountUser) (vedi Ruoli Dataproc).

Soluzione: identifica l'utente o il service account che tenta di creare il cluster Dataproc. Concedi a questa entità il ruolo Utente account di servizio (roles/iam.serviceAccountUser) nel service account configurato per l'utilizzo del cluster (in genere, il service account VM Dataproc).
Operation timed out: Only 0 out of 2 minimum required datanodes/node managers running.

Causa: il nodo controller non è in grado di creare il cluster perché non può comunicare con i nodi worker.

Soluzione:
- Controlla gli avvisi relativi alle regole firewall.
- Assicurati che siano in vigore le regole firewall corrette. Per saperne di più, consulta Panoramica delle regole firewall predefinite di Dataproc.
- Esegui un test di connettività nella Google Cloud console per determinare cosa blocca la comunicazione tra il controller e i nodi worker.
Required compute.subnetworks.use permission for projects/{projectId}/regions/{region}/subnetworks/{subnetwork}

Causa: questo errore può verificarsi quando tenti di configurare un cluster Dataproc utilizzando una rete VPC in un altro progetto e il service account dell'agente di servizio Dataproc Service Agent non dispone delle autorizzazioni necessarie per il progetto VPC condiviso che ospita la rete.

Soluzione: segui i passaggi elencati in Creare un cluster che utilizza una rete VPC in un altro progetto.
The zone projects/zones/{zone} does not have enough resources available to fulfill the request (resource type:compute)

Causa: la zona utilizzata per creare il cluster non dispone di risorse sufficienti.

Soluzione:
- Utilizza la funzionalità di posizionamento della zona automatica di Dataproc per creare il cluster in una delle zone di una regione con risorse disponibili.
- Crea il cluster in una zona diversa.
Errori di superamento quota

Insufficient CPUS/CPUS_ALL_REGIONS quota
Insufficient 'DISKS_TOTAL_GB' quota
Insufficient 'IN_USE_ADDRESSES' quota

Causa: la richiesta di CPU, dischi, o indirizzi IP supera la quota disponibile.

Soluzione: richiedi una quota aggiuntiva dalla Google Cloud console.
Initialization action failed

Causa: l'azione di inizializzazione fornita durante la creazione del cluster non è stata installata.

Soluzione:
- Consulta le considerazioni e le linee guida relative alle azioni di inizializzazione.
- Esamina i log di output. Il messaggio di errore dovrebbe fornire un link ai log in Cloud Storage.
Failed to initialize node CLUSTER-NAME-m. ... See output in: <gs://PATH_TO_STARTUP_SCRIPT_OUTPUT>

Causa: l'inizializzazione del nodo controller del cluster Dataproc non è riuscita.

Soluzione:
- Esamina i log di output dello script di avvio elencati nel messaggio di errore (gs://PATH_TO_STARTUP_SCRIPT_OUTPUT) e verifica la causa dell'inizializzazione del nodo non riuscita.
- Le cause possono includere problemi di configurazione della rete del cluster Dataproc e l'installazione non riuscita delle dipendenze del pacchetto Python.
- Se il problema non viene risolto dopo aver esaminato i log dello script di avvio, correggi eventuali problemi lato utente, quindi riprova con il backoff esponenziale, contatta l'assistenza Google Cloud.
Cluster creation failed: IP address space exhausted

Causa: lo spazio di indirizzi IP necessario per il provisioning dei nodi cluster richiesti non è disponibile.

Soluzione:
- Crea un cluster con meno nodi worker, ma con un tipo di macchina più grande.
- Crea un cluster su una subnet o una rete diversa.
- Riduci l'utilizzo della rete per liberare spazio di indirizzi IP.
- Attendi che sia disponibile spazio IP sufficiente sulla rete.

Initialization script error message: The repository REPO_NAME no longer has a Release file

Causa: il repository di backport di Debian oldstable è stato eliminato.

Soluzione:

Aggiungi il seguente codice prima del codice che esegue apt-get nello script di inizializzazione.

oldstable=$(curl -s https://deb.debian.org/debian/dists/oldstable/Release | awk '/^Codename/ {print $2}');
stable=$(curl -s https://deb.debian.org/debian/dists/stable/Release | awk '/^Codename/ {print $2}');

matched_files="$(grep -rsil '\-backports' /etc/apt/sources.list*)"
if [[ -n "$matched_files" ]]; then
  for filename in "$matched_files"; do
    grep -e "$oldstable-backports" -e "$stable-backports" "$filename" || \
      sed -i -e 's/^.*-backports.*$//' "$filename"
  done
fi

Timeout waiting for instance DATAPROC_CLUSTER_VM_NAME to report in or Network is unreachable: dataproccontrol-REGION.googleapis.com

Causa: questi messaggi di errore indicano che la configurazione di rete del cluster Dataproc è incompleta: potrebbero mancare la route al gateway internet predefinito o regole firewall.

Soluzione:

Per risolvere il problema, puoi creare i seguenti test di connettività:
- Crea un test di connettività tra due VM del cluster Dataproc. Il risultato di questo test ti aiuterà a capire se le regole firewall di autorizzazione in entrata o in uscita della tua rete si applicano correttamente alle VM del cluster.
- Crea un test di connettività tra una VM del cluster Dataproc e un indirizzo IP dell'API di controllo Dataproc corrente. Per ottenere un indirizzo IP dell'API di controllo Dataproc corrente, utilizza il seguente comando:
```
dig dataproccontrol-REGION.googleapis.com A
```
Utilizza uno degli indirizzi IPv4 nella sezione delle risposte dell'output.

Il risultato del test di connettività ti aiuterà a capire se la route al gateway internet predefinito e il firewall di autorizzazione in uscita sono configurati correttamente.

In base ai risultati dei test di connettività:
- Aggiungi una route a internet alla rete VPC del cluster: 0.0.0.0/0 per IPv4 e ::/0 per IPv6 con --next-hop-gateway=default-internet-gateway.
- Aggiungi regole firewall per il controllo dell'accesso.
Error due to update

Causa: il cluster ha accettato un job inviato al servizio Dataproc, ma non è stato in grado di eseguire lo scale up o lo scale down manualmente o tramite la scalabilità automatica. Questo errore può essere causato anche da una configurazione del cluster non standard.

Soluzione:
- Reimpostazione del cluster: apri un ticket di assistenza, includi un file tar di diagnostica, e chiedi di reimpostare il cluster sullo stato RUNNING.
- Nuovo cluster: ricrea il cluster con la stessa configurazione. Questa soluzione può essere più rapida di una reimpostazione fornita dall'assistenza.

Suggerimenti per la risoluzione dei problemi relativi ai cluster

Questa sezione fornisce ulteriori indicazioni sulla risoluzione dei problemi comuni che possono impedire la creazione di cluster Dataproc.

Quando il provisioning di un cluster Dataproc non riesce, spesso viene generato un messaggio di errore generico o viene segnalato uno stato PENDING o PROVISIONING prima dell'errore. La chiave per diagnosticare e risolvere i problemi di errore del cluster è esaminare i log del cluster e valutare i punti di errore comuni.

Sintomi comuni

Di seguito sono riportati i sintomi comuni associati agli errori di creazione del cluster:

Lo stato del cluster rimane PENDING o PROVISIONING per un periodo prolungato.
Il cluster passa allo stato ERROR.
Errori API generici durante la creazione del cluster, ad esempio Operation timed out.
Messaggi di errore registrati o di risposta dell'API, ad esempio:
- RESOURCE_EXHAUSTED: relativo alle quote di CPU, disco o indirizzi IP
- Instance failed to start
- Permission denied
- Unable to connect to service_name.googleapis.com or Could not reach required Google APIs
- Connection refused or network unreachable
- Errori relativi alle azioni di inizializzazione non riuscite, ad esempio errori di esecuzione dello script e file non trovato.

Esaminare i log del cluster

Un importante passaggio iniziale per la diagnosi degli errori di creazione del cluster è l'esame dei log dettagliati del cluster disponibili in Cloud Logging.

Vai a Esplora log: apri Esplora log nella Google Cloud console.
Filtra per i cluster Dataproc:
- Nel menu a discesa Risorsa, seleziona Cloud Dataproc Cluster.
- Inserisci cluster_name e project_id. Puoi anche filtrare per location (regione).
Esamina le voci di log:
- Cerca i messaggi di livello ERROR o WARNING che si verificano in prossimità dell'errore di creazione del cluster.
- Presta attenzione ai log dei componenti master-startup, worker-startup e agent per informazioni sui problemi a livello di VM o dell'agente Dataproc.
- Per informazioni sui problemi relativi al tempo di avvio della VM, filtra i log in base a resource.type="gce_instance" e cerca i messaggi dei nomi delle istanze associati ai nodi del cluster, ad esempio CLUSTER_NAME-m o CLUSTER_NAME-w-0. I log della console seriale possono rivelare problemi di configurazione di rete, problemi del disco ed errori di script che si verificano all'inizio del ciclo di vita della VM.

Cause comuni di errori del cluster e suggerimenti per la risoluzione dei problemi

Questa sezione illustra i motivi comuni per cui la creazione di cluster Dataproc potrebbe non riuscire e fornisce suggerimenti per la risoluzione dei problemi relativi agli errori dei cluster.

Autorizzazioni IAM insufficienti

Il service account VM utilizzato dal cluster Dataproc deve disporre dei ruoli IAM appropriati per eseguire il provisioning delle istanze Compute Engine, accedere ai bucket Cloud Storage, scrivere log e interagire con altri Google Cloud servizi.

Ruolo Worker richiesto: verifica che il service account VM abbia il ruolo Worker Dataproc (roles/dataproc.worker). Questo ruolo dispone delle autorizzazioni minime richieste da Dataproc per gestire le risorse cluster.
Autorizzazioni di accesso ai dati: se i job leggono o scrivono in Cloud Storage o BigQuery, il service account necessita di ruoli correlati, ad esempio Storage Object Viewer, Storage Object Creator, o Storage Object Admin per Cloud Storage, oppure BigQuery Data Viewer o BigQuery Editor per BigQuery.
Autorizzazioni di logging: il service account deve avere un ruolo con le autorizzazioni necessarie per scrivere i log in Cloud Logging, ad esempio il ruolo Logging Writer.