Risolvere i problemi di accesso all'appliance

Questa pagina descrive come risolvere i problemi di inaccessibilità dell'appliance dopo il bootstrapping. Potresti riscontrare i seguenti problemi:

  • Messaggi di errore come Unable to connect to the server: dial tcp 198.18.0.64:443: i/o timeout quando tenti di eseguire query utilizzando kubectl.
  • Errore Webpage not available durante il tentativo di accesso alla UI.
  • Le applicazioni di cui è stato eseguito il deployment sull'appliance non funzionano o non puoi eseguire il deployment di nuove applicazioni.

Risoluzione del problema di inaccessibilità dell'interfaccia utente

Diagramma di flusso per il debug del problema di inaccessibilità dell'interfaccia utente

  1. Segui il runbook UI inaccessibile per risolvere il problema.
  2. Controlla se il cluster è raggiungibile seguendo la sezione Raggiungibilità del cluster.
  3. Se il cluster risponde, verifica se l'API di gestione è accessibile seguendo la sezione API di gestione accessibile.
  4. Se il cluster non è raggiungibile e restituisce errori come Connection timed out o i/o timeout error, consulta la guida alla risoluzione dei problemi per ulteriori passaggi.

Procedure di risoluzione dei problemi di base

Posizioni dei LED sul dispositivo

  1. Verifica l'alimentazione dello chassis controllando se le spie (verdi) su uno dei due alimentatori sono accese, come indicato dalle frecce nell'immagine.

    Stato della spia LED Descrizione
    Verde fisso Sistema acceso e funzionamento normale
    Verde lampeggiante Alimentazione in standby presente (alimentazione disattivata)
    Spia arancione fissa Alimentatore non funzionante (sovratensione/sottotensione, sovratemperatura, sovracorrente, corto circuito), ventola non funzionante o protezione da sovratensione in ingresso
    Ambra lampeggiante Errore di alimentazione
    Off Nessuna alimentazione presente o alimentazione in standby non riuscita (sovratensione/ sottotensione, sovratemperatura, sovracorrente, cortocircuito, blocco ventola)
  2. Se le spie sono spente, assicurati innanzitutto che il cavo di alimentazione riceva corrente. Se il cavo di alimentazione funziona correttamente, è probabile che gli alimentatori siano difettosi e debbano essere sostituiti. Per le istruzioni di sostituzione, consulta la Guida alla sostituzione dell'alimentatore.

  3. Se gli alimentatori funzionano ma il dispositivo continua a non funzionare, controlla se ci sono collegamenti allentati o danneggiati.

  4. Verifica che i LED dello switch e dei server siano accesi come indicato dalle frecce nell'immagine.

  5. Se il LED di collegamento dello switch è verde fisso, verifica che sia operativo seguendo la sezione Verificare che lo switch sia operativo.

  6. Se l'integrità e la configurazione dello switch sono corrette, accedi a iLO seguendo i passaggi descritti in Passaggi per accedere a iLO per controllare l'integrità del dispositivo.

    1. Se una delle ventole è critica, contatta il team di assistenza HPE per ottenere la sostituzione della ventola critica e segui la Guida alla sostituzione della ventola per sostituirla.
    2. Se alcuni server sono spenti, accendili andando alla sezione Server, selezionando il server e premendo il tasto di accensione.
    3. Se una delle lame è in stato critico, vai alla sezione Lame, seleziona la lama critica, vai alla sezione Alimentazione e avvia un ripristino forzato del sistema.
    4. Se l'integrità dello chassis è critica, puoi anche provare a ripristinarlo andando alla scheda Alimentazione e temperatura. Seleziona la sezione Management Power, fai clic su Reset EL8000CM Button. Questa procedura ripristina il firmware di Chassis Manager e potrebbe richiedere alcuni minuti, durante i quali lo chassis non è disponibile.
    5. Se il problema persiste, vai alla scheda Informazioni, seleziona Log, scegli Log di integrità dal menu a discesa e scaricali come file CSV. Apri un ticket con Google e allega i log per richiedere la sostituzione dell'hardware.

    Registri di salute

  7. Se i LED di alimentazione sulle lame sono illuminati, esegui un test ping ai seguenti indirizzi IP delle lame da una macchina connessa all'appliance:

        ping 198.18.0.7  //BM01
        ping 198.18.0.8  //BM02
        ping 198.18.0.9  //BM03
    

    Se il test ping ha esito positivo, significa che i nodi sono operativi.

  8. Se tutti i nodi non superano il test ping, riassegna la richiesta all'assistenza Google.

  9. Se il problema persiste dopo aver seguito tutti i passaggi descritti in questa sezione, riassegna il problema all'Assistenza Google per ulteriore assistenza.

Connessioni allentate o danneggiate

  1. Verifica che tutti i collegamenti siano sicuri e inseriti correttamente. Per indicazioni su come controllare e fissare i collegamenti dei cavi all'interno dell'apparecchio, consulta Controllare i cavi.

  2. Controlla che i cavi non presentino danni visibili. Se i cavi sono danneggiati, sostituiscili.

Verifica che l'interruttore sia operativo

  1. Accedi alla console seriale dello switch. Se l'accesso va a buon fine, esegui questo comando per controllare lo stato dello switch. Questo comando mostra l'uptime e il consumo di risorse dello switch.

    show version
    
  2. Se la console seriale risponde, convalida la configurazione BGP sullo switch facendo riferimento a Convalida riepilogo BGP.

  3. Se il LED Link è spento o la console seriale non risponde, lo switch potrebbe essere difettoso. Risolvi il problema con l'Assistenza Google per una sostituzione.

Verifica l'accessibilità del cluster

  1. Accedi alla sessione gdcloud con le credenziali IO:

    gdcloud auth login
    
  2. Se non riesci ad accedere, individua la credenziale di emergenza di cui è stato eseguito il backup durante la configurazione dell'appliance da utilizzare con il comando -: root-admin-kubeconfig.

  3. Controlla se il cluster è raggiungibile:

    kubectl --kubeconfig root-admin-kubeconfig get servers -A
    

Verifica l'accessibilità dell'API Management

  1. Accedi alla sessione gdcloud con le credenziali IO:

    gdcloud auth login
    

    Se l'accesso non va a buon fine, accedi con le credenziali del piano di gestione.

  2. A volte il database AIS può non funzionare correttamente o essere configurato in modo errato, causando un errore di accesso. Consulta IAM-R0009 - AIS Database.

  3. Se non riesci a risolvere i problemi di accesso, individua la credenziale di emergenza di cui è stato eseguito il backup durante la configurazione dell'appliance da utilizzare con il comando -: root-admin-kubeconfig.

  4. Recupera il file kubeconfig del management plane:

    kubectl --kubeconfig root-admin-kubeconfig -n management-kube-system get secret kube-admin-remote-kubeconfig -ojsonpath='{.data.value}' | base64 -d > kube-admin-remote-kubeconfig
    
  5. Recupera lo stato di integrità del cluster:

    kubectl --kubeconfig kube-admin-remote-kubeconfig get --raw='/readyz?verbose'