アプライアンスのアクセスに関する問題のトラブルシューティング

このページでは、ブートストラップ後のアプライアンスのアクセス不能の問題をトラブルシューティングする方法について説明します。次の問題が発生することがあります。

  • kubectl を使用してクエリを実行しようとすると、Unable to connect to the server: dial tcp 198.18.0.64:443: i/o timeout などのエラー メッセージが表示されます。
  • UI にアクセスしようとすると Webpage not available エラーが発生する。
  • アプライアンスにデプロイされたアプリケーションが機能しない、または新しいアプリケーションをデプロイできない。

UI にアクセスできない問題のトラブルシューティング

UI にアクセスできない問題のデバッグのフローチャート

  1. UI にアクセスできないランブックに沿って、問題のトラブルシューティングを行います。
  2. クラスタの到達可能性のセクションに沿って、クラスタに到達可能かどうかを確認します。
  3. クラスタが応答する場合は、管理 API にアクセスできるセクションの手順に沿って、管理 API にアクセスできるかどうかを確認します。
  4. クラスタにアクセスできず、Connection timed outi/o timeout error などのエラーが返される場合は、トラブルシューティング ガイドでトラブルシューティングの手順を確認してください。

基本的なトラブルシューティング手順

デバイスの LED の位置

  1. シャーシの電源を確認するには、2 つの電源のいずれかのインジケータ ライト(緑色)が点灯しているかどうかを確認します(図の矢印を参照)。

    LED ライトの状態 説明
    緑色で点灯 システム オンと通常動作
    緑色で点滅 スタンバイ電源あり(電源オフ)
    ソリッドアンバー 電源の故障(過電圧/低電圧、過熱、過電流、短絡)、ファンの故障、入力過電圧保護
    オレンジ色の点滅 電源に問題がある
    オフ 電源が入っていない、またはスタンバイ電源が故障している(過電圧/ 低電圧、過熱、過電流、ショート、ファンのロック)
  2. インジケーター ライトが点灯していない場合は、まず電源コードに電力が供給されていることを確認します。電源コードが正常に機能している場合は、電源装置に欠陥がある可能性が高いため、交換する必要があります。交換手順については、電源ユニットの交換ガイドを参照してください。

  3. 電源は機能しているのにデバイスが動作しない場合は、接続が緩んだり損傷したりしていないかを確認します。

  4. スイッチとサーバーの LED が、図の矢印で示されているように点灯していることを確認します。

  5. スイッチのリンク LED が緑色に点灯している場合は、スイッチが動作していることを確認するの手順に沿って、スイッチが動作していることを確認します。

  6. スイッチの健全性と構成が正しい場合は、iLO にログインする手順に記載されている手順で iLO にログインし、デバイスの健全性を確認します。

    1. ファンに重大な問題がある場合は、HPE サポートチームに連絡して重大なファンの交換を依頼し、ファン交換ガイドに沿って交換します。
    2. ブレードの電源がオフになっている場合は、[ブレード] セクションに移動してブレードを選択し、電源ボタンを押してオンにします。
    3. ブレードのいずれかが重大な状態になっている場合は、[ブレード] セクションに移動し、重大なブレードを選択して、[電源] セクションに移動し、強制システム リセットを開始します。
    4. シャーシの健全性が重大な場合は、[電源と温度] タブに移動してシャーシをリセットすることもできます。[Management Power] セクションを選択し、[Reset EL8000CM Button] をクリックします。このプロセスでは、シャーシ マネージャーのファームウェアがリセットされます。この処理には数分かかることがあり、その間はシャーシを使用できません。
    5. 問題が解決しない場合は、[情報] タブに移動し、[ログ] を選択して、プルダウン メニューから [ヘルスログ] を選択し、CSV ファイルとしてダウンロードします。Google にチケットを発行し、ログを添付してハードウェアの交換をリクエストします。

    健康ログ

  7. ブレードの電源 LED が点灯している場合は、アプライアンスに接続されているマシンから次のブレード IP アドレスに対して ping テストを実行します。

        ping 198.18.0.7  //BM01
        ping 198.18.0.8  //BM02
        ping 198.18.0.9  //BM03
    

    ping テストが成功すると、ノードが動作していることを示します。

  8. すべてのノードが ping テストに失敗した場合は、Google サポートにエスカレーションします。

  9. このセクションで説明した手順をすべて行っても問題が解決しない場合は、Google サポートにエスカレーションして、サポートを依頼してください。

接続が緩んでいる、または破損している

  1. すべての接続がしっかりと取り付けられていることを確認します。アプライアンス内のケーブル接続の確認と保護については、ケーブルを確認するを参照してください。

  2. ケーブルに目に見える損傷がないか確認します。ケーブルが破損している場合は、交換します。

スイッチが動作していることを確認する

  1. スイッチのシリアル コンソールにログインします。ログインに成功したら、次のコマンドを実行してスイッチの状態を確認します。このコマンドは、スイッチの稼働時間とリソース消費量を表示します。

    show version
    
  2. シリアル コンソールが応答する場合は、BGP の概要を検証するを参照して、スイッチの BGP 構成を検証します。

  3. リンク LED が点灯しない場合や、シリアル コンソールが応答しない場合は、スイッチに障害が発生している可能性があります。交換について Google サポートに問題をエスカレーションします。

クラスタの到達可能性を確認する

  1. IO 認証情報を使用して gdcloud セッションにログインします。

    gdcloud auth login
    
  2. ログインできない場合は、アプライアンスの設定時にバックアップされた緊急用認証情報を特定し、コマンド -: root-admin-kubeconfig で使用します。

  3. クラスタに到達可能かどうかを確認します。

    kubectl --kubeconfig root-admin-kubeconfig get servers -A
    

管理 API のアクセシビリティを確認する

  1. IO 認証情報を使用して gdcloud セッションにログインします。

    gdcloud auth login
    

    ログインに失敗した場合は、管理プレーンの認証情報でログインします。

  2. AIS データベースが誤動作したり、設定が誤っていたりすると、ログインに失敗することがあります。IAM-R0009 - AIS データベースを参照してください。

  3. ログインに関する問題を解決できない場合は、アプライアンスのセットアップ時にバックアップされた緊急用認証情報を特定し、コマンド -: root-admin-kubeconfig で使用します。

  4. 管理プレーンの kubeconfig を取得します。

    kubectl --kubeconfig root-admin-kubeconfig -n management-kube-system get secret kube-admin-remote-kubeconfig -ojsonpath='{.data.value}' | base64 -d > kube-admin-remote-kubeconfig
    
  5. クラスタのヘルス ステータスを取得します。

    kubectl --kubeconfig kube-admin-remote-kubeconfig get --raw='/readyz?verbose'