クライアント VM またはインスタンスで Managed Lustre ファイル システムのマウントまたは接続に関する問題が発生した場合は、次の手順で問題を診断します。
Managed Lustre インスタンスに到達できることを確認する
まず、クライアント インスタンスから Managed Lustre インスタンスに到達できることを確認します。
sudo lctl ping IP_ADDRESS@tcp
IP_ADDRESS の値を取得するには、 インスタンスを取得するをご覧ください。
ping が成功すると、次のようなレスポンスが返されます。
12345-0@lo
12345-10.115.0.3@tcp
ping が失敗すると、次のようになります。
failed to ping 10.115.0.3@tcp: Input/output error
ping が失敗した場合:
Managed Lustre インスタンスとクライアント インスタンスが同じ VPC ネットワークにあることを確認します。次のコマンドの出力を比較します。
gcloud compute instances describe VM_NAME \ --zone=VM_ZONE \ --format='get(networkInterfaces[0].network)' gcloud lustre instances describe INSTANCE_NAME \ --location=ZONE --format='get(network)'出力は次のようになります。
https://www.googleapis.com/compute/v1/projects/my-project/global/networks/my-network projects/my-project/global/networks/my-networkgcloud compute instances describeコマンドの出力にはhttps://www.googleapis.com/compute/v1/という接頭辞が付いています。この文字列に続くすべての文字列は、gcloud lustre instances describeコマンドの出力と一致する必要があります。VPC ネットワークのファイアウォール ルールとルーティング構成を確認して、クライアント インスタンスと Managed Lustre インスタンス間のトラフィックが許可されていることを確認します。
LNet 受信ポートを確認する(レガシー インスタンス)
--gke-support-enabled フラグは非推奨となり、新しい Managed Lustre インスタンスの作成時には不要になりましたが、このフラグを使用して作成された古いインスタンスが存在する可能性があります。
GKE サポート
が有効になっているレガシー インスタンスに接続する場合は、すべてのクライアント Compute Engine インスタンス
で LNet を構成して accept_port 6988 を使用する必要があります。
インスタンスの LNet を構成するをご覧ください。gke-support-enabled
既存のインスタンスがこのレガシー フラグで構成されているかどうかを確認するには、次のコマンドを実行します。
gcloud lustre instances describe INSTANCE_NAME \
--location=LOCATION | grep gkeSupportEnabled
コマンドから gkeSupportEnabled: true が返された場合は、クライアント VM で LNet を構成する必要があります。
Ubuntu カーネル バージョンと Lustre クライアントの不一致
Ubuntu を実行している Compute Engine インスタンスの場合、Ubuntu カーネル バージョンは Lustre クライアント パッケージの特定のバージョンと一致する必要があります。Lustre クライアント ツールが失敗する場合は、Compute Engine インスタンスが新しいカーネルに自動アップグレードされているかどうかを確認します。
カーネル バージョンを確認するには:
uname -r
レスポンスは次のようになります。
6.8.0-1029-gcp
Lustre クライアント パッケージのバージョンを確認するには:
dpkg -l | grep -i lustre
レスポンスは次のようになります。
ii lustre-client-modules-6.8.0-1029-gcp 2.14.0-ddn198-1 amd64 Lustre Linux kernel module (kernel 6.8.0-1029-gcp)
ii lustre-client-utils 2.14.0-ddn198-1 amd64 Userspace utilities for the Lustre filesystem (client)
両方のコマンドでリストされたカーネル バージョンが一致しない場合は、 Lustre クライアント パッケージを再インストールする必要があります。
dmesg で Lustre エラーを確認する
多くの Lustre の警告とエラーは、Linux カーネルのリングバッファに記録されます。dmesg コマンドは、カーネルのリングバッファを出力します。
Lustre 固有のメッセージを検索するには、dmesg と組み合わせて grep を使用します。
dmesg | grep -i lustre
または、関連する可能性のある一般的なエラーを探すには、次のようにします。
dmesg | grep -i error
マルチ NIC VM で Lustre のマウントが失敗する
VM に複数のネットワーク インターフェース コントローラ(NIC)があり、Managed Lustre インスタンスがセカンダリ NIC(eth1 など)に接続された VPC 上にある場合、インスタンスのマウントが失敗することがあります。この問題を解決するには、
セカンダリ NIC を使用してマウントするの手順に沿って操作します。
172.17.0.0/16 サブネット範囲から接続できない
172.17.0.0/16 サブネット範囲の IP アドレスを持つ Compute Engine クライアントと GKE クライアントは、Managed Lustre インスタンスをマウントできません。
ピアリングされたプロジェクトから Managed Lustre にアクセスできない
ピアリングされた VPC ネットワーク内の VM から Managed Lustre インスタンスにアクセスするには、Network Connectivity Center(NCC)を使用する必要があります。NCC を使用すると、複数の VPC ネットワークとオンプレミス ネットワークを中央ハブに接続して、それらの間の接続を確立できます。
NCC の設定方法については、 Network Connectivity Center のドキュメントをご覧ください。
Shielded VM(セキュアブート)でマウントが失敗する
Managed Lustre は
Shielded VMにマウントできません。セキュアブート環境で
Lustre カーネル モジュールを読み込もうとすると、エラー
ERROR: could not insert 'lustre': Required key not available.で失敗します。
サポート リクエストに含める情報
マウントの失敗を解決できない場合は、サポートケースを作成する前に診断情報を収集してください。
sosreport を実行する: このユーティリティは、システムログと構成情報を収集し、圧縮された tarball を生成します。
sudo sosreport
sosreport アーカイブと dmesg からの関連する出力をサポートケースに添付してください。