Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

排解用戶端連線問題

如果無法在用戶端 VM 或執行個體上掛接或連線至 Managed Lustre 檔案系統，請按照下列步驟診斷問題。

確認 Managed Lustre 執行個體是否可連線

首先，請確認 Managed Lustre 執行個體可從用戶端執行個體連線：

sudo lctl ping IP_ADDRESS@tcp

如要取得 IP_ADDRESS 的值，請參閱「取得執行個體」。

成功 ping 會傳回類似以下的回應：

12345-0@lo
12345-10.115.0.3@tcp

如果連線偵測 (ping) 失敗，系統會傳回下列內容：

failed to ping 10.115.0.3@tcp: Input/output error

如果 Ping 失敗：

請確認 Managed Lustre 執行個體和用戶端執行個體位於相同的虛擬私有雲網路。比較下列指令的輸出內容：
```
gcloud compute instances describe VM_NAME \
  --zone=VM_ZONE \
  --format='get(networkInterfaces[0].network)'

gcloud lustre instances describe INSTANCE_NAME \
  --location=ZONE --format='get(network)'
```
輸出內容如下所示：
```
https://www.googleapis.com/compute/v1/projects/my-project/global/networks/my-network
projects/my-project/global/networks/my-network
```
gcloud compute instances describe 指令的輸出內容會以 https://www.googleapis.com/compute/v1/ 為前置字元；該字串後方的所有內容都必須與 gcloud lustre instances describe 指令的輸出內容相符。
檢查虛擬私有雲網路的防火牆規則和路由設定，確保這些規則和設定允許用戶端執行個體與 Managed Lustre 執行個體之間的流量。

檢查 LNet 接受埠 (舊版執行個體)

雖然 --gke-support-enabled 旗標已淘汰，建立新的 Managed Lustre 執行個體時不再需要此旗標，但您可能仍有使用此旗標建立的舊版執行個體。

如果您要連線至已啟用 GKE 支援的舊版執行個體，請務必在所有用戶端 Compute Engine 執行個體上，將 LNet 設為使用 accept_port 6988。請參閱「為 gke-support-enabled 執行個體設定 LNet」。

如要判斷現有執行個體是否已設定這個舊版標記，請執行下列指令：

gcloud lustre instances describe INSTANCE_NAME \
  --location=LOCATION | grep gkeSupportEnabled

如果指令傳回 gkeSupportEnabled: true，您必須在用戶端 VM 上設定 LNet。

Ubuntu 核心版本與 Lustre 用戶端不符

如果是執行 Ubuntu 的 Compute Engine 執行個體，Ubuntu 核心版本必須與特定版本的 Lustre 用戶端套件相符。如果 Lustre 用戶端工具發生故障，請檢查 Compute Engine 執行個體是否已自動升級至較新的核心。

如要查看核心版本，請按照下列步驟操作：

uname -r

回應如下所示：

6.8.0-1029-gcp

如要查看 Lustre 用戶端套件版本，請按照下列步驟操作：

dpkg -l | grep -i lustre

回應如下所示：

ii  lustre-client-modules-6.8.0-1029-gcp 2.14.0-ddn198-1  amd64  Lustre Linux kernel module (kernel 6.8.0-1029-gcp)
ii  lustre-client-utils                  2.14.0-ddn198-1  amd64  Userspace utilities for the Lustre filesystem (client)

如果兩個指令列出的核心版本不符，請重新安裝 Lustre 用戶端套件。

檢查 dmesg 是否有 Lustre 錯誤

許多 Lustre 警告和錯誤都會記錄到 Linux 核心環狀緩衝區。dmesg 指令會列印核心環狀緩衝區。

如要搜尋 Lustre 專屬訊息，請搭配使用 grep 和 dmesg：

dmesg | grep -i lustre

或者，如要尋找可能相關的一般錯誤，請按照下列步驟操作：

dmesg | grep -i error

在多 NIC VM 上掛接 Lustre 失敗

如果 VM 有多個網路介面控制器 (NIC)，且 Managed Lustre 執行個體位於連線至次要 NIC 的 VPC (例如 eth1)，則掛接執行個體可能會失敗。如要解決這個問題，請按照指示使用次要 NIC 掛接。

無法從 172.17.0.0/16 子網路範圍連線

IP 位址位於 172.17.0.0/16 子網路範圍的 Compute Engine 和 GKE 用戶端，無法掛接 Managed Lustre 執行個體。

無法從對等互連專案存取 Managed Lustre

如要從對等互連的虛擬私有雲網路中的 VM 存取 Managed Lustre 執行個體，必須使用 Network Connectivity Center (NCC)。您可以透過 NCC 將多個虛擬私有雲網路和地端部署網路連線至中央中樞，在這些網路之間建立連線。

如需設定 NCC 的操作說明，請參閱 Network Connectivity Center 說明文件。

受防護的 VM (安全啟動) 無法掛接

Managed Lustre 無法掛接至受防護的 VM。嘗試在安全啟動環境中載入 Lustre 核心模組時，會失敗並顯示以下錯誤：ERROR: could not insert 'lustre': Required key not available.

支援要求中應包含的資訊

如果無法解決掛接失敗問題，請先收集診斷資訊，再建立支援案件。

執行 sosreport：這項公用程式會收集系統記錄和設定資訊，並產生壓縮的 tarball：

sudo sosreport

將 sosreport 封存檔和 dmesg 的任何相關輸出內容附加到支援案件中。

排解用戶端連線問題 透過集合功能整理內容 你可以依據偏好儲存及分類內容。