Memecahkan masalah koneksi klien

Jika mengalami masalah saat memasang atau menghubungkan ke sistem file Managed Lustre di VM atau instance klien, ikuti langkah-langkah berikut untuk mendiagnosis masalah.

Pastikan instance Managed Lustre dapat dijangkau

Pertama, pastikan instance Managed Lustre Anda dapat dijangkau dari instance klien Anda:

sudo lctl ping IP_ADDRESS@tcp

Untuk mendapatkan nilai IP_ADDRESS, lihat Mendapatkan instance.

Ping yang berhasil akan menampilkan respons yang mirip dengan berikut ini:

12345-0@lo
12345-10.115.0.3@tcp

Ping yang gagal akan menampilkan hal berikut:

failed to ping 10.115.0.3@tcp: Input/output error

Jika ping Anda gagal:

  • Pastikan instance Managed Lustre dan instance klien Anda berada di jaringan VPC yang sama. Bandingkan output perintah berikut:

    gcloud compute instances describe VM_NAME \
      --zone=VM_ZONE \
      --format='get(networkInterfaces[0].network)'
    
    gcloud lustre instances describe INSTANCE_NAME \
      --location=ZONE --format='get(network)'
    

    Outputnya akan terlihat seperti:

    https://www.googleapis.com/compute/v1/projects/my-project/global/networks/my-network
    projects/my-project/global/networks/my-network
    

    Output perintah gcloud compute instances describe diawali dengan https://www.googleapis.com/compute/v1/; semua yang mengikuti string tersebut harus cocok dengan output perintah gcloud lustre instances describe.

  • Tinjau aturan firewall dan konfigurasi perutean jaringan VPC Anda untuk memastikan keduanya mengizinkan traffic antara instance klien dan instance Managed Lustre.

Memeriksa port penerimaan LNet (instance lama)

Meskipun tanda --gke-support-enabled tidak digunakan lagi dan tidak lagi diperlukan saat membuat instance Managed Lustre baru, Anda mungkin memiliki instance lama yang dibuat dengan tanda ini.

Jika Anda terhubung ke instance lama yang mengaktifkan dukungan GKE, Anda harus mengonfigurasi LNet di semua instance Compute Engine klien untuk menggunakan accept_port 6988. Lihat Mengonfigurasi LNet untuk instance gke-support-enabled.

Untuk menentukan apakah instance yang ada dikonfigurasi dengan tanda lama ini, jalankan perintah berikut:

gcloud lustre instances describe INSTANCE_NAME \
  --location=LOCATION | grep gkeSupportEnabled

Jika perintah menampilkan gkeSupportEnabled: true, Anda harus mengonfigurasi LNet di VM klien.

Versi kernel Ubuntu tidak cocok dengan klien Lustre

Untuk instance Compute Engine yang menjalankan Ubuntu, versi kernel Ubuntu harus cocok dengan versi tertentu paket klien Lustre. Jika alat klien Lustre Anda gagal, periksa apakah instance Compute Engine Anda telah diupgrade otomatis ke kernel yang lebih baru.

Untuk memeriksa versi kernel Anda:

uname -r

Respons akan terlihat seperti ini:

6.8.0-1029-gcp

Untuk memeriksa versi paket klien Lustre Anda:

dpkg -l | grep -i lustre

Respons akan terlihat seperti ini:

ii  lustre-client-modules-6.8.0-1029-gcp 2.14.0-ddn198-1  amd64  Lustre Linux kernel module (kernel 6.8.0-1029-gcp)
ii  lustre-client-utils                  2.14.0-ddn198-1  amd64  Userspace utilities for the Lustre filesystem (client)

Jika ada ketidakcocokan antara versi kernel yang tercantum dari kedua perintah, Anda harus menginstal ulang paket klien Lustre.

Periksa dmesg untuk mengetahui error Lustre

Banyak peringatan dan error Lustre dicatat ke ring buffer kernel Linux. Perintah dmesg mencetak buffer ring kernel.

Untuk menelusuri pesan khusus Lustre, gunakan grep bersama dengan dmesg:

dmesg | grep -i lustre

Atau, untuk mencari error yang lebih umum yang mungkin terkait:

dmesg | grep -i error

Pemasangan Lustre di VM multi-NIC gagal

Jika VM memiliki beberapa pengontrol antarmuka jaringan (NIC), dan instance Managed Lustre berada di VPC yang terhubung ke NIC sekunder (misalnya, eth1), pemasangan instance dapat gagal. Untuk mengatasi masalah ini, ikuti petunjuk untuk melakukan pemasangan menggunakan NIC sekunder.

Tidak dapat terhubung dari rentang subnet 172.17.0.0/16

Klien Compute Engine dan GKE dengan alamat IP dalam rentang subnet 172.17.0.0/16 tidak dapat memasang instance Managed Lustre.

Tidak dapat mengakses Managed Lustre dari project yang di-peering

Untuk mengakses instance Managed Lustre dari VM di jaringan VPC yang di-peering, Anda harus menggunakan Network Connectivity Center (NCC). NCC memungkinkan Anda menghubungkan beberapa jaringan VPC dan jaringan lokal ke hub pusat, sehingga menyediakan konektivitas di antara keduanya.

Untuk mengetahui petunjuk cara menyiapkan NCC, lihat dokumentasi Network Connectivity Center.

Pemasangan gagal di Shielded VM (Booting Aman)

Managed Lustre tidak dapat di-mount di Shielded VM. Mencoba memuat modul kernel Lustre di lingkungan Booting Aman akan gagal dengan error: ERROR: could not insert 'lustre': Required key not available.

Informasi yang harus disertakan dalam permintaan dukungan

Jika Anda tidak dapat menyelesaikan kegagalan pemasangan, kumpulkan informasi diagnostik sebelum membuat kasus dukungan.

Jalankan sosreport: Utilitas ini mengumpulkan log sistem dan informasi konfigurasi serta menghasilkan tarball terkompresi:

sudo sosreport

Lampirkan arsip sosreport dan output yang relevan dari dmesg ke kasus dukungan Anda.