클라이언트 연결 문제 해결

클라이언트 VM 또는 인스턴스에서 Managed Lustre 파일 시스템을 마운트하거나 연결하는 데 문제가 발생하면 다음 단계에 따라 문제를 진단하세요.

Managed Lustre 인스턴스에 연결할 수 있는지 확인

먼저 클라이언트 인스턴스에서 Managed Lustre 인스턴스에 연결할 수 있는지 확인합니다.

sudo lctl ping IP_ADDRESS@tcp

IP_ADDRESS 값을 가져오려면 인스턴스 가져오기를 참조하세요.

핑이 성공하면 다음과 비슷한 응답이 반환됩니다.

12345-0@lo
12345-10.115.0.3@tcp

핑이 실패하면 다음이 반환됩니다.

failed to ping 10.115.0.3@tcp: Input/output error

핑이 실패하면 다음을 수행합니다.

  • Managed Lustre 인스턴스와 클라이언트 인스턴스가 동일한 VPC 네트워크에 있는지 확인합니다. 다음 명령어의 출력을 비교합니다.

    gcloud compute instances describe VM_NAME \
      --zone=VM_ZONE \
      --format='get(networkInterfaces[0].network)'
    
    gcloud lustre instances describe INSTANCE_NAME \
      --location=ZONE --format='get(network)'
    

    출력 형식은 다음과 같습니다.

    https://www.googleapis.com/compute/v1/projects/my-project/global/networks/my-network
    projects/my-project/global/networks/my-network
    

    gcloud compute instances describe 명령어의 출력은 https://www.googleapis.com/compute/v1/로 시작합니다. 이 문자열 뒤에 오는 모든 항목은 gcloud lustre instances describe 명령어의 출력과 일치해야 합니다.

  • VPC 네트워크의 방화벽 규칙 및 라우팅 구성을 검토하여 클라이언트 인스턴스와 Managed Lustre 인스턴스 간의 트래픽을 허용하는지 확인합니다.

LNet 수락 포트 확인 (기존 인스턴스)

--gke-support-enabled 플래그는 지원 중단되었으며 새 Managed Lustre 인스턴스를 만들 때 더 이상 필요하지 않지만 이 플래그로 생성된 기존의 이전 인스턴스가 있을 수 있습니다.

GKE 지원이 사용 설정된 기존 인스턴스에 연결하는 경우 모든 클라이언트 Compute Engine 인스턴스에서 accept_port 6988을 사용하도록 LNet을 구성해야 합니다. 인스턴스의 LNet 구성을 참조하세요.gke-support-enabled

기존 인스턴스가 이 기존 플래그로 구성되었는지 확인하려면 다음 명령어를 실행합니다.

gcloud lustre instances describe INSTANCE_NAME \
  --location=LOCATION | grep gkeSupportEnabled

명령어가 gkeSupportEnabled: true를 반환하면 클라이언트 VM에서 LNet을 구성해야 합니다.

Ubuntu 커널 버전이 Lustre 클라이언트와 일치하지 않음

Ubuntu를 실행하는 Compute Engine 인스턴스의 경우 Ubuntu 커널 버전이 Lustre 클라이언트 패키지의 특정 버전과 일치해야 합니다. Lustre 클라이언트 도구가 실패하면 Compute Engine 인스턴스가 최신 커널로 자동 업그레이드되었는지 확인합니다.

커널 버전을 확인하려면 다음을 실행합니다.

uname -r

응답은 다음과 같습니다.

6.8.0-1029-gcp

Lustre 클라이언트 패키지 버전을 확인하려면 다음을 실행합니다.

dpkg -l | grep -i lustre

응답은 다음과 같습니다.

ii  lustre-client-modules-6.8.0-1029-gcp 2.14.0-ddn198-1  amd64  Lustre Linux kernel module (kernel 6.8.0-1029-gcp)
ii  lustre-client-utils                  2.14.0-ddn198-1  amd64  Userspace utilities for the Lustre filesystem (client)

두 명령어에서 나열된 커널 버전이 일치하지 않으면, Lustre 클라이언트 패키지를 다시 설치해야 합니다.

Lustre 오류에 대한 dmesg 확인

많은 Lustre 경고와 오류가 Linux 커널 링 버퍼에 기록됩니다. dmesg 명령어는 커널 링 버퍼를 출력합니다.

Lustre 관련 메시지를 검색하려면 dmesg와 함께 grep을 사용합니다.

dmesg | grep -i lustre

또는 관련이 있을 수 있는 더 일반적인 오류를 찾으려면 다음을 실행합니다.

dmesg | grep -i error

다중 NIC VM에서 Lustre 마운트 실패

VM에 여러 네트워크 인터페이스 컨트롤러 (NIC)가 있고 Managed Lustre 인스턴스가 보조 NIC(예: eth1)에 연결된 VPC에 있는 경우 인스턴스 마운트가 실패할 수 있습니다. 이 문제를 해결하려면 보조 NIC를 사용하여 마운트하는 안내를 따르세요.

172.17.0.0/16 서브넷 범위에서 연결할 수 없음

172.17.0.0/16 서브넷 범위의 IP 주소가 있는 Compute Engine 및 GKE 클라이언트는 Managed Lustre 인스턴스를 마운트할 수 없습니다.

피어링된 프로젝트에서 Managed Lustre에 액세스할 수 없음

피어링된 VPC 네트워크의 VM에서 Managed Lustre 인스턴스에 액세스하려면 Network Connectivity Center (NCC)를 사용해야 합니다. NCC를 사용하면 여러 VPC 네트워크와 온프레미스 네트워크를 중앙 허브에 연결하여 서로 연결할 수 있습니다.

NCC를 설정하는 방법은 Network Connectivity Center 문서를 참조하세요.

보안 VM (보안 부팅)에서 마운트 실패

Managed Lustre는 보안 VM에 마운트할 수 없습니다. 보안 부팅 환경에서 Lustre 커널 모듈을 로드하려고 하면 오류와 함께 실패합니다: ERROR: could not insert 'lustre': Required key not available.

지원 요청에 포함할 정보

마운트 실패를 해결할 수 없는 경우 지원 케이스를 만들기 전에 진단 정보를 수집하세요.

sosreport 실행: 이 유틸리티는 시스템 로그와 구성 정보를 수집하고 압축된 tarball을 생성합니다.

sudo sosreport

sosreport 아카이브와 dmesg의 관련 출력을 지원 케이스에 첨부합니다.