Google은 Google Distributed Cloud connected 하드웨어를 원격으로 모니터링하고 유지보수합니다. 이를 위해 Google 엔지니어는 Distributed Cloud 연결 하드웨어에 대한 보안 셸 (SSH) 액세스 권한을 보유합니다. Google에서 문제를 감지하면 Google 엔지니어가 연락하여 문제를 해결합니다. 문제를 직접 확인한 경우 즉시 Google 지원팀에 문의하여 진단하고 해결하세요.
Distributed Cloud Connected 머신 연결
이 섹션에서는 Cloud Monitoring의 측정항목 탐색기 기능을 사용하여 Distributed Cloud에 연결된 머신의 인터넷 및 Google Cloud 연결을 확인하는 방법을 설명합니다.
이 절차에서는 다음 모니터링 측정항목을 사용합니다.
Machine Connected (
/machine/connected): 기기가 Google Cloud에 연결되어 있는지 여부를 나타냅니다.네트워크 연결 (
/machine/network/connectivity): 머신의 기본 네트워크 인터페이스에 인터넷 연결이 있는지 나타냅니다.
이 섹션의 단계를 완료하려면 다음 기본 요건을 충족해야 합니다.
- Google Cloud 콘솔 및 Distributed Cloud에 연결된 Google Cloud 프로젝트에 대한 액세스 권한
- Monitoring 측정항목을 볼 수 있는 Monitoring 뷰어 IAM 역할
- (선택사항) 반환된 결과를 필터링하기 위한 타겟 Distributed Cloud Connected 머신의
machine_id값입니다.
측정항목 탐색기를 사용하여 머신 연결 확인
측정항목 탐색기로 이동합니다.
Google Cloud 콘솔에서 Monitoring 섹션으로 이동합니다.
왼쪽 탐색 트리에서 측정항목 탐색기를 클릭합니다.
타겟 리소스 유형을 선택합니다.
측정항목 탐색기 페이지에서 쿼리 페이지로 이동합니다.
검색창을 사용하여 머신 리소스 유형을 검색합니다. 전체 리소스 식별자
edgecontainer.googleapis.com/Machine를 사용할 수도 있습니다.반환된 결과에서 머신 리소스 유형을 클릭합니다.
머신이 Google Cloud에 연결되어 있는지 확인합니다.
측정항목 섹션에서
connected값을 검색합니다.Machine Connected 측정항목을 선택합니다. 전체 경로는
edgecontainer.googleapis.com/machine/connected입니다.(선택사항) 필터 섹션을 사용하여 타겟
machine_id값으로 필터링합니다.표시되는 시간 차트에서 정상 선이 100%로 연속적으로 유지되는지 확인합니다. 이 값이 0% 또는 비정상인 시점에는 머신이 표시된 시간에 Google Cloud 와의 연결이 끊긴 것입니다.
머신의 인터넷 연결을 확인합니다.
측정항목 섹션에서
connectivity값을 검색합니다.네트워크 연결 측정항목을 선택합니다. 전체 경로는
edgecontainer.googleapis.com/machine/network/connectivity입니다.(선택사항) 필터 섹션을 사용하여 타겟
machine_id값으로 필터링합니다.표시되는 시간 차트에서 정상 선이 100%로 연속적으로 유지되는지 확인합니다. 이 값이 어느 시점에서든 0% 비정상이면 표시된 시간에 머신의 인터넷 연결이 끊긴 것입니다.
유효성 검사 결과 이해
다음 표에서는 측정항목 탐색기에서 반환되는 결과를 설명합니다.
| 머신 상태 | 진단 | 해결 방법 |
|---|---|---|
| 정상 '머신 연결됨' 측정항목 값이 1입니다.'네트워크 연결' 측정항목 값이 1입니다. |
정상 작동 | 없음 |
| 연결 해제됨 '머신 연결됨' 측정항목 값은 0'네트워크 연결' 측정항목 값은 1 |
머신이 인터넷에 연결되어 있지만 Google Cloud에 연결할 수 없습니다. | Google 서비스 및 API 엔드포인트의 [방화벽 규칙](distributed-cloud/connected/latest/docs/requirements#connected_management_and_monitoring_traffic)을 확인합니다. Distributed Cloud 연결 에이전트가 머신에서 실행 중인지 확인합니다. |
| 격리됨 '머신 연결됨' 측정항목 값이 0'네트워크 연결' 측정항목 값이 0 |
머신이 인터넷에 연결되어 있지 않습니다. | 전원 및 네트워크 케이블 연결, 로컬 네트워크 구성, 머신 LED 상태를 확인합니다. VLAN 및 라우팅 구성을 확인합니다. |
| 간헐적 '머신 연결됨' 측정항목 값이 0과 1 사이에서 번갈아 표시됨'네트워크 연결' 측정항목 값이 0과 1 사이에서 번갈아 표시됨 |
불안정한 네트워크 연결, 패킷 손실 또는 과도한 지연 시간 | 로컬 네트워크에 혼잡이 있는지, 하드웨어에 결함이 있는지 확인합니다. |
두 측정항목 중 하나의 0 값이 지속적으로 표시되면 표에 설명된 문제 해결 단계에 따라 문제를 해결하세요. 문제가 계속되면 영향을 받는 컴퓨터의 machine_id 값과 서비스 중단 타임스탬프를 포함하여 Google 지원팀에 문의하세요.
가상 머신이 Pending 상태로 멈춤
다음 중 하나가 발생하면 가상 머신 워크로드가 Pending 상태에서 멈추고 노드에 예약되지 않을 수 있습니다.
- Distributed Cloud Connected가 CPU 시간, 메모리, 디스크 공간과 같은 요청된 리소스를 가상 머신에 할당할 수 없습니다.
- 가상 머신의 구성에 오류가 있습니다.
- 가상 머신의 스토리지에 결함이 있습니다.
- 타겟 노드가 오염되었습니다.
이 문제를 해결하려면 다음 단계를 따르세요.
클러스터 사용자 인증 정보 가져오기에 설명된 대로 클러스터 사용자 인증 정보를 가져옵니다.
영향을 받는 가상 머신에 대한 정보를 확인합니다.
kubectl describe virtualmachine VM_NAME -n NAMESPACE
다음을 바꿉니다.
VM_NAME: 대상 가상 머신의 이름입니다.NAMESPACE: 대상 가상 머신의 네임스페이스입니다.
이 명령어는 다음과 유사한 출력을 반환합니다.
Status: ... State: Pending ... Events: Type Reason Age From Message ---- ------ ---- ---- ------- Normal SuccessfulCreate 15m virtualmachine-controller Created virtual machine my-stuck-vm Warning DiskProvisioningFailed 14m virtualmachine-controller Failed to provision disk: DataVolume my-stuck-vm-data-disk not ready Warning PVCNotBound 14m virtualmachine-controller PersistentVolumeClaim my-stuck-vm-data-disk is in phase Pending Warning VMINotCreated 10m virtualmachine-controller VirtualMachineInstance cannot be created: dependencies not ready명령어의 출력에는 리소스 제약, 예약 실패, 스토리지 오류 및 기타 문제를 나타낼 수 있는 메시지가 포함됩니다.
다음 섹션에 설명된 대로 출력을 검사하여 예약 실패의 원인을 확인합니다.
리소스 부족
CPU, 메모리, 디스크 공간과 같은 리소스가 부족하다는 메시지가 표시될 수 있습니다. 예를 들면 다음과 같습니다.
5/8 nodes are available: 3 Insufficient memory, 3 Insufficient CPU.
이 문제를 해결하려면 영향을 받는 가상 머신과 노드에서 예약된 다른 워크로드에 할당된 리소스를 확인한 후 비즈니스 요구사항에 따라 다음을 실행하세요.
- 노드에 예약된 다른 워크로드를 축소합니다.
- 영향을 받는 가상 머신에 할당된 리소스의 양을 줄입니다.
- 영향을 받는 클러스터에 머신을 더 추가합니다.
taint된 노드
타겟 노드가 오염되었다는 메시지가 표시될 수 있습니다. 예를 들면 다음과 같습니다.
5/8 nodes are available: 3 node(s) had taint {<taint-key>:<taint-value>}, that the pod didn't tolerate.
이 문제를 해결하려면 다음 단계를 따르세요.
다음 명령어를 사용하여 노드의 taint를 확인합니다.
kubectl get nodes -o custom-columns=NAME:.metadata.name,TAINTS:.spec.taints
이 명령어는 다음과 유사한 출력을 반환합니다.
NAME TAINTS node-name-1 [map[effect:PreferNoSchedule key:node-role.kubernetes.io/master] map[effect:PreferNoSchedule key:node-role.kubernetes.io/control-plane]] node-name-2 <none>다음 중 하나를 수행합니다.
- 예기치 않은 taint는 taint 및 톨러레이션(toleration)에 설명된 대로 삭제합니다.
- 예상되는 taint의 경우 taint 및 톨러레이션(toleration)에 설명된 대로 가상 머신의 구성에 해당 톨러레이션을 추가합니다.
스토리지 오류
가상 머신의 스토리지에 오류가 있음을 나타내는 메시지가 표시될 수 있습니다. 예를 들면 다음과 같습니다.
5/8 nodes are available: 3 node(s) had volume node affinity conflict, 3 node(s) had unbound immediate PersistentVolumeClaims.
이 메시지는 해당 영구 볼륨이 타겟 노드에 마운트되지 않았음을 나타낼 수 있습니다.
이 문제를 해결하려면 다음 단계를 따르세요.
다음 명령어를 사용하여 영향을 받는 가상 머신의 네임스페이스에 있는 영구 볼륨 클레임 (PVC)의 상태를 가져옵니다.
kubectl get pvc -n NAMESPACE
NAMESPACE을 대상 네임스페이스의 이름으로 바꿉니다.이 명령어는 다음과 유사한 출력을 반환합니다.
NAME STATUS VOLUME CAPACITY ACCESS MODES STORAGECLASS AGE windows-robin-disk-0 Bound pvc-b1a1d264-84bf-4e58-857d-f37f629d5082 25Gi RWX robin-block-immediate 30h windows-robin-disk-1 Bound pvc-0130b9a8-7fed-4df0-8226-d79273792a16 25Gi RWX robin-block-immediate 30h windows-robin-vm-0-restored-windows-robin-disk-0 Pending gce-pd-gkebackup-in 26m해당 PVC의 상태가
Bound인지 확인합니다. 상태가Pending이면 스토리지 하위 시스템에서 볼륨 프로비저닝에 실패한 것입니다. 이러한 경우 저장소 하위 시스템 구성을 문제 해결하고 적절한StorageClass를 사용할 수 있는지 확인해야 합니다.