GKE 문제 해결

이 페이지에는 Google Kubernetes Engine(GKE)을 사용할 때 발생할 수 있는 일반적인 문제의 문제 해결 페이지가 나와 있습니다. 이 페이지는 GKE 구성 문제를 해결하는 관리자 및 설계자, 보안 전문가, 네트워킹 전문가 또는 스토리지 전문가를 대상으로 합니다. GKE 역할을 자세히 알아보려면 일반 GKE Enterprise 사용자 역할 및 태스크를 참조하세요.

GKE 문제 해결을 처음 접하거나 기본 도구와 기술에 대한 간략한 개요를 확인하려면 문제 해결 소개를 참조하세요.

GKE 인프라 작업의 다양한 단계에서 발생하는 문제를 진단하고 해결하려면 다음 섹션을 참조하세요.

이 페이지에서는 다음과 같은 일반적인 문제 해결 주제도 제공합니다.

GKE 네트워킹 문제를 해결하려면 GKE 네트워킹 문서의 GKE 네트워킹 문제 해결을 참조하세요.

문제 해결 소개

주제 설명
GKE 문제 해결 소개 전반적인 프로세스와 기본 개념을 알아보고 GKE 문제 해결을 시작합니다.
서비스 상태 및 인시던트 검토 GKE 및 관련 Google Cloud 서비스의 상태를 확인하여 플랫폼 문제를 제외하는 방법을 알아봅니다.
Google Cloud 콘솔에서 클러스터 및 워크로드 상태 평가 Google Cloud 콘솔을 사용하여 GKE 문제를 조사하고 해결하는 방법을 알아봅니다.
kubectl로 클러스터 상태 조사하기 클러스터 및 워크로드의 문제를 진단하기 위한 일반적인 kubectl 명령어와 기법을 살펴봅니다.
Cloud Logging으로 기록 분석 실행 Cloud Logging을 효과적으로 사용하여 GKE의 문제 원인을 찾는 방법을 알아봅니다.
Cloud Monitoring으로 사전 예방적 모니터링 실행 Cloud Monitoring 대시보드와 측정항목을 활용하여 GKE 문제를 식별, 진단, 해결합니다.
Gemini Cloud Assist로 진단 가속화 Gemini가 GKE 문제 진단 및 해결에 어떻게 도움이 되는지 알아봅니다.
종합해 보기: 문제 해결 시나리오 예 GKE에서 일반적인 시나리오의 문제를 해결하는 단계별 예를 따릅니다.

클러스터 설정

주제 설명
클러스터 만들기 클러스터 생성 문제를 해결합니다.
Autopilot 클러스터 클러스터 생성, 네임스페이스 삭제, 확장, 워크로드 문제를 포함한 GKE Autopilot 클러스터를 진단하고 문제를 해결합니다.
kubectl 명령줄 도구 인증, 승인 문제를 포함한 GKE의 kubectl 명령줄 도구 문제를 해결합니다. 이 페이지에는 kubectl logs, attach, exec 또는 port-forward 명령어로 인해 응답이 중지하는지 확인하기 위해 Konnectivity 프록시 문제를 해결하는 방법에 대한 조언도 포함되어 있습니다.
Standard 노드 풀 노드 풀 생성, 최적의 프로비저닝, 손상된 인스턴스 메타데이터, 새 노드 풀로 워크로드 마이그레이션을 포함한 GKE Standard 노드 풀 관련 문제를 해결합니다.
노드 등록 노드 등록 실패, 성공적인 노드 등록을 위한 필수 요건 누락과 같은 GKE Standard 클러스터에 노드를 추가할 때 발생하는 문제를 해결합니다.
컨테이너 런타임 containerddockershim, 비공개 레지스트리 관련 문제를 포함한 GKE의 컨테이너 런타임 문제를 해결합니다.

자동 확장

주제 설명
클러스터 자동 확장 처리가 축소되지 않음 클러스터에서 활용도가 낮은 노드를 삭제하지 않는 일반적인 이유를 진단하고 해결합니다. 제한적인 PodDisruptionBudgets, 로컬 스토리지가 있는 포드 또는 노드 퇴출을 방지하는 특정 주석(예: "cluster-autoscaler.kubernetes.io/safe-to-evict": "false")과 같은 문제를 확인하는 방법을 알아봅니다.
클러스터 자동 확장 처리가 확장되지 않음 클러스터 자동 확장 처리가 수요를 충족하기 위해 새 노드를 추가하지 않는 이유를 알아보세요. 예약할 수 없는 포드를 확인하고, 클러스터 또는 노드 풀 크기 한도에 도달하지 않았는지 확인하고, 잠재적인 리소스 할당량 또는 리전 VM 가용성 문제를 식별합니다.
수평형 포드 자동 확장 애플리케이션의 포드 복제본을 확장하지 않는 수평형 포드 자동 확장 처리의 문제 해결 잘못 구성된 HorizontalPodAutoscaler 객체 또는 측정항목 파이프라인 문제와 같은 일반적인 문제를 해결합니다.

스토리지

주제 설명
스토리지 리전 영구 디스크, 디스크 성능, 볼륨 확장 관련 문제를 포함한 스토리지 문제를 해결합니다.

클러스터 보안

주제 설명
인증 RBAC, GKE용 워크로드 아이덴티티 제휴, GKE 메타데이터 서버 관련 문제를 포함한 GKE의 인증 문제를 해결합니다.
서비스 계정 기본 서비스 계정 복원 및 Compute Engine 기본 서비스 계정 사용 설정을 포함한 서비스 계정 문제를 해결합니다.
애플리케이션 레이어 보안 비밀 업데이트 실패, Cloud KMS 키를 사용할 수 없는 경우 또는 Cloud KMS 키 버전이 폐기된 경우 오류를 포함한 애플리케이션 계층 보안 비밀 암호화를 구성할 때 발생할 수 있는 문제를 해결합니다.

클러스터의 루트 인증 기관이 곧 만료됨

주제 설명
루트 인증 기관(CA) 만료 클러스터의 루트 인증 기관(CA)이 곧 만료되는 경우 일반적인 클러스터 작업이 중단되지 않도록 사용자 인증 정보 순환을 수행하는 방법을 알아봅니다.

워크로드

주제 설명
배포된 워크로드 PodUnschedulable을 포함하여 GKE 클러스터에서 실행되는 워크로드의 오류를 해결합니다. MatchNodeSelectorDoes not have minimum availability와 같은 오류에 대한 조언은 PodUnschedulable 섹션을 참조하세요.
이미지 가져오기 이미지 가져오기 문제를 해결합니다. ImagePullBackOffErrImagePull과 같은 상태가 발생하는 원인과 인증 및 네트워크 연결과 같은 일반적인 문제를 해결하여 이러한 상태를 해결하는 방법을 알아봅니다.
CrashLoopBackOff 이벤트 GKE에서 CrashLoopBackOff 이벤트 문제를 해결합니다. 리소스 소진, 앱 구성 오류, 활성 프로브 실패와 같은 문제를 진단합니다.
OOM 이벤트 Kubernetes 메모리 부족(OOM) 이벤트 문제를 해결합니다. 원인을 파악하고 이벤트 유형을 구분하며 컨테이너 및 노드 수준 OOM 종료 모두에 효과적인 솔루션을 적용합니다.
Arm 워크로드 Arm 노드에서 포드 비정상 종료를 포함한 Arm 워크로드 관련 문제를 해결합니다.
TPU 할당량, 노드 자동 프로비저닝, 워크로드 구성, 예약과 관련된 문제를 포함한 TPU 문제를 해결합니다.
GPU GPU 드라이버 설치, 기기 플러그인 오류, 컨테이너 이미지와 관련된 문제를 포함한 GPU 문제를 해결합니다.

클러스터 관리

주제 설명
클러스터 업그레이드 길거나 불완전한 업그레이드, 예기치 않은 자동 업그레이드, 실패, 업그레이드 후 문제 등 GKE 클러스터 및 노드 업그레이드 문제를 해결합니다.
웹훅 허용 웹훅을 사용할 때 클러스터 컨트롤 플레인의 안정성을 보장하고 문제를 해결하는 방법을 알아봅니다.
네임스페이스가 Terminating 상태로 정지함 삭제를 차단하는 비정상 구성요소를 식별하고 삭제하여 Terminating 상태로 멈춘 네임스페이스 관련 문제를 해결합니다.
동시 작업 작업이 완료될 때까지 기다려 이러한 오류를 식별하고 해결하는 방법을 알아 동시 작업을 문제 해결합니다.

모니터링

주제 설명
시스템 측정항목 시스템 측정항목이 Cloud Monitoring에 표시되지 않는 문제를 해결합니다.
모니터링 대시보드 모니터링 사용 설정, 누락된 Kubernetes 리소스, 권한 관련 문제를 포함한 모니터링 대시보드 문제를 해결합니다.
로깅 로깅 사용 설정, 로그 누락, 할당량 관련 문제를 포함한 로깅 문제를 해결합니다.

4xx 오류

주제 설명
4xx 오류 GKE를 사용할 때 발생할 수 있는 400, 401, 403, 404 오류를 해결합니다. 이 페이지에는 계정에서 수정 권한 누락 오류를 해결하는 방법에 대한 정보도 포함되어 있습니다.

알려진 문제

주제 설명
알려진 문제 GKE 사용에 영향을 미칠 수 있는 알려진 문제를 식별하고 해결합니다.

다음 단계

  • 문서에서 문제 해결 방법을 찾을 수 없으면 지원 받기를 참조하여 다음 주제에 대한 조언을 포함한 추가 도움을 요청하세요.