알려진 문제

이 페이지에서는 AI 최적화 VM 또는 클러스터를 실행하는 동안 발생할 수 있는 알려진 문제를 설명합니다. Compute Engine VM 관련 문제는 Compute Engine 알려진 문제를 참고하세요.

문제

다음 섹션에는 AI Hypercomputer의 알려진 문제와 해결 방법이 나열되어 있습니다.

NVIDIA B200 GPU의 펌웨어 문제로 인해 A4 VM에서 워크로드가 중단됨

NVIDIA는 A4 VM에서 사용되는 B200 GPU에 워크로드 중단을 일으키는 두 가지 펌웨어 문제를 확인했습니다. 특히 A4 VM에서 워크로드 중단이 발생하면 다음 중 하나가 참인지 확인하세요.

이 문제를 해결하려면 GPU를 재설정하는 것이 좋습니다. 이 문제를 방지하려면 60일마다 한 번 이상 A4 VM의 GPU를 재설정하는 것이 좋습니다.

참고: GKE에서 실행하는 경우 gpu-reset-tool을 사용하여 GPU를 재설정할 수 있습니다. 이 도구는 재설정 프로세스를 자동화하며 타겟 노드 이름만 필요합니다.

메타데이터 서버에 이전 physicalHost VM 메타데이터가 표시될 수 있음

호스트 오류가 발생하거나 결함이 있는 호스트 API 보고를 사용하여 인스턴스를 새 호스트로 이동한 후 메타데이터 서버를 쿼리하면 인스턴스의 이전 호스트의 physicalHost 메타데이터가 표시될 수 있습니다.

이 문제를 해결하려면 다음 방법 중 하나를 따르세요.