이 페이지에서는 AI 최적화 VM 또는 클러스터를 실행하는 동안 발생할 수 있는 알려진 문제를 설명합니다. Compute Engine VM 관련 문제는 Compute Engine 알려진 문제를 참고하세요.
문제
다음 섹션에는 AI Hypercomputer의 알려진 문제와 해결 방법이 나열되어 있습니다.
NVIDIA B200 GPU의 펌웨어 문제로 인해 A4 VM에서 워크로드가 중단됨
NVIDIA는 A4 VM에서 사용되는 B200 GPU에 워크로드 중단을 일으키는 두 가지 펌웨어 문제를 확인했습니다. 특히 A4 VM에서 워크로드 중단이 발생하면 다음 중 하나가 참인지 확인하세요.
- VM의 가동시간(
lastStartTimestamp필드)이 65일을 초과합니다. - 로그에
0x02a를 언급하는Xid 149메시지가 표시됩니다.
이 문제를 해결하려면 GPU를 재설정하는 것이 좋습니다. 이 문제를 방지하려면 60일마다 한 번 이상 A4 VM의 GPU를 재설정하는 것이 좋습니다.
참고: GKE에서 실행하는 경우 gpu-reset-tool을 사용하여 GPU를 재설정할 수 있습니다. 이 도구는 재설정 프로세스를 자동화하며 타겟 노드 이름만 필요합니다.
메타데이터 서버에 이전 physicalHost VM 메타데이터가 표시될 수 있음
호스트 오류가 발생하거나 결함이 있는 호스트 API 보고를 사용하여 인스턴스를 새 호스트로 이동한 후 메타데이터 서버를 쿼리하면 인스턴스의 이전 호스트의 physicalHost 메타데이터가 표시될 수 있습니다.
이 문제를 해결하려면 다음 방법 중 하나를 따르세요.
instances.get메서드 또는gcloud compute instances describe명령어를 사용하여 올바른physicalHost정보를 가져옵니다.- 인스턴스를 중지한 후 시작합니다. 이 프로세스는 메타데이터 서버의
physicalHost정보를 업데이트합니다. - 영향을 받는 인스턴스의
physicalHost정보가 업데이트될 때까지 24시간 동안 기다립니다.