이 페이지에서는 AI 최적화 VM 또는 클러스터를 실행하는 동안 발생할 수 있는 알려진 문제를 설명합니다. Compute Engine VM 관련 문제는 Compute Engine 알려진 문제를 참고하세요.
문제
다음 섹션에는 AI 하이퍼컴퓨터의 알려진 문제와 해결 방법이 나열되어 있습니다.
NVIDIA B200 GPU의 펌웨어 문제로 인한 A4 VM의 워크로드 중단
NVIDIA는 A4 VM에서 사용되는 B200 GPU에 워크로드 중단을 일으키는 두 가지 펌웨어 문제를 확인했습니다. 특히 A4 VM에서 워크로드 중단이 발생하면 다음 중 하나가 참인지 확인하세요.
- VM의 가동시간(
lastStartTimestamp필드)이 65일을 초과합니다. - 로그에
0x02a를 언급하는Xid 149메시지가 표시됩니다.
이 문제를 해결하려면 GPU를 재설정하는 것이 좋습니다. 이 문제를 방지하려면 60일마다 최소 한 번씩 A4 VM의 GPU를 재설정하는 것이 좋습니다.
메타데이터 서버에 이전 physicalHost VM 메타데이터가 표시될 수 있음
호스트 오류가 발생한 후 또는 결함이 있는 호스트 신고 API를 사용하여 컴퓨팅 인스턴스를 새 호스트로 이동한 후 메타데이터 서버를 쿼리하면 컴퓨팅 인스턴스의 이전 호스트의 physicalHost 메타데이터가 표시될 수 있습니다.
이 문제를 해결하려면 다음 방법 중 하나를 따르세요.
instances.get메서드 또는gcloud compute instances describe명령어를 사용하여 올바른physicalHost정보를 가져옵니다.- 인스턴스를 중지한 후 시작합니다. 이 프로세스는 메타데이터 서버의
physicalHost정보를 업데이트합니다. - 영향을 받는 인스턴스의
physicalHost정보가 업데이트될 때까지 24시간 동안 기다립니다.