알려진 문제

이 페이지에서는 AI 최적화 VM 또는 클러스터를 실행하는 동안 발생할 수 있는 알려진 문제를 설명합니다. Compute Engine VM 관련 문제는 Compute Engine 알려진 문제를 참고하세요.

문제

다음 섹션에는 AI 하이퍼컴퓨터의 알려진 문제와 해결 방법이 나열되어 있습니다.

NVIDIA B200 GPU의 펌웨어 문제로 인한 A4 VM의 워크로드 중단

NVIDIA는 A4 VM에서 사용되는 B200 GPU에 워크로드 중단을 일으키는 두 가지 펌웨어 문제를 확인했습니다. 특히 A4 VM에서 워크로드 중단이 발생하면 다음 중 하나가 참인지 확인하세요.

이 문제를 해결하려면 GPU를 재설정하는 것이 좋습니다. 이 문제를 방지하려면 60일마다 최소 한 번씩 A4 VM의 GPU를 재설정하는 것이 좋습니다.

메타데이터 서버에 이전 physicalHost VM 메타데이터가 표시될 수 있음

호스트 오류가 발생한 후 또는 결함이 있는 호스트 신고 API를 사용하여 컴퓨팅 인스턴스를 새 호스트로 이동한 후 메타데이터 서버를 쿼리하면 컴퓨팅 인스턴스의 이전 호스트의 physicalHost 메타데이터가 표시될 수 있습니다.

이 문제를 해결하려면 다음 방법 중 하나를 따르세요.