ML 진단 플랫폼
Google Cloud ML 진단은 Google Cloud에서 AI 및 ML 워크로드를 최적화하고 진단하기 위한 엔드 투 엔드 관리형 플랫폼입니다. ML 진단을 사용하여 단일 플랫폼 내에서 모든 워크로드 측정항목, 구성, 프로필을 수집하고 시각화합니다. ML 진단은 학습 및 추론 워크로드 모두에 적용되며 Google Kubernetes Engine (GKE) 및 맞춤 오케스트레이터를 비롯한 Cloud TPU의 모든 오케스트레이터와 호환됩니다. ML 진단에는 다음 기능이 포함됩니다.
- 머신러닝 실행: ML Diagnostics를 사용하여 Google Cloud CLI를 통해 머신러닝 실행을 만들고 등록하거나 ML Diagnostics SDK를 워크로드와 통합합니다. 머신러닝 실행으로 관리형 XProf 인스턴스를 배포하고 워크로드 측정항목, 구성, 프로필 세션을 수집하고 관리할 수 있습니다.
- gcloud CLI 환경: gcloud CLI를 통해 ML 진단 API를 사용하여 실행을 등록 및 관리하고, 관리형 XProf 리소스를 배포하고, 스토리지 버킷에서 프로필 세션을 시각화하고, CLI에서 프로필 캡처를 트리거합니다.
- Python SDK: ML 워크로드와 통합된 오픈소스 ML 진단 SDK를 사용하여 완전한 ML 워크로드 진단 환경을 제공합니다. Google Cloud에서 워크로드 측정항목, 구성, 프로필을 수집하고 관리합니다.
- 관리형 프로파일링: ML 진단은 확장 가능한 백엔드가 있는 XProf의 관리형 인스턴스를 연결된 계정에 배포하여 대규모 프로필을 빠르게 로드할 수 있도록 합니다. 여러 사용자가 동시에 프로필에 액세스하는 것을 지원하며 멀티 호스트 프로파일링 및 주문형 프로파일링과 같은 기본 제공 기능이 포함되어 있습니다.
- 워크로드 측정항목: 모델 품질, 모델 성능, 시스템 측정항목을 비롯한 워크로드 측정항목을 추적합니다.
- 워크로드 구성 관리: 소프트웨어 구성, 시스템 구성, 사용자 정의 구성을 비롯한 워크로드 구성을 추적합니다.
- 클러스터 디렉터 및 GKE의 시각화: Google Cloud 콘솔에서 클러스터 디렉터 및 Google Kubernetes Engine의 측정항목, 구성, 프로필을 시각화합니다.
- 링크 공유: 프로필 및 머신러닝 실행 정보를 위한 공유 가능한 링크를 사용하여 공동작업합니다.
사용자 경로
SDK 또는 CLI를 통해 ML 진단 플랫폼을 사용할 수 있습니다. CLI를 사용하면 ML 진단 gcloud CLI를 사용하여 머신러닝 실행을 만들고 관리형 XProf 리소스를 배포할 수 있습니다. ML 진단 SDK를 사용하려면 SDK를 ML 워크로드에 통합하여 워크로드 측정항목과 구성을 수집 및 관리하고 관리 XProf 리소스를 배포해야 합니다.
시작하려면 다음 가이드 중 하나를 사용하세요.
XProf를 사용한 관리 프로파일링
CLI 또는 SDK를 사용하는 경우 XProf를 사용하여 관리형 프로파일링 환경을 이용할 수 있습니다. XProf는 머신러닝 워크로드용 오픈소스 프로파일링 및 성능 분석 도구이며 OpenXLA 생태계의 일부입니다.
자체 호스팅 프로파일링 환경과 비교했을 때 관리형 프로파일링 환경의 이점은 다음과 같습니다.
- XProf 또는 기타 종속 항목의 필수 설정이 없습니다.
- 보안 및 취약점 보호 기능이 개선되었습니다.
- 공동작업을 위한 공유 가능한 링크
- 대규모 프로필의 로드 속도 향상
- 링크 액세스 부하에 따라 리소스를 자동으로 확장하여 여러 사용자가 동시에 프로필에 액세스할 수 있도록 지원
- 다중 호스트 프로파일링, 주문형 프로파일링과 같은 내장 기능
- 동일한 관리 XProf 인스턴스를 사용하여 여러 실행에 걸쳐 여러 프로필 세션을 로드합니다.
- ML 진단 플랫폼에서 배포하는 관리형 XProf 리소스에는 요금이 부과되지 않으므로 관리형 XProf가 자체 호스팅 XProf보다 비용 효율적입니다.
기본 요건
ML 진단을 사용하기 전에 클러스터 디렉터 API를 사용 설정하고 필요한 IAM 권한을 추가합니다. GKE를 사용하는 경우 GKE 클러스터를 구성하고 GKE 워크로드에 라벨을 지정해야 합니다. 자세한 내용은 GKE 설정을 참고하세요.
Cluster Director API 사용 설정
ML 진단 제품을 사용하기 위해 클러스터를 배포하고 관리하는 데 클러스터 디렉터를 사용할 필요는 없습니다. ML 진단은 GKE, Cluster Director 또는 맞춤 조정자로 관리되는 클러스터에서 작동합니다. ML 진단은 클러스터 디렉터 API 제품군의 일부이지만 사용자가 클러스터 디렉터 제품 자체를 사용하는지 여부와는 관련이 없습니다.
Cluster Director API 사용 설정에 대한 자세한 내용은 Google Cloud 프로젝트에서 API 사용 설정을 참고하세요.
IAM 권한
워크로드에서 사용하는 Google Cloud 서비스 계정에는 프로젝트에 할당된 다음 IAM 역할이 필요합니다.
ML Diagnostics SDK를 사용하는 경우:
roles/clusterdirector.editor:MLRun리소스를 만들고 관리하며 사용자 인터페이스를 볼 수 있는 전체 액세스 권한입니다.roles/logging.logWriter: Cloud Logging에 로그와 측정항목을 작성합니다.roles/storage.objectUser:machinelearning_run에 지정된 Cloud Storage 버킷에 프로필을 저장합니다.
ML 진단 gcloud CLI를 사용하는 경우:
roles/storage.objectUser:machinelearning_run에 지정된 Cloud Storage 버킷에 프로필을 저장합니다.
Google Kubernetes Engine의 워크로드의 경우 워크로드 아이덴티티 제휴를 사용하여 Kubernetes 서비스 계정을 필요한 역할이 부여된 Google Cloud 서비스 계정과 연결합니다.
가격 책정
Cloud Logging을 통한 측정항목 저장과 Cloud Storage를 통한 프로필 저장에 요금이 청구됩니다. ML 진단 플랫폼을 사용할 때는 이러한 서비스에 대해 추가 결제를 사용 설정할 필요가 없습니다. ML 진단 플랫폼에서 배포한 관리형 XProf 리소스는 무료입니다.