ML Diagnostics-Plattform
Google Cloud ML Diagnostics ist eine verwaltete End-to-End-Plattform zum Optimieren und Diagnostizieren von KI- und ML-Arbeitslasten auf Google Cloud. Mit ML Diagnostics können Sie alle Arbeitslastmesswerte, ‑konfigurationen und ‑profile auf einer einzigen Plattform erfassen und visualisieren. ML Diagnostics kann sowohl für Trainings- als auch für Inferenzarbeitslasten verwendet werden und ist mit allen Orchestratoren auf Cloud TPU kompatibel, einschließlich Google Kubernetes Engine (GKE) und benutzerdefinierten Orchestratoren. ML Diagnostics umfasst die folgenden Funktionen:
- Machine-Learning-Ausführungen:Mit ML Diagnostics können Sie Ihre Machine-Learning-Ausführungen über die Google Cloud CLI erstellen und registrieren oder das ML Diagnostics-SDK in Ihre Arbeitslast einbinden. Sie können verwaltete XProf-Instanzen mit Ihren Machine Learning-Ausführungen bereitstellen und Arbeitslastmesswerte, Konfigurationen und Profilsitzungen erfassen und verwalten.
- gcloud CLI:Mit den ML Diagnostics APIs können Sie über die gcloud CLI Läufe registrieren und verwalten, verwaltete XProf-Ressourcen bereitstellen, Profilsitzungen in Speicher-Buckets visualisieren und Profilerfassungen über die CLI auslösen.
- Python SDK: Verwenden Sie das Open-Source-ML Diagnostics SDK, das in ML-Arbeitslasten integriert ist, um eine vollständige Diagnose von ML-Arbeitslasten zu erhalten. Arbeitslastmesswerte, ‑konfigurationen und ‑profile auf Google Clouderfassen und verwalten.
- Verwaltete Profilerstellung: ML Diagnostics stellt eine verwaltete Instanz von XProf mit einem skalierbaren Backend in zugehörigen Konten bereit, sodass große Profile schnell geladen werden können. Es unterstützt mehrere Nutzer, die gleichzeitig auf Profile zugreifen, und enthält integrierte Funktionen wie die Profilerstellung auf mehreren Hosts und die On-Demand-Profilerstellung.
- Arbeitslastmesswerte: Arbeitslastmesswerte erfassen, darunter Modellqualität, Modellleistung und Systemmesswerte.
- Verwaltung der Arbeitslastkonfiguration: Arbeitslastkonfigurationen verfolgen, einschließlich Softwarekonfigurationen, Systemkonfigurationen und benutzerdefinierten Konfigurationen.
- Visualisierungen in Cluster Director und GKE: Sie können Messwerte, Konfigurationen und Profile in der Google Cloud -Konsole in Cluster Director und Google Kubernetes Engine visualisieren.
- Linkfreigabe: Sie können Profile und Informationen zu Machine-Learning-Läufen über Links freigeben.
Nutzerpfade
Sie können die ML Diagnostics-Plattform über das SDK oder die CLI verwenden. Mit der CLI können Sie die gcloud CLI für ML Diagnostics verwenden, um einen Machine-Learning-Lauf zu erstellen und die verwalteten XProf-Ressourcen bereitzustellen. Damit das ML Diagnostics SDK verwendet werden kann, muss es in Ihre ML-Arbeitslast integriert werden, um Messwerte und Konfigurationen für die Arbeitslast zu erfassen und zu verwalten und verwaltete XProf-Ressourcen bereitzustellen.
Verwenden Sie zum Einstieg eine der folgenden Anleitungen:
Verwaltete Profilerstellung mit XProf
Wenn Sie die CLI oder das SDK verwenden, können Sie mit XProf ein verwaltetes Profiling durchführen. XProf ist ein Open-Source-Tool zur Profilerstellung und Leistungsanalyse für Machine-Learning-Arbeitslasten und Teil des OpenXLA-Ökosystems.
Die Vorteile eines verwalteten Profils im Vergleich zu einem selbst gehosteten Profil sind:
- Es ist keine Einrichtung von XProf oder anderen Abhängigkeiten erforderlich.
- Bessere Sicherheit und Schutz vor Sicherheitslücken.
- Links zum Freigeben für die Zusammenarbeit.
- Große Profile werden schneller geladen.
- Unterstützung für mehrere Nutzer, die gleichzeitig auf Profile zugreifen, mit automatischer Skalierung von Ressourcen basierend auf der Linkzugriffslast.
- Integrierte Funktionen wie die Profilerstellung für mehrere Hosts und die On-Demand-Profilerstellung.
- Mehrere Profilsitzungen können in mehreren Läufen mit derselben verwalteten XProf-Instanz geladen werden.
- Für die von der ML Diagnostics-Plattform bereitgestellten verwalteten XProf-Ressourcen fallen keine Gebühren an. Daher ist die verwaltete XProf-Lösung kostengünstiger als das Selbsthosting von XProf.
Vorbereitung
Bevor Sie ML Diagnostics verwenden können, müssen Sie die Cluster Director API aktivieren und die erforderlichen IAM-Berechtigungen hinzufügen. Wenn Sie GKE verwenden, müssen Sie auch Ihren GKE-Cluster konfigurieren und die GKE-Arbeitslast labeln. Weitere Informationen finden Sie unter GKE einrichten.
Cluster Director API aktivieren
Sie müssen Cluster Director nicht zum Bereitstellen und Verwalten Ihrer Cluster verwenden, um ML Diagnostics nutzen zu können. ML Diagnostics funktioniert mit Clustern, die von GKE, Cluster Director oder benutzerdefinierten Orchestratoren verwaltet werden. ML Diagnostics ist Teil der Cluster Director-API-Familie, ist aber nicht davon abhängig, dass Nutzer das Cluster Director-Produkt selbst verwenden.
Weitere Informationen zum Aktivieren der Cluster Director API finden Sie unter API im Google Cloud Projekt aktivieren.
IAM-Berechtigungen
Das von Ihrer Arbeitslast verwendete Google Cloud Dienstkonto muss die folgenden IAM-Rollen für das Projekt haben.
Wenn Sie das ML Diagnostics SDK verwenden:
roles/clusterdirector.editor: Für vollständigen Zugriff zum Erstellen und Verwalten vonMLRun-Ressourcen und zum Aufrufen der Benutzeroberfläche.roles/logging.logWriter: Zum Schreiben von Logs und Messwerten in Cloud Logging.roles/storage.objectUser: Profile im Cloud Storage-Bucket speichern, der inmachinelearning_runangegeben ist.
Wenn Sie die ML Diagnostics gcloud CLI verwenden:
roles/storage.objectUser: Profile im Cloud Storage-Bucket speichern, der inmachinelearning_runangegeben ist.
Verwenden Sie für Arbeitslasten in Google Kubernetes Engine die Workload Identity-Föderation, um ein Kubernetes-Dienstkonto mit einem Google Cloud -Dienstkonto zu verknüpfen, dem die erforderlichen Rollen zugewiesen wurden.
Preise
Die Speicherung von Messwerten über Cloud Logging und die Speicherung von Profilen über Cloud Storage werden Ihnen in Rechnung gestellt. Wenn Sie die ML Diagnostics-Plattform verwenden, müssen Sie für diese Dienste keine zusätzliche Abrechnung aktivieren. Für die von der ML Diagnostics-Plattform bereitgestellten verwalteten XProf-Ressourcen fallen keine Kosten an.