Speicherdienste

In diesem Dokument werden Anwendungsfälle und Empfehlungen für Speicherdienste in Arbeitslasten für künstliche Intelligenz (KI) und maschinelles Lernen (ML) beschrieben.

Anwendungsfälle für Speicher

Speicherdienste können in den folgenden KI- und ML-Arbeitslasten verwendet werden:

  • Daten für das Training vorbereiten und laden
  • Modellgewichte für die Inferenz laden
  • Modellprüfpunkte speichern und wiederherstellen
  • VM-Images laden
  • Logging von Daten
  • Basisverzeichnisse
  • Anwendungsbibliotheken, ‑pakete und ‑abhängigkeiten laden

Speicherempfehlungen

Die folgenden Speicherlösungen werden empfohlen, um die Leistung von KI- und ML-Systemen zu optimieren:

Speicherdienst Produkte Anwendungsfälle
Cloud Storage

Übersicht: Ein hochgradig skalierbarer, äußerst langlebiger und kostengünstiger Objektspeicher. Er eignet sich zum Speichern großer Datasets, die für das Training und Modellprüfpunkte erforderlich sind, sowie zum Hosten der endgültigen trainierten Modelle. Cloud Storage mit Cloud Storage FUSE ist die empfohlene Speicherlösung für die meisten KI- und ML-Anwendungsfälle, da Sie damit Ihren Datenspeicher kostengünstiger skalieren können als mit Dateisystemdiensten.

  • Unterstützt große Trainingsdaten (bis zu EB) für GPU- und TPU Cluster.
  • Unterstützt einen hohen Durchsatz (Bandbreite von bis zu 1,25 TB/s oder mehr). Wenn Sie den Durchsatz in Cloud Storage maximieren möchten, fordern Sie mehr Bandbreite an.
  • Durch die Integration mit Cloud Storage FUSE, Cloud Storage-Buckets können als lokale Dateisysteme bereitgestellt werden. Mit dem CSI-Treiber für Cloud Storage FUSE können Sie Buckets auch als lokale Dateisysteme in Google Kubernetes Engine (GKE) für skalierte KI- und ML-Arbeitslasten bereitstellen.
  • Mit Rapid Cache können Sie Speicher in derselben Zone wie Rechenarbeitslasten platzieren.Dadurch erzielen Sie einen höheren Durchsatz (bis zu 2, 5 TB/s), eine geringere Latenz und eine größere Flexibilität bei der Standortwahl, wenn Sie einen Bucket mit mehreren Regionen verwenden.
  • Weitere Informationen zur Verwendung von Cloud Storage FUSE für KI- und ML Arbeitslasten finden Sie unter KI- und ML-Arbeitslasten mit Cloud Storage FUSE optimieren.

Empfohlen für:

  • Kosteneffizienz
  • Datenverarbeitung und ‑vorbereitung
  • Modelltraining und ‑inferenz
  • Modellprüfpunkte speichern und wiederherstellen

Nicht empfohlen für:

  • Anwendungen, die vollständige POSIX-Konformität erfordern
  • Basisverzeichnisse
Google Cloud Managed Lustre

Übersicht: Ein leistungsstarkes, vollständig verwaltetes paralleles Dateisystem das für KI- und HPC-Anwendungen (High Performance Computing) optimiert ist. Geeignet für Umgebungen, in denen mehrere Rechenknoten schnellen und konsistenten Zugriff auf freigegebene Daten für Simulationen, Modellierung und Analysen benötigen.

  • Skaliert auf eine Kapazität von 8 PB und einen Durchsatz von bis zu 1 TB/s.
  • Unterstützt Tausende von IOPS/TiB.
  • Bietet eine extrem niedrige Latenz von weniger als einer Millisekunde.
  • Bietet vollständige POSIX-Unterstützung, die die sofortige Migration lokaler KI-Arbeitslasten ermöglicht nach Google Cloud.
  • Weitere Informationen zur Verwendung von Managed Lustre für KI und ML-Arbeitslasten finden Sie unter KI- und ML-Arbeitslasten mit Google Cloud Managed Lustre optimieren.

Empfohlen für:

  • Migration von KI- und ML-Arbeitslasten in die Cloud
  • Modellsimulationen
  • Modelltraining und ‑inferenz
  • Modellprüfpunkte speichern und wiederherstellen
  • Arbeitslasten mit häufigen kleinen Lese- und Schreibvorgängen
  • Basisverzeichnisse

Nicht empfohlen für:

  • Arbeitslasten, die mehr als 8 PB an Daten benötigen

Nächste Schritte