Speicherdienste

In diesem Dokument werden Anwendungsfälle und Empfehlungen für Speicherdienste in KI- und ML-Arbeitslasten beschrieben.

Anwendungsfälle für Speicher

Speicherdienste können in den folgenden KI- und ML-Workloads verwendet werden:

  • Daten für das Training vorbereiten und laden
  • Modellgewichte für die Inferenz werden geladen
  • Modellprüfpunkte speichern und wiederherstellen
  • VM-Images werden geladen
  • Logging von Daten
  • Basisverzeichnisse
  • Anwendungsbibliotheken, Pakete und Abhängigkeiten werden geladen

Speicherempfehlungen

Die folgenden Speicherlösungen werden zur Optimierung der Leistung von KI- und ML-Systemen empfohlen:

Speicherdienst Produkte Anwendungsfälle
Cloud Storage

Übersicht: Ein hochgradig skalierbarer, langlebiger und kostengünstiger Objektspeicher. Es eignet sich zum Speichern großer Datasets, die für das Training und die Modellprüfpunkte erforderlich sind, sowie zum Hosten der endgültigen trainierten Modelle. Cloud Storage mit Cloud Storage FUSE ist die empfohlene Speicherlösung für die meisten KI- und ML-Anwendungsfälle, da Sie damit Ihren Datenspeicher kostengünstiger skalieren können als mit Dateisystemdiensten.

  • Unterstützt große Trainingsdaten (bis zu EB) für GPU- und TPU-Cluster.
  • Unterstützt hohen Durchsatz (bis zu 1,25 TB/s Bandbreite oder mehr). Wenn Sie den Durchsatz in Cloud Storage maximieren möchten, fordern Sie mehr Bandbreite an.
  • Durch die Integration mit Cloud Storage FUSE können Cloud Storage-Buckets als lokale Dateisysteme bereitgestellt werden. Mit dem Cloud Storage FUSE-CSI-Treiber können Sie Buckets auch als lokale Dateisysteme in Google Kubernetes Engine (GKE) für skalierte KI- und ML-Arbeitslasten bereitstellen.
  • Mit Anywhere Cache können Sie Speicher in derselben Zone wie Rechenarbeitslasten platzieren.So profitieren Sie von einem höheren Durchsatz (bis zu 2, 5 TB/s), einer geringeren Latenz und Standortflexibilität, wenn Sie einen Multi-Region-Bucket verwenden.
  • Weitere Informationen zur Verwendung von Cloud Storage FUSE für KI- und ML-Arbeitslasten finden Sie unter KI- und ML-Arbeitslasten mit Cloud Storage FUSE optimieren.

Empfohlen für:

  • Kosteneffizienz
  • Datenverarbeitung und ‑vorbereitung
  • Modelltraining und ‑inferenz
  • Modellprüfpunkte speichern und wiederherstellen

Nicht empfohlen für:

  • Anwendungen, die vollständige POSIX-Compliance erfordern
  • Basisverzeichnisse
Google Cloud Managed Lustre

Übersicht: Ein leistungsstarkes, vollständig verwaltetes paralleles Dateisystem, das für KI- und HPC-Anwendungen (High Performance Computing) optimiert ist. Geeignet für Umgebungen, in denen mehrere Rechenknoten für Simulationen, Modellierungen und Analysen schnellen und konsistenten Zugriff auf freigegebene Daten benötigen.

  • Skaliert auf 8 PB Kapazität und bis zu 1 TB/s Durchsatz.
  • Unterstützt Tausende von IOPS/TiB.
  • Bietet eine extrem niedrige Latenz von unter einer Millisekunde.
  • Bietet vollständige POSIX-Unterstützung, die die sofortige Migration lokaler KI-Arbeitslasten zu Google Cloudermöglicht.
  • Weitere Informationen zur Verwendung von Managed Lustre für KI- und ML-Arbeitslasten finden Sie unter KI- und ML-Arbeitslasten mit Google Cloud Managed Lustre optimieren.

Empfohlen für:

  • KI- und ML-Arbeitslasten in die Cloud migrieren
  • Modellsimulationen
  • Modelltraining und ‑inferenz
  • Modellprüfpunkte speichern und wiederherstellen
  • Arbeitslasten mit häufigen kleinen Lese- und Schreibvorgängen
  • Basisverzeichnisse

Nicht empfohlen für:

  • Arbeitslasten, für die mehr als 8 PB an Daten erforderlich sind

Nächste Schritte