Übersicht über Speicherdienste für KI- und ML-Arbeitslasten in AI Hypercomputer

Speicherdienste bieten die grundlegende Datenarchitektur, die für leistungsstarkes Modelltraining, Inferenz und Feinabstimmung im AI Hypercomputer-Ökosystem erforderlich ist. In Google Cloudsind mehrere Speicherdienste verfügbar. Die beste Wahl hängt von Ihren Anforderungen an E/A, Durchsatz, Skalierung und Latenz für Anwendungsfälle im Lebenszyklus von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) ab.

In diesem Dokument werden Speicherdienste in Google Cloud vorgestellt und verglichen, mit denen Sie die GPU- oder TPU-Leistung am besten optimieren können. Außerdem finden Sie Empfehlungen zum idealen Dienst für bestimmte KI- und ML- Anwendungsfälle.

Einführung in Speicherdienste

Google Cloud bietet mehrere Speicherlösungen, die für KI- und ML-Anwendungsfälle optimiert sind:

  • Cloud Storage ist ein Objektspeichersystem, das für die Verarbeitung und Speicherung großer Datensätze wie für das Training oder die Bulk-Inferenz entwickelt wurde. Cloud Storage bietet mehrere Funktionen, mit denen Sie die Datenspeicherung für KI- und ML-Aufgaben optimieren können.

  • Google Cloud Managed Lustre ist ein vollständig verwaltetes und POSIX-konformes paralleles Dateisystem, das für die spezielle Metadatenleistung mit niedriger Latenz und hoher Parallelität entwickelt wurde, die für Trainings- und Inferenzarbeitslasten erforderlich ist.

In den folgenden Abschnitten finden Sie weitere Informationen zu den einzelnen Speicherdiensten.

Cloud Storage

Cloud Storage ist ein grundlegender Objektspeicher, der globale Skalierbarkeit, Langlebigkeit und Kosteneffizienz bietet. Wenn Sie Cloud Storage verwenden, speichern Sie Daten als Objekte in Containern, sogenannten Buckets. Cloud Storage bietet mehrere Funktionen für Ihre Buckets, mit denen Sie die Leistung von KI- und ML-Arbeitslasten optimieren können:

  • Die Produkte der Cloud Storage Rapid-Familie wurden entwickelt, um Datenengpässe für Ihre KI- und ML-Arbeitslasten zu beseitigen, indem sie Ihre Daten näher an Ihre Rechenressourcen bringen. Mit diesen Produkten können Sie Ihre Daten in denselben Zonen wie Ihre Rechenarbeitslasten platzieren und die Datenspeicherung für Ihre GPU- oder TPU-Cluster leistungsstark und kostengünstig skalieren. Zu den Cloud Storage Rapid-Produkten gehören:

    • Rapid Bucket bietet die schnellste Lese- und Schreibleistung in Cloud Storage für zonale Buckets. Objekte in zonalen Buckets werden in der Rapid Storage-Speicherklasse gespeichert, einer leistungsstarken Speicherklasse, die für E/A-intensive Arbeitslasten optimiert ist. Neben einer geringeren Latenz bietet Rapid Bucket einen deutlich höheren Durchsatz (bis zu 15 TB/s) als andere Produkte und Bucket-Standorte in Cloud Storage.

    • Rapid Cache beschleunigt das Lesen von Daten aus vorhandenen Buckets, ohne dass Codeänderungen erforderlich sind. Rapid Cache ist ein SSD-gestützter zonaler Lesecache für Cloud Storage-Buckets, der zum Bereitstellen von Daten für Datenleseanfragen verwendet wird. Das Produkt bietet einen höheren Durchsatz (bis zu 2,5 TB/s) und eine geringere Latenz als Buckets ohne Cache.

      Rapid Cache wird häufig für multiregionale Buckets eingerichtet, bei denen die Beschleunigerkapazität auf mehrere Google Cloud Regionen verteilt ist. Für Daten, die aus dem Cache gelesen werden, fallen geringere Gebühren für die Datenübertragung an als für Daten, die direkt aus einem multiregionalen Bucket gelesen werden.

  • Cloud Storage FUSE ist ein Open-Source-FUSE-Adapter, mit dem Sie Buckets als lokale Dateisysteme bereitstellen können. So können Anwendungen mit der Standardsemantik des Dateisystems mit dem Objektspeicher interagieren. Mit dieser Funktion können Sie die globale Skalierbarkeit, Langlebigkeit und Kosteneffizienz von Cloud Storage mit lokalem Dateizugriff nutzen. Cloud Storage FUSE wird aktiv verwaltet und unterstützt von Google.

    Cloud Storage FUSE bietet mehrere clientseitige Caching- und Optimierungsparameter wie parallele Downloads. Diese Funktionen können die Komplexität der Entwicklung abstrahieren und dazu beitragen, die maximale Leistung durch Sharding oder Parallelisierung von Streams zu erzielen.

  • Der hierarchische Namespace ermöglicht eine echte Dateisystemstruktur in Buckets und bietet effiziente Funktionen für die Datenverwaltung , einschließlich atomarer Ordnerumbenennungen und schnellerer Dateisuchen , wenn der Bucket mit Cloud Storage FUSE bereitgestellt wird. Der hierarchische Namespace bietet achtmal mehr Abfragen pro Sekunde für das Lesen und Schreiben von Objekten als Buckets ohne hierarchischen Namespace. Weitere Informationen zu den Vorteilen der Verwendung eines hierarchischen Namespaces finden Sie unter Vorteile in Bezug auf Leistung und Verwaltung.

    Die Aktivierung des hierarchischen Namespaces wird dringend empfohlen, wenn Sie Arbeitslasten haben, die einen hohen Durchsatz beim Laden von Daten und häufige Modellprüfpunkte erfordern. Der hierarchische Namespace muss aktiviert sein, wenn Sie zonale Buckets mit Rapid Bucket erstellen.

Managed Lustre

Google Cloud Managed Lustre ist ein leistungsstarkes, POSIX-konformes, vollständig verwaltetes paralleles Dateisystem, das für KI- und ML-Anwendungen optimiert ist. Die Managed Lustre-Architektur eignet sich ideal für KI/ML-Arbeitslasten mit hohem Durchsatz, niedriger Latenz und hoher Metadatenparallelität wie Prüfpunkte, schnelle Gewichtspropagierung beim Reinforcement Learning und KV-Caching (Key-Value).

Weitere Informationen zu häufigen Anwendungsfällen für Managed Lustre, finden Sie unter Anwendungsfälle.

Vergleich der Speicherdienste

In der folgenden Tabelle finden Sie einen allgemeinen Vergleich von Cloud Storage und Managed Lustre anhand wichtiger Merkmale:

Merkmale Cloud Storage Managed Lustre
Architektur

Objektspeicher

  • Daten werden standardmäßig in flachen Buckets gespeichert. Alle Bucket-Typen (zonal, regional, biregional und multiregional) bieten Optionen für die Georedundanz, die mit den Cloud Storage Rapid-Funktionen beschleunigt werden können.
  • Optional können Sie den hierarchischen Namespace aktivieren, um Buckets zu erstellen, die das Speichern von Daten in einer Dateisystem struktur unterstützen.
  • Optional können Sie Cloud Storage FUSE aktivieren, um Buckets als lokale Dateisysteme bereitzustellen.

Paralleles Dateisystem

  • Daten werden als Dateien in Managed Lustre-Instanzen gespeichert und ohne zusätzliche Optimierung als lokale Dateisysteme in Ihren Beschleunigerclustern bereitgestellt.
Speicherkapazität

Skaliert auf Exabyte.

Skaliert je nach Leistungsstufe der Instanz auf bis zu 80 PB.

Leistung

Unterstützt Folgendes:

  • Latenz von weniger als einer Millisekunde für offene Dateien mit Rapid Bucket
  • Zehn Millionen IOPs/TiB mit Rapid Bucket
  • Bis zu 2,5 TB/s Bandbreite mit Rapid Cache
  • Bis zu 15 TB/s Bandbreite mit Rapid Bucket
  • Anfragen zur Erhöhung der Bandbreite

Unterstützt Folgendes:

  • Latenz von weniger als einer Millisekunde
  • Zehn Millionen IOPs/TiB
  • Bis zu 10 TB/s Bandbreite
Preise

Weitere Informationen finden Sie unter Cloud Storage – Preise.

Weitere Informationen finden Sie unter Managed Lustre Preise.

Empfehlungen nach Anforderungen

Empfohlen für Anwendungen, die einen skalierbaren Objektspeicher und allgemeine Kosteneffizienz für Trainingsdatensätze, asynchrone mehrstufige Prüfpunkte und die Speicherung von Modellgewichten benötigen. Insbesondere wird Cloud Storage Rapid für die leistungsstarke und kostengünstige Datenskalierung empfohlen.

Empfohlen für Anwendungen, die ein vollständig POSIX-konformes paralleles Dateisystem oder Home-Verzeichnisse benötigen. Auch empfohlen für latenzempfindliche oder metadatenintensive Arbeitslasten, wie KV-Caching-Auslagerungen, synchrone Prüfpunkte und schnelle Gewichtspropagierung für Reinforcement Learning.

Empfehlungen für Speicherdienste nach Anwendungsfall

Anwendungsfall Empfehlung für Speicherdienst Grund für Empfehlung
Trainieren und Vorbereiten von Datensätzen Primäre Empfehlung: Cloud Storage Rapid Bucket Cloud Storage-Buckets bieten die Kapazität, den Durchsatz, Kosteneffizienz und die Langlebigkeit, die häufig für große Mengen von Trainings- und Inferenzdatensätzen erforderlich sind. Wenn Sie mit Rapid Bucket einen zonalen Bucket erstellen, profitiert dieser von einem sehr hohen Durchsatz (bis zu 15 TB/s) und einer Latenz von weniger als einer Millisekunde für offene Dateien zu optimalen Kosten.
Sekundäre Empfehlung: Managed Lustre Managed Lustre bietet eine Latenz von weniger als einer Millisekunde. Es ist hilfreich als dedizierter, ultraschneller Arbeitsbereich für Ihre intensivsten Trainings- und Datensatzvorbereitungsaufgaben, bei denen eine niedrige Latenz und Metadatenparallelität eine hohe Priorität haben.
Verschieben oder Speichern von Modellgewichten für Prüfpunkte oder Gewichtsübertragungen Primäre Empfehlung: Managed Lustre Managed Lustre bietet eine Latenz von weniger als einer Millisekunde und parallelen Datenzugriff, sodass Tausende von Rollout-Workern gleichzeitig dieselbe Gewichtsdatei abrufen können, ohne dass es zu einer Verlangsamung kommt.
Sekundäre Empfehlung: Cloud Storage Rapid Bucket Rapid Bucket eignet sich gut für asynchrone mehrstufige oder verteilte Prüfpunkte, wenn es mit GCSFS über fsspec oder Cloud Storage FUSE mit clientseitiger Leistungsoptimierung verwendet wird.
Speichern und Herunterladen von Modellen für die Inferenz Primäre Empfehlung: Cloud Storage Rapid Cache oder Rapid Bucket

Rapid Cache fungiert als Booster der den Kaltstart der Inferenz reduziert. Mit Rapid Cache, die Modellgewichte können in derselben Zone wie Ihre Inferenzknoten vorab geladen werden. So kann eine neue Inferenzinstanz die Modellgewichte schnell herunterladen und ihre erste Anfrage verarbeiten.

Rapid Bucket dient als leistungsstarke, beschleunigte zonale Speicher-Engine, mit der Sie Modellgewichte in derselben Zone wie Ihre Inferenzflotte platzieren können.

Für die Modellbereitstellung empfehlen wir die Verwendung des Run:ai Model Streamer für vLLM, um die maximale Downloadleistung zu erzielen. Bei anderen Inferenzstacks kann die Optimierung der parallelen Downloadparameter von Cloud Storage FUSE die Kaltstartlatenz beim Herunterladen von Modellgewichten erheblich reduzieren.

Sekundäre Empfehlung: Managed Lustre Managed Lustre bietet eine Latenz von weniger als einer Millisekunde und parallelen Datenzugriff, was sich positiv auf leistungsempfindliche Modelle und die Skalierung gleichzeitiger GPUs auswirkt, die dasselbe Modell gleichzeitig herunterladen.
KV-Cache-Auslagerung Primäre Empfehlung: Managed Lustre Managed Lustre bietet eine Latenz von weniger als einer Millisekunde und parallelen Datenzugriff, sodass verschiedene Knoten den KV-Cache abrufen und Chats fortsetzen können, ohne den gesamten Verlauf des Chats neu zu verarbeiten.

Nächste Schritte