Welche Option Sie wählen, hängt von zahlreichen Faktoren ab.
Cloud Storage als bereitgestelltes Dateisystem (Cloud Storage FUSE)
Erwägen Sie die Verwendung von Cloud Storage als bereitgestelltes Dateisystem (Cloud Storage FUSE) aus den folgenden Gründen:
- Wenn Trainingsdaten unstrukturiert sind, z. B. Bilder, Text oder Videos, ist Cloud Storage eine gute Wahl zum Speichern dieser großen, oft einzelnen Dateien.
- Wenn Trainingsdaten in Formaten wie TFRecord strukturiert sind, wird Cloud Storage häufig für diese ML-spezifischen Formate verwendet.
- Bei sehr großen Dateien: Cloud Storage FUSE streamt die Daten an Ihren Trainingsjob, anstatt dass die gesamte Datei auf die Replikate heruntergeladen werden muss. Dies kann zu schnellerem Laden von Daten und schnelleren Job-Startzeiten für große Datasets führen.
- Bei verteiltem Training: Cloud Storage FUSE bietet einen hohen Durchsatz für sequenzielle Lesevorgänge großer Dateien, was in Szenarien mit verteiltem Training von Vorteil ist, in denen mehrere Worker parallel auf Daten zugreifen müssen.
- Wenn Sie lieber auf Cloud Storage-Daten zugreifen möchten, als ob es sich um ein lokales Dateisystem handelt, ohne explizite API-Aufrufe in Ihrem Trainingscode vornehmen zu müssen.
- Wenn Ihr primärer Bedarf skalierbarer Speicher ist und Sie sich weniger um die niedrigste Latenz für den zufälligen Zugriff auf zahlreiche kleine Dateien kümmern.
Spezifisch für Ray in Agent Platform
- Sie können Ihre Daten in Cloud Storage-Buckets speichern, auf die Ray on Agent Platform zugreifen kann.
- Ray kann Daten direkt aus Cloud Storage lesen. Wenn Sie beispielsweise Spark on Ray ausführen, können Sie Dateien aus Cloud Storage lesen.
- Die Agent Platform verwendet Cloud Storage FUSE, um Cloud Storage-Buckets als lokale Dateisysteme in Ihren Trainingsjobs bereitzustellen, die auf Ray ausgeführt werden. Dadurch können Ihre Ray-Anwendungen mit standardmäßigen Datei-E/A-Vorgängen auf Daten zugreifen, als ob sie sich auf einem lokalen Laufwerk befänden.
- Für eine optimale Leistung wird empfohlen, Cloud Storage-Buckets in derselben Region zu verwenden, in der Sie Ihren Ray-Cluster ausführen.
Weitere Informationen
NFS-Freigabe (Network File System)
- Wenn Sie einen sehr hohen Durchsatz und einen Zugriff mit niedriger Latenz auf Remotedateien benötigen, als ob sie lokal gespeichert wären. Dies kann bei bestimmten Datentypen oder komplexen Dateiinteraktionen während des Trainings wichtig sein.
- Wenn Sie Remote-Dateien für alle Knoten in einem Compute-Cluster, z. B. einem Ray-Cluster auf der Agent Platform, leicht verfügbar machen müssen.
- Wenn Ihre Anwendung von einer standardmäßigeren Dateisystemschnittstelle mit potenziell stärkerer POSIX-Konformität im Vergleich zu Cloud Storage FUSE profitiert.
- Sie haben eine vorhandene NFS-Infrastruktur in Ihrer Virtual Private Cloud, die Sie verwenden möchten.
- Sie müssen Dateien oder Verzeichnisse für mehrere Jobs oder Cluster freigeben und benötigen einen konsistenten Zugriff mit niedriger Latenz. Außerdem ist es bevorzugt, Berechtigungen auf Dateisystemebene zu verwalten.
Spezifisch für Ray auf der Agent Platform
- Sie können NFS-Freigaben in Ihrem Ray-Cluster auf der Agent-Plattform bereitstellen, sodass auf Remotedateien zugegriffen werden kann, als wären sie lokal.
- Dies ist von Vorteil für den Zugriff auf freigegebene Dateisysteme mit hohem Durchsatz und niedriger Latenz.
- Sie können NFS-Mounts einrichten, wenn Sie Ihren Ray-Cluster mit dem Agent Platform SDK für Python erstellen. Geben Sie dazu den Server, den Pfad und den Bereitstellungspunkt an. Nach der Bereitstellung kann Ihr Ray-Code mit Standarddateivorgängen Daten in diese NFS-Volumes lesen und schreiben.
Weitere Informationen
Verwaltetes Dataset
- Zentralisierte Datenverwaltung und ‑steuerung: Verwaltete Datasets bieten einen zentralen Ort, an dem Sie Ihre Datasets innerhalb der Agent Platform organisieren und verwalten können. Das erleichtert die Nachverfolgung und Verwaltung Ihrer Daten-Assets in verschiedenen Projekten und Experimenten.
- Datenkennzeichnung: Sie können Labeling-Aufgaben erstellen und Anmerkungssätze direkt im verwalteten Dataset verwalten.
- Data Lineage verfolgen: Bei verwalteten Datasets wird automatisch die Herkunft Ihrer Daten für die darauf trainierten Modelle verfolgt. Dies ist entscheidend, um die Datenquellen zu verstehen, die für bestimmte Modelle verwendet werden, und um Reproduzierbarkeit und Governance zu gewährleisten.
- Vergleich von benutzerdefinierten Modellen und AutoML-Modellen: Mit verwalteten Datasets können Sie sowohl benutzerdefinierte Modelle als auch AutoML-Modelle mit denselben Daten trainieren. So lässt sich ihre Leistung anhand desselben Datasets direkt vergleichen, was Ihnen bei der Auswahl des besten Ansatzes für Ihr Problem hilft.
- Datenstatistiken und ‑visualisierungen generieren: Die Agent Platform kann automatisch Statistiken und Visualisierungen für die Daten in einem verwalteten Dataset generieren. Das kann bei der explorativen Datenanalyse helfen und Ihnen die Eigenschaften Ihrer Daten näherbringen.
- Automatische Datenaufteilung: Wenn Sie verwaltete Datasets in Trainingspipelines verwenden, kann die Agent Platform Ihre Daten automatisch anhand der angegebenen Anteile, Filter, vordefinierten Aufteilungen oder Zeitstempel in Trainings-, Validierungs- und Test-Datasets aufteilen. Das vereinfacht die Datenaufbereitung.
- Datensatzversionen verwenden: Bei verwalteten Datensätzen ist die Versionsverwaltung möglich. So können Sie Änderungen an Ihren Daten im Zeitverlauf nachverfolgen und bei Bedarf zu früheren Versionen zurückkehren.
Spezifisch für Ray in Vertex AI
- Wenn Sie ein verwaltetes Dataset in einer Agent Platform-Trainingspipeline verwenden, in der Ray für verteiltes Training genutzt wird, werden die Daten aus dem verwalteten Dataset für die Trainingscontainer verfügbar gemacht. Ihre Ray-Anwendung kann dann darauf zugreifen (über eingebundene Cloud Storage- oder BigQuery-Quellen, wenn das Dataset mit diesen Quellen verknüpft ist). Die Umgebungsvariablen
AIP_TRAINING_DATA_URI,AIP_VALIDATION_DATA_URIundAIP_TEST_DATA_URIwürden auf die Daten verweisen.
Weitere Informationen
BigQuery
- Verbindung zu Daten in Agent Platform-Komponenten herstellen: Viele Agent Platform-Tools und -Dienste sind direkt in BigQuery eingebunden. Sie können Daten in BigQuery über JupyterLab abfragen. So können Sie direkt mit Ihren BigQuery-Daten interagieren, um sie zu analysieren, zu visualisieren und Modelle zu entwickeln, ohne sie in ein anderes Speichersystem verschieben zu müssen.
- Trainingspipelines erstellen: Wenn Sie Trainingspipelines auf der Agent Platform erstellen, können Sie Daten direkt aus BigQuery verwenden. Eine Pipeline kann beispielsweise Daten aus BigQuery abrufen, vorverarbeiten und dann ein Modell trainieren.
- Pipelines für kontinuierliches Modelltraining: Wenn Sie kontinuierliches Modelltraining einrichten möchten, können Sie Pipelineausführungen auslösen, wenn neue Daten in einer BigQuery-Tabelle eingehen. So lässt sich das erneute Trainieren von Modellen automatisieren. Sie können einen Eventarc-Trigger so konfigurieren, dass eine Pipeline gestartet wird, wenn ein neuer Job in eine bestimmte BigQuery-Tabelle eingefügt wird.
- Modellüberwachung: BigQuery kann als Quelle für die Überwachung von Feature-Abweichungen und ‑Drift Ihrer bereitgestellten Modelle verwendet werden. Für die Abweichungserkennung können Sie den BigQuery-URI Ihres Trainingsdatasets angeben. Außerdem können in BigQuery die Logs von Online-Inferenz-Endpunkten gespeichert werden, die dann als Datenquelle für die kontinuierliche Überwachung verwendet werden können. Dazu sollte Ihre BigQuery-Tabelle idealerweise eine Zeitstempelspalte haben.
- BigQuery ML-Integration: Sie können BigQuery-Datasets verwenden, wenn Sie BigQuery ML zum Erstellen von Machine-Learning-Modellen mit SQL nutzen. Vertex AI Workbench ermöglicht die interaktive explorative Analyse von BigQuery-Daten und die Verwendung von BigQuery ML in einer Notebookumgebung.
- Explorative Datenanalyse und Vorbereitung: Vor dem Training können Sie Ihre Daten mit BigQuery untersuchen und visualisieren. Sie können Datentransformationen auch mit SQL-Abfragen direkt in BigQuery durchführen, bevor Sie die Daten für das Training verwenden.
- Auf öffentliche Datasets zugreifen: In BigQuery werden viele öffentliche Datasets gehostet, z. B. das Dataset „Chicago Taxi Trips“, das Sie in Vertex AI Workbench problemlos für Tests und Training verwenden können.
Spezifisch für Ray in Vertex AI
- Ray in Vertex AI kann Daten direkt aus BigQuery lesen. Sie können das Agent Platform SDK für Python in einem Ray-Task verwenden, um BigQuery-Abfragen auszuführen und die Ergebnisse für die Verwendung in Ihren Ray-Anwendungen zu materialisieren.
- Beachten Sie beim Lesen aus BigQuery die maximale Antwortgröße für Abfragen von 10 GB.
- Mit dem Agent Platform SDK für Python können Sie auch Daten aus Ihren Ray-Anwendungen zurück in BigQuery schreiben.
Weitere Informationen
- Agent Platform für BigQuery-Nutzer
- Pipeline für kontinuierliches Modelltraining erstellen
- Ray in Vertex AI mit BigQuery verwenden