Google verwendet KI-Technologie, um Inhalte in Ihre bevorzugte Sprache zu übersetzen. KI-Übersetzungen können Fehler enthalten.

Übersicht über die Datenvorbereitung

Es gibt mehrere Möglichkeiten, Trainingsdaten zu entwickeln.

Cloud Storage
Network File System
Verwaltetes Dataset
BigQuery

Welche Option Sie wählen, hängt von zahlreichen Faktoren ab.

Cloud Storage als bereitgestelltes Dateisystem (Cloud Storage FUSE)

Erwägen Sie die Verwendung von Cloud Storage als bereitgestelltes Dateisystem (Cloud Storage FUSE) aus den folgenden Gründen:

Wenn Trainingsdaten unstrukturiert sind, z. B. Bilder, Text oder Videos, ist Cloud Storage eine gute Wahl zum Speichern dieser großen, oft einzelnen Dateien.
Wenn Trainingsdaten in Formaten wie TFRecord strukturiert sind, wird Cloud Storage häufig für diese ML-spezifischen Formate verwendet.
Bei sehr großen Dateien: Cloud Storage FUSE streamt die Daten an Ihren Trainingsjob, anstatt dass die gesamte Datei in die Replikate heruntergeladen werden muss. Dies kann bei großen Datasets zu schnelleren Datenlade- und Jobstartzeiten führen.
Bei verteiltem Training: Cloud Storage FUSE bietet einen hohen Durchsatz für sequenzielle Lesevorgänge großer Dateien, was in Szenarien mit verteiltem Training von Vorteil ist, in denen mehrere Worker parallel auf Daten zugreifen müssen.
Wenn Sie lieber auf Cloud Storage-Daten zugreifen möchten, als ob es sich um ein lokales Dateisystem handelt, ohne explizite API-Aufrufe in Ihrem Trainingscode vornehmen zu müssen.
Wenn Ihr primärer Bedarf skalierbarer Speicher ist und Sie sich weniger um die niedrigste Latenz für den zufälligen Zugriff auf zahlreiche kleine Dateien kümmern.

Spezifisch für Ray auf der Agent Platform

Sie können Ihre Daten in Cloud Storage-Buckets speichern, auf die Ray on Agent Platform zugreifen kann.
Ray kann Daten direkt aus Cloud Storage lesen. Wenn Sie beispielsweise Spark on Ray ausführen, können Sie Dateien aus Cloud Storage lesen.
Die Agent-Plattform verwendet Cloud Storage FUSE, um Cloud Storage-Buckets als lokale Dateisysteme in Ihren Trainingsjobs bereitzustellen, die auf Ray ausgeführt werden. So können Ihre Ray-Anwendungen mit standardmäßigen Datei-E/A-Vorgängen auf Daten zugreifen, als wären sie auf einer lokalen Festplatte.
Für eine optimale Leistung wird empfohlen, Cloud Storage-Buckets in derselben Region zu verwenden, in der Sie Ihren Ray-Cluster ausführen.

Weitere Informationen

Cloud Storage FUSE verwenden

NFS-Freigabe (Network File System)

Wenn Sie einen sehr hohen Durchsatz und einen Zugriff mit niedriger Latenz auf Remotedateien benötigen, als ob sie lokal gespeichert wären. Dies kann bei bestimmten Datentypen oder komplexen Dateiinteraktionen während des Trainings wichtig sein.
Wenn Sie Remote-Dateien für alle Knoten in einem Compute-Cluster, z. B. einem Ray-Cluster auf der Agent Platform, leicht verfügbar machen müssen.
Wenn Ihre Anwendung von einer standardmäßigeren Dateisystemschnittstelle mit potenziell stärkerer POSIX-Konformität im Vergleich zu Cloud Storage FUSE profitiert.
Sie haben eine vorhandene NFS-Infrastruktur in Ihrer Virtual Private Cloud, die Sie verwenden möchten.
Sie müssen Dateien oder Verzeichnisse für mehrere Jobs oder Cluster freigeben und benötigen einen konsistenten Zugriff mit niedriger Latenz. Außerdem ist es bevorzugt, Berechtigungen auf Dateisystemebene zu verwalten.

Spezifisch für Ray auf der Agent Platform

Sie können NFS-Freigaben in Ihrem Ray-Cluster auf der Agent-Plattform bereitstellen, sodass auf Remotedateien zugegriffen werden kann, als wären sie lokal.
Dies ist von Vorteil für den Zugriff auf freigegebene Dateisysteme mit hohem Durchsatz und niedriger Latenz.
Sie können NFS-Mounts einrichten, wenn Sie Ihren Ray-Cluster mit dem Agent Platform SDK für Python erstellen. Geben Sie dazu den Server, den Pfad und den Bereitstellungspunkt an. Nach der Bereitstellung kann Ihr Ray-Code mit Standarddateivorgängen Daten in diese NFS-Volumes lesen und schreiben.

Weitere Informationen

NFS-Freigaben verwenden

Verwaltetes Dataset

Zentralisierte Datenverwaltung und ‑steuerung: Verwaltete Datasets bieten einen zentralen Ort, an dem Sie Ihre Datasets innerhalb der Agent Platform organisieren und verwalten können. Das erleichtert die Nachverfolgung und Verwaltung Ihrer Daten-Assets in verschiedenen Projekten und Experimenten.
Datenkennzeichnung: Sie können Labeling-Aufgaben erstellen und Anmerkungssätze direkt im verwalteten Dataset verwalten.
Daten-Lineage verfolgen: Bei verwalteten Datasets wird die Lineage Ihrer Daten automatisch zu den darauf trainierten Modellen verfolgt. Das ist entscheidend, um die Datenquellen zu verstehen, die für bestimmte Modelle verwendet werden, und um Reproduzierbarkeit und Governance zu gewährleisten.
Vergleich von benutzerdefinierten Modellen und AutoML-Modellen: Mit verwalteten Datasets können Sie sowohl benutzerdefinierte Modelle als auch AutoML-Modelle mit denselben Daten trainieren. So lässt sich ihre Leistung anhand desselben Datasets direkt vergleichen, was Ihnen bei der Auswahl des besten Ansatzes für Ihr Problem hilft.
Datenstatistiken und ‑visualisierungen generieren: Mit der Agent Platform können automatisch Statistiken und Visualisierungen für die Daten in einem verwalteten Dataset generiert werden. Dies kann bei der explorativen Datenanalyse hilfreich sein und Ihnen helfen, die Merkmale Ihrer Daten zu verstehen.
Automatische Datenaufteilung: Wenn Sie verwaltete Datasets in Trainingspipelines verwenden, kann die Agent Platform Ihre Daten automatisch anhand der angegebenen Anteile, Filter, vordefinierten Aufteilungen oder Zeitstempel in Trainings-, Validierungs- und Test-Datasets aufteilen. Das vereinfacht die Datenaufbereitung.
Datensatzversionen verwenden: Bei verwalteten Datensätzen ist die Versionsverwaltung möglich. So können Sie Änderungen an Ihren Daten im Zeitverlauf nachverfolgen und bei Bedarf zu früheren Versionen zurückkehren.

Spezifisch für Ray in Vertex AI

Wenn Sie ein verwaltetes Dataset in einer Agent Platform-Trainingspipeline verwenden, in der Ray für verteiltes Training genutzt wird, werden die Daten aus dem verwalteten Dataset für die Trainingscontainer verfügbar gemacht. Ihre Ray-Anwendung kann dann darauf zugreifen (über eingebundene Cloud Storage- oder BigQuery-Quellen, wenn das Dataset mit diesen Quellen verknüpft ist). Die Umgebungsvariablen AIP_TRAINING_DATA_URI, AIP_VALIDATION_DATA_URI und AIP_TEST_DATA_URI würden auf die Daten verweisen.

Weitere Informationen

Verwaltete Datasets verwenden

BigQuery

Verbindung zu Daten in Agent Platform-Komponenten: Viele Agent Platform-Tools und -Dienste sind direkt in BigQuery integriert. Sie können Daten in BigQuery über JupyterLab abfragen. So können Sie Ihre BigQuery-Daten direkt für die Analyse, Visualisierung und Modellentwicklung verwenden, ohne sie in ein anderes Speichersystem verschieben zu müssen.
Trainingspipelines erstellen: Wenn Sie Trainingspipelines in der Agent Platform erstellen, können Sie Daten direkt aus BigQuery verwenden. Eine Pipeline kann beispielsweise Daten aus BigQuery abrufen, vorverarbeiten und dann ein Modell trainieren.
Pipelines für kontinuierliches Modelltraining: Wenn Sie kontinuierliches Modelltraining einrichten möchten, können Sie Pipelineausführungen basierend auf neuen Daten auslösen, die in einer BigQuery-Tabelle eingehen. So lässt sich das erneute Trainieren von Modellen automatisieren. Sie können einen Eventarc-Trigger konfigurieren, um eine Pipeline zu starten, wenn ein neuer Job in eine bestimmte BigQuery-Tabelle eingefügt wird.
Modellüberwachung: BigQuery kann als Quelle für die Überwachung von Feature-Abweichungen und ‑Drift Ihrer bereitgestellten Modelle verwendet werden. Für die Abweichungserkennung können Sie den BigQuery-URI Ihres Trainingsdatasets angeben. Außerdem können in BigQuery die Logs von Online-Inferenz-Endpunkten gespeichert werden, die dann als Datenquelle für die kontinuierliche Überwachung verwendet werden können. Dazu sollte Ihre BigQuery-Tabelle idealerweise eine Zeitstempelspalte haben.
BigQuery ML-Integration: Sie können BigQuery-Datasets verwenden, wenn Sie BigQuery ML zum Erstellen von Modellen für maschinelles Lernen mit SQL nutzen. Vertex AI Workbench ermöglicht die interaktive explorative Analyse von BigQuery-Daten und die Verwendung von BigQuery ML in einer Notebook-Umgebung.
Explorative Datenanalyse und Vorbereitung: Vor dem Training können Sie Ihre Daten mit BigQuery untersuchen und visualisieren. Sie können Datentransformationen auch mit SQL-Abfragen direkt in BigQuery durchführen, bevor Sie die Daten für das Training verwenden.
Auf öffentliche Datasets zugreifen: In BigQuery werden viele öffentliche Datasets gehostet, z. B. das Dataset „Chicago Taxi Trips“, das Sie in Vertex AI Workbench problemlos für Tests und Training verwenden können.

Spezifisch für Ray in Vertex AI

Ray in Vertex AI kann Daten direkt aus BigQuery lesen. Sie können das Agent Platform SDK für Python in einem Ray-Task verwenden, um BigQuery-Abfragen auszuführen und die Ergebnisse für die Verwendung in Ihren Ray-Anwendungen zu materialisieren.
Beachten Sie beim Lesen aus BigQuery die maximale Antwortgröße für Abfragen von 10 GB.
Mit dem Agent Platform SDK für Python können Sie auch Daten aus Ihren Ray-Anwendungen zurück in BigQuery schreiben.

Übersicht über die Datenvorbereitung Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Cloud Storage als bereitgestelltes Dateisystem (Cloud Storage FUSE)

Spezifisch für Ray auf der Agent Platform

Weitere Informationen

NFS-Freigabe (Network File System)

Spezifisch für Ray auf der Agent Platform

Weitere Informationen

Verwaltetes Dataset

Spezifisch für Ray in Vertex AI

Weitere Informationen

BigQuery

Spezifisch für Ray in Vertex AI

Weitere Informationen

Übersicht über die Datenvorbereitung