Trainingsmethode auswählen

In diesem Dokument werden die wichtigsten Unterschiede zwischen dem Trainieren eines Modells in Vertex AI mit AutoML, benutzerdefiniertem Training oder Ray on Vertex AI und dem Trainieren eines Modells mit BigQuery ML erläutert.

  • Mit AutoML erstellen und trainieren Sie Modelle mit minimalem technischen Aufwand. Sie können mit AutoML schnell Prototypen von Modellen erstellen und neue Datasets untersuchen, bevor Sie in die Entwicklung investieren. Sie können damit beispielsweise ermitteln, welche Features für ein bestimmtes Dataset am besten geeignet sind.

  • Mit benutzerdefiniertem Training können Sie eine Trainingsanwendung erstellen, die für Ihr Ziel optimiert ist. Sie haben volle Kontrolle über die Funktionalität der Trainingsanwendung. Sie können beliebige Ziele festlegen, beliebige Algorithmen verwenden, eigene Verlustfunktionen oder -messwerte entwickeln oder andere Anpassungen vornehmen.

  • Mit Ray on Vertex AI können Sie das Framework für verteiltes Computing von Ray in der Google Cloud -Infrastruktur verwenden. Ray on Vertex AI bietet eine verwaltete Umgebung mit konfigurierbaren Rechenressourcen, Integration mit Diensten wie Vertex AI Inference und BigQuery sowie flexible Netzwerkoptionen für die Entwicklung und Ausführung verteilter Arbeitslasten.

  • Mit BigQuery können Sie Modelle unter Einsatz Ihrer BigQuery-Daten direkt in BigQuery trainieren. Mit SQL-Befehlen können Sie schnell ein Modell erstellen und damit Batchinferenzen erhalten.

In der folgenden Tabelle finden Sie einen Vergleich der verschiedenen Funktionen und Fachkenntnisse, die für die einzelnen Dienste erforderlich sind.

AutoML Benutzerdefiniertes Training Ray in Vertex AI BigQuery ML
Data-Science-Fachwissen erforderlich Nein Ja, um die Trainingsanwendung zu entwickeln und auch, um einen Teil der Datenvorbereitung wie Feature Engineering durchzuführen. Grundlegendes Verständnis von Konzepten für maschinelles Lernen und Data-Science-Workflows ist von Vorteil. Nein
Programmierkenntnisse erforderlich Nein, AutoML ist codelos. Ja, um die Trainingsanwendung zu entwickeln. Ja. Ja.
Zeit zum Trainieren des Modells Weniger. Es ist weniger Datenvorbereitung erforderlich und es ist keine Entwicklung erforderlich. Höher. Mehr Datenvorbereitung ist erforderlich und die Entwicklung von Trainingsanwendungen ist erforderlich. Durch verteiltes Training kann die Zeit verkürzt werden, die zum Trainieren eines Modells erforderlich ist. Die Trainingszeit hängt von der Codelogik (Datenvorbereitung und Training) und der Zeit für die Bereitstellung von Ressourcen ab. Weniger. Die Geschwindigkeit der Modellentwicklung wird erhöht, da Sie die für Batchinferenzen oder das Modelltraining erforderliche Infrastruktur nicht erstellen müssen, da BigQuery ML das BigQuery-Rechensystem nutzt. Dies erhöht die Geschwindigkeit von Training, Bewertung und Inferenz.
Grenzwerte für Ziele für maschinelles Lernen Ja. Sie müssen eines der vordefinierten AutoML-Ziele festlegen. Nein Nein Ja
Kann die Modellleistung manuell mit Hyperparameter-Abstimmung optimieren Nein. AutoML führt Schritte einer automatischen Hyperparameter-Abstimmung aus, aber Sie können die verwendeten Werte nicht ändern. Ja. Sie können das Modell während jedes Trainingslaufs optimieren, um zu experimentieren und Vergleiche anzustellen. Ja. Da Sie den benutzerdefinierten Trainingscode bereitstellen, können Sie die Werte Ihrer Hyperparameter manuell festlegen oder anpassen, bevor Sie einen Ray-Job in Vertex AI starten. Ja. BigQuery ML unterstützt die Hyperparameter-Abstimmung beim Trainieren von ML-Modellen über `CREATE MODEL`-Anweisungen.
Kann Aspekte der Trainingsumgebung steuern Begrenzt. Bei Image- und tabellarischen Datasets können Sie die Anzahl der Knotenstunden für das Training angeben und ob die vorzeitige Beendigung des Trainings erlaubt werden soll. Ja. Sie können Aspekte der Umgebung angeben, z. B. den Compute Engine-Maschinentyp, die Laufwerksgröße, das Framework für maschinelles Lernen und die Anzahl der Knoten sowie das Docker-Image, das Sie für das Training verwenden möchten. Ja. Sie haben die Kontrolle über verschiedene Aspekte der Trainingsumgebung. Sie können beispielsweise Ihre eigenen benutzerdefinierten Docker-Container-Images für Ihren Ray-Cluster in Vertex AI verwenden. Beim Erstellen eines Ray-Clusters können Sie den Maschinentyp für den Hauptknoten und die Worker-Knoten angeben, einschließlich der Anzahl und des Typs der Beschleuniger (GPUs), die Sie verwenden möchten. Nein
Limits bei der Datengröße

Ja. AutoML verwendet verwaltete Datasets. Das Daten-Größenlimit hängt vom Typ des Datasets ab. Weitere Informationen finden Sie unter folgenden Themen:

Nicht für nicht verwaltete Datasets. Verwaltete Datasets haben dieselben Limits wie verwaltete Dataset-Objekte, die von BigQuery erstellt und gehostet werden, und zum Trainieren von AutoML-Modellen verwendet. Nein. Für BigQuery-Lesevorgänge gilt jedoch eine maximale Größe der Abfrageantwort von 10 GB. Dies ist eine Einschränkung der BigQuery API-Antwortgröße und nicht unbedingt eine Einschränkung der Gesamtmenge an Daten, die Ray on Vertex AI über iterative oder parallele Abfragen aus BigQuery verarbeiten kann. Ja. In BigQuery ML werden geeignete Kontingente pro Projekt festgelegt. Weitere Informationen finden Sie unter Kontingente und Limits.

Nächste Schritte