Serverlose Trainingsmethode für die Gemini Enterprise Agent Platform auswählen

Wenn Sie eigenen Trainingscode schreiben, statt AutoML zu verwenden, gibt es mehrere Möglichkeiten, um ein serverloses Training mit der Gemini Enterprise Agent Platform auszuführen. Dieses Dokument bietet eine kurze Übersicht sowie einen Vergleich der verschiedenen Möglichkeiten, wie Sie ein serverloses Training ausführen können.

Serverlose Trainingsressourcen in der Agent Platform

Es gibt drei Arten von Agent Platform-Ressourcen, die Sie zum Trainieren benutzerdefinierter Modelle in der Agent Platform erstellen können:

Beim Erstellen eines benutzerdefinierten Jobs legen Sie Einstellungen fest, die die Agent Platform zur Ausführung Ihres Trainingscodes benötigt. Dazu gehören:

Innerhalb der Worker-Pools können Sie die folgenden Einstellungen festlegen:

Für Hyperparameter-Abstimmungsjobs sind zusätzliche Einstellungen erforderlich, z. B. der Messwert. Weitere Informationen zur Hyperparameter-Abstimmungfinden Sie in diesem Artikel.

Eine Trainingspipeline orchestriert serverlose Trainingsjobs oder Hyperparameter-Abstimmungsjobs mit zusätzlichen Schritten. Dazu gehören z. B. das Laden eines Datasets oder das Hochladen des Modells in die Agent Platform, nachdem der Trainingsjob erfolgreich abgeschlossen wurde.

Serverlose Trainingsressourcen

Um vorhandene Trainingspipelines in Ihrem Projekt anzusehen, rufen Sie in der Google Cloud Konsole im Abschnitt Agent Platform die Seite Training Pipelines auf.

Zur Trainingspipeline

Um vorhandene benutzerdefinierte Jobs in Ihrem Projekt anzusehen, rufen Sie die Seite Benutzerdefinierte Jobs auf.

Zur Seite "Benutzerdefinierte Jobs"

Wenn Sie vorhandene Hyperparameter-Abstimmungsjobs in Ihrem Projekt ansehen möchten, rufen Sie die Seite Hyperparameter-Abstimmung auf.

Zur Seite "Hyperparameter-Abstimmung"

Vordefinierte und benutzerdefinierte Container

Bevor Sie einen serverlosen Trainingsjob, einen Hyperparameter-Abstimmungsjob oder eine Trainingspipeline an die Agent Platform senden, müssen Sie eine Python-Trainingsanwendung oder einen benutzerdefinierten Container erstellen, um den Trainingscode und die Abhängigkeiten zu definieren, die Sie in der Agent Platform ausführen möchten. Wenn Sie eine Python-Trainingsanwendung mit TensorFlow, scikit-learn oder XGBoost erstellen, können Sie den Code mit unseren vordefinierten Containern ausführen. Weitere Informationen zur Auswahl dieser Optionen finden Sie in den Anforderungen an den Trainingscode.

Verteiltes Training

Sie können einen serverlosen Trainingsjob, einen Hyperparameter-Abstimmungsjob oder eine Trainingspipeline für verteiltes Training konfigurieren. Dazu müssen Sie mehrere Worker-Pools angeben:

  • Verwenden Sie Ihren ersten Worker-Pool für die Konfiguration des primären Replikats und setzen Sie die Anzahl der Replikate auf 1.
  • Fügen Sie weitere Worker-Pools hinzu, um Worker-Replikate, Parameterserver-Replikate oder Evaluator-Replikate zu konfigurieren, wenn Ihr Framework für maschinelles Lernen diese zusätzlichen Clusteraufgaben für verteiltes Training unterstützt.

Verteiltes Training verwenden

Nächste Schritte