Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

KI- und ML-Modelle trainieren

Hier erfahren Sie, wie Sie KI- und ML-Modelle in der Google Cloud Data Agent Kit-Erweiterung für Visual Studio Code trainieren.

In dieser Kurzanleitung verwenden Sie eine Sitzungsvorlage und ein Beispiel-Jupyter-Notebook, um die Höhe des Trinkgelds für Taxis in New York City vorherzusagen. Mit einem Remote-Jupyter-Kernel mit PySpark testen Sie verschiedene Modelle wie lineare Regression, Random Forest und XGBoost. Mit diesem Prozess können Sie verteiltes Training und Inferenz durchführen. Es wird die Skalierbarkeit auf mehreren Computern mit Spark ML und der XGBoost-Bibliothek demonstriert.

Obwohl in dieser Kurzanleitung nicht behandelt, gibt es mehrere Möglichkeiten, KI- und ML-Modelle mit der Google Cloud Data Agent Kit-Erweiterung für Visual Studio Code zu trainieren:

Wenn Ihr Trainingsdataset groß ist oder Sie die Funktionen für verteiltes Training von Apache Spark nutzen möchten, können Sie Spark-Notebooks mit Remote-Kernels verwenden.
Wenn sich Ihr Dataset in BigQuery befindet und BigQuery ML Ihren Anwendungsfall unterstützt, können Sie ein BigQuery DataFrames-Notebook verwenden.
Wenn Ihr Dataset klein ist und Sie Ihr Modell lokal trainieren möchten, können Sie ein Python-Notebook verwenden.

Hinweis

Führen Sie zuerst folgende Schritte aus:

Spark-Laufzeitvorlage erstellen

Mit Serverless Spark-Laufzeitvorlagen können Sie eine Apache Spark-Sitzung mit einer bestimmten Konfiguration starten. So erstellen Sie eine neue Vorlage für die serverlose Laufzeit:

Klicken Sie in der Aktivitätsleiste der IDE auf das Symbol Google Cloud Data Agent Kit.
Maximieren Sie im Menü des Google Cloud Data Agent Kit Apache Spark.
Maximieren Sie Serverless und klicken Sie dann auf + Serverlose Runtimes erstellen. Ein Formular zur Erstellung der Serverless Runtime wird angezeigt.
Geben Sie im Feld Anzeigename den Wert ai-ml-tutorial ein.
Rufen Sie den Bereich Auto Scaling auf.
Setzen Sie spark.dynamicAllocation.enabled in der Drop-down-Liste auf „false“. Diese Einstellung ist erforderlich, damit XGBoost mit Apache Spark funktioniert.
Übernehmen Sie für alle anderen Felder die Standardeinstellungen.
Klicken Sie auf Senden.

Neues Notebook erstellen

Erstellen Sie als Nächstes ein neues Spark-Notebook:

Klicken Sie auf dem Tab „Google Cloud Data Agent Kit“ unter Apache Spark auf + Neues Spark-Notebook.
Wählen Sie Remote Kernel als Kerneltyp aus.
Klicken Sie auf Mit einem Beispiel-Notebook beginnen.
Wählen Sie in der Liste der Beispiele Data Science with PySpark and Distributed XGBoost (Data Science mit PySpark und verteiltem XGBoost) aus. Ein unbenanntes Jupyter-Notebook wird angezeigt.

Modell trainieren

Klicken Sie auf dem Tab „Notebook“ auf Alle ausführen. In der Kernelauswahl werden Sie aufgefordert, einen Kernel auszuwählen, mit dem das Notebook ausgeführt werden soll.
Klicken Sie auf Anderen Kernel auswählen.
Klicken Sie auf Remote Spark Kernels.
Wählen Sie das ai-ml-tutorial on Serverless Spark aus, die Runtime-Vorlage, die Sie zuvor erstellt haben.

Während das System Ihre Serverless Spark-Sitzung erstellt, wird die folgende Benachrichtigung angezeigt: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Wenn das Notebook eine Verbindung zum Remote-PySpark-Kernel herstellt, beginnt die Ausführung in der ersten Zelle. Dieser Vorgang dauert etwa zwei bis drei Minuten.

Spark-Sitzung prüfen

Maximieren Sie auf dem Tab „Google Cloud Data Agent Kit“ unter „Apache Spark“ die Laufzeitvorlage ai-ml-tutorial. In der IDE wird die Liste der interaktiven Sitzungen angezeigt, die Sie mit dieser Laufzeitvorlage erstellt haben.
Suchen Sie oben in der Liste nach der Sitzung, die vom System durch Ausführen des Notebooks erstellt wurde. Klicken Sie auf die Sitzung, um die Details aufzurufen. Sie können die Sitzungskonfiguration und die Ressourcen, die das System zum Ausführen Ihres Notebooks verwendet hat, einsehen.

Bereinigen

Führen Sie nach der erfolgreichen Ausführung des Notebooks die folgenden Bereinigungsschritte aus.

Klicken Sie auf dem Tab „Google Cloud Data Agent Kit“ unter „Apache Spark“ mit der rechten Maustaste auf Serverless und wählen Sie List Serverless Runtimes aus. Die Liste der serverlosen Runtimes wird angezeigt.
Klicken Sie für ai-ml-tutorial auf das Menü Aktion, um alle interaktiven Sitzungen aufzulisten, die das System aus Ihrer Vorlage erstellt hat.
Klicken Sie unter Aktionen auf Löschen.
Kehren Sie zum Fenster „Serverless Runtimes“ zurück.
Klicken Sie unter Aktionen für ai-ml-tutorial auf Löschen.
Klicken Sie auf Bestätigen, um die Vorlage zu löschen, die Sie für diese Anleitung erstellt haben.