KI- und ML-Modelle trainieren

Informationen zum Trainieren von KI- und ML-Modellen in der Erweiterung Google Cloud Data Agent Kit für Visual Studio Code

In dieser Kurzanleitung verwenden Sie eine Sitzungsvorlage und ein Jupyter-Beispielnotebook, um die Trinkgeldbeträge für Taxis in New York City vorherzusagen. Mit einem Remote-Jupyter-Kernel mit PySpark testen Sie verschiedene Modelle wie lineare Regression, Random Forest und XGBoost. Auf diese Weise können Sie verteiltes Training und Inferenz durchführen. Es wird die Skalierbarkeit auf mehreren Computern mit Spark ML und der XGBoost-Bibliothek demonstriert.

Obwohl in dieser Kurzanleitung nicht behandelt, gibt es mehrere Möglichkeiten, KI- und ML-Modelle mit der Erweiterung Google Cloud Data Agent Kit für Visual Studio Code zu trainieren:

  • Wenn Ihr Trainingsdataset groß ist oder Sie die Funktionen für verteiltes Training von Apache Spark nutzen möchten, können Sie Spark-Notebooks mit Remote-Kerneln verwenden.
  • Wenn sich Ihr Dataset in BigQuery befindet und BigQuery ML Ihren Anwendungsfall unterstützt, können Sie ein BigQuery DataFrames-Notebook verwenden.
  • Wenn Ihr Dataset klein ist und Sie Ihr Modell lokal trainieren möchten, können Sie ein Python-Notebook verwenden.

Spark-Laufzeitvorlage erstellen

Mit Serverless Spark-Laufzeitvorlagen können Sie eine Apache Spark-Sitzung mit einer bestimmten Konfiguration starten. So erstellen Sie eine neue Serverless-Laufzeitvorlage:

  1. Klicken Sie in der Aktivitätsleiste der IDE auf das Symbol Google Cloud Data Agent Kit.
  2. Maximieren Sie im Menü „Google Cloud Data Agent Kit“ die Option Apache Spark.
  3. Maximieren Sie Serverless und klicken Sie dann auf + Serverless-Laufzeiten erstellen. Ein Formular zum Erstellen einer Serverless-Laufzeit wird angezeigt.
  4. Geben Sie im Feld Anzeigename ai-ml-tutorial ein.
  5. Rufen Sie den Abschnitt Autoscaling auf.
  6. Setzen Sie spark.dynamicAllocation.enabled in der Drop-down-Liste auf „false“. Diese Einstellung ist erforderlich, damit XGBoost mit Apache Spark funktioniert.
  7. Behalten Sie für alle anderen Felder die Standardeinstellung bei.
  8. Klicken Sie auf Senden.

Neues Notebook erstellen

Erstellen Sie als Nächstes ein neues Spark-Notebook:

  1. Klicken Sie auf dem Tab „Google Cloud Data Agent Kit“ unter Apache Spark auf + Neues Spark Notebook.
  2. Wählen Sie als Kerneltyp Remote-Kernel aus.
  3. Klicken Sie auf Mit einem Beispielnotebook beginnen.
  4. Wählen Sie in der Liste der Beispiele Data Science with PySpark and Distributed XGBoost aus. Ein unbenanntes Jupyter-Notebook wird angezeigt.

Modell trainieren

  1. Klicken Sie auf dem Tab „Notebook“ auf Alle ausführen. In der Kernel-Auswahl werden Sie aufgefordert, einen Kernel für die Ausführung des Notebooks auszuwählen.
  2. Klicken Sie auf Anderen Kernel auswählen.
  3. Klicken Sie auf Remote-Spark-Kernel.
  4. Wählen Sie das ai-ml-tutorial on Serverless Spark aus, die Laufzeitvorlage, die Sie zuvor erstellt haben.

Während das System Ihre Serverless Spark-Sitzung erstellt, wird die folgende Benachrichtigung angezeigt: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Wenn das Notebook mit dem Remote-PySpark-Kernel verbunden ist, beginnt die Ausführung in der ersten Zelle. Dieser Vorgang dauert etwa zwei bis drei Minuten.

Spark-Sitzung prüfen

  1. Maximieren Sie auf dem Tab „Google Cloud Data Agent Kit“ unter „Apache Spark“ die Laufzeitvorlage ai-ml-tutorial. In der IDE wird die Liste der interaktiven Sitzungen angezeigt, die Sie mit dieser Laufzeitvorlage erstellt haben.
  2. Suchen Sie oben in der Liste nach der Sitzung, die vom System durch Ausführen des Notebooks erstellt wurde. Klicken Sie auf die Sitzung, um die Details aufzurufen. Sie können die Sitzungskonfiguration und die Ressourcen prüfen, die vom System zum Ausführen des Notebooks verwendet wurden.

Bereinigen

Führen Sie nach dem erfolgreichen Ausführen des Notebooks die folgenden Bereinigungsschritte aus.

  1. Klicken Sie auf dem Tab „Google Cloud Data Agent Kit“ unter „Apache Spark“ mit der rechten Maustaste auf Serverless und wählen Sie Serverless-Laufzeiten auflisten aus. Die Liste der Serverless-Laufzeiten wird angezeigt.
  2. Klicken Sie für ai-ml-tutorial auf das Menü Aktion , um alle interaktiven Sitzungen aufzulisten, die vom System aus Ihrer Vorlage erstellt wurden.
  3. Klicken Sie unter Aktionen auf Löschen.
  4. Kehren Sie zum Fenster „Serverless-Laufzeiten“ zurück.
  5. Klicken Sie unter Aktionen für ai-ml-tutorial auf Löschen.
  6. Klicken Sie auf Bestätigen , um die Vorlage zu löschen, die Sie für diese Kurzanleitung erstellt haben.

Nächste Schritte