Tabellarische Hello-Daten: Dataset erstellen und AutoML-Klassifizierungsmodell trainieren

Erstellen Sie mit der Google Cloud Console ein tabellarisches Dataset und trainieren Sie ein Klassifizierungsmodell.

Tabellarisches Dataset erstellen

  1. Rufen Sie in der Google Cloud Console im Abschnitt „Agent Platform“ die Seite Datasets auf.

    Zur Seite „Datasets“

  2. Klicken Sie in der Schaltflächenleiste auf Erstellen, um ein neues Dataset anzulegen.

  3. Geben Sie Structured_AutoML_Tutorial für den Dataset-Namen ein und wählen Sie den Tab Tabellarisch aus.

  4. Wählen Sie das Ziel Regression/Klassifizierung aus.

    Übernehmen Sie für Region den Wert us-central1.

  5. Klicken Sie auf Erstellen, um das Dataset anzulegen.

    Für diese Anleitung verwenden Sie ein öffentlich verfügbares Bank-Dataset, das in Cloud Storage gehostet wird.

  6. Klicken Sie unter Datenquelle auswählen auf CSV-Dateien aus Cloud Storage auswählen.

  7. Geben Sie unter Dateipfad importieren cloud-ml-tables-data/bank-marketing.csv ein.

  8. Klicken Sie auf Weiter.

Dataset analysieren

Im Abschnitt "Analysieren" können Sie weitere Informationen zum Dataset anzeigen, z. B. fehlende oder NULL-Werte.

Da unser Dataset für diese Anleitung korrekt formatiert ist, müssen Sie auf dieser Seite nichts tun und können diesen Abschnitt überspringen.

  1. Optional: Klicken Sie auf Statistiken generieren, um die Anzahl der fehlenden Werte oder NULL-Werte im Dataset zu sehen. Dies kann 10 Minuten oder länger dauern.

  2. Optional: Klicken Sie auf eine der Featurespalten, um mehr über die Datenwerte zu erfahren.

AutoML-Klassifizierungsmodell trainieren

  1. Klicken Sie auf Neues Modell trainieren.

  2. Wählen Sie Sonstiges aus.

  3. Prüfen Sie im Bereich Trainingsmethode, ob das zuvor erstellte Dataset für das Feld Dataset ausgewählt ist.

  4. Wählen Sie für das Feld Ziel die Option Klassifizierung aus.

  5. Prüfen Sie, ob die AutoML-Trainingsmethode ausgewählt ist.

  6. Klicken Sie auf Weiter.

  7. Wählen Sie im Bereich Modelldetails für die Zielspalte Zahlung aus und klicken Sie auf Weiter.

    Das Zielmodell wird zum Trainieren des Modells für die Vorhersage verwendet. Für das Dataset bank-marketing.csv gibt die Spalte Deposit an, ob der Kunde Termingeld erworben hat (2 = Ja, 1 = Nein).

    Im Bereich Trainingsoptionen können Sie Funktionen hinzufügen und Spaltendaten transformieren. Wenn keine Spalten ausgewählt sind, werden standardmäßig alle Nicht-Zielspalten als Features für das Training verwendet. Dieses Dataset ist einsatzbereit, sodass Sie keine Transformationen anwenden müssen.

  8. Klicken Sie auf Weiter.

  9. Geben Sie im Bereich Computing und Preise für das Trainingsbudget 1 ein.

    Das Trainingsbudget ist die maximale Zeit, die für das Training des Modells aufgewendet wird. Die tatsächliche Zeit kann leicht variieren. Dieser Wert wird mit dem Preis pro Knotenstunde multipliziert, um die Gesamtkosten für das Training zu berechnen. Mehr Trainingsstunden führen zu einem genaueren Modell (bis zu einem gewissen Punkt), aber auch zu höheren Kosten. Für die Entwicklung ist ein niedriges Budget in Ordnung, für die Produktion ist es jedoch wichtig, ein ausgewogenes Verhältnis zwischen Kosten und Genauigkeit zu finden.

  10. Klicken Sie auf Training starten.

Wenn das Training vom Modell abgeschlossen wurde, wird es auf dem Tab „Modell“ als aktiver Link mit einem grünen Häkchensymbol angezeigt.

Nächste Schritte

Ihr Modell wird jetzt trainiert. Dies kann eine Stunde oder länger dauern. Sobald das Training abgeschlossen ist, senden wir Ihnen eine E-Mail. Wenn das Modell das Training abgeschlossen hat, führen Sie die nächste Seite dieser Anleitung aus, um das Modell bereitzustellen und eine Vorhersage anzufordern.

In dieser Anleitung wird ein Dataset verwendet, das für das AutoML-Training bereinigt und formatiert wurde. Die meisten Daten erfordern jedoch einige Arbeit, bevor es verwendet werden kann. Die Qualität der Trainingsdaten beeinflusst die Effektivität der von Ihnen erstellten Modelle. Weitere Informationen über die Vorbereitung von Daten.

Das Beschaffen und Vorbereiten Ihrer Daten ist entscheidend, um ein genaues Modell für maschinelles Lernen zu gewährleisten. Weitere Informationen zu Best Practices.

Weitere Informationen zum Erstellen eines tabellarischen Datasets.

Die Gemini Enterprise Agent Platform bietet zwei Modelltrainingsmethoden: AutoML und benutzerdefiniertes Training. AutoML ermöglicht Ihnen, Training mit minimalem Aufwand und minimalen einschlägigen ML-Kenntnissen zu trainieren. Benutzerdefiniertes Training hingegen bietet vollständige Kontrolle über die Trainingsfunktionalität. Weitere Informationen zu Trainingsmethoden.

Gemini Enterprise Agent Platform untersucht den Quelldatentyp und die Merkmalswerte und leitet ab, wie dieses Merkmal beim Modelltraining verwendet wird. Es wird empfohlen, den Datentyp jeder Spalte zu prüfen, um sicherzustellen, dass sie richtig interpretiert wurde. Bei Bedarf können Sie für jedes Feature eine andere unterstützte Transformation angeben. Weitere Informationen zu Transformationen.

Weitere Informationen zum Trainieren eines AutoML für die Klassifizierung oder Regression.