In dieser Anleitung erfahren Sie, wie Sie mit dem Colab Enterprise Data Science Agent mithilfe von Prompts in natürlicher Sprache ein Modell für maschinelles Lernen (ML) erstellen.
In der Anleitung erstellen Sie ein ML-Modell, um den Spirituosenverkauf anhand des öffentlichen Datasets „Iowa liquor retail sales“ vorherzusagen. Mit dem KI-basierten Agent können Sie Prompts in natürlicher Sprache verwenden, um Code direkt in einem Notebook zu schreiben, zu erklären und Fehler zu beheben. So können Sie Ihre Data-Science-Workflows beschleunigen.
Diese Anleitung richtet sich an Data Scientists.
Ziele
In dieser Anleitung erfahren Sie, wie Sie mit dem Data Science Agent die folgenden Aufgaben ausführen:
- Explorative Datenanalyse (EDA) des öffentlichen Datasets „Iowa liquor retail sales“ durchführen, um Datenverteilungen zu verstehen, nach fehlenden Werten zu suchen und die allgemeine Datenqualität zu überprüfen.
- Die Geschäfte ermitteln, in denen die meisten Liter Alkohol aller Produkte verkauft wurden.
- Mit BigQuery ML ein Modell erstellen, trainieren und bewerten, das den Spirituosenverkauf vorhersagt.
- Wichtige Erkenntnisse und die Modellleistung generieren und zusammenfassen.
Kosten
In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:
Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.
Verwenden Sie den Preisrechner.
Nach Abschluss der in diesem Dokument beschriebenen Aufgaben können Sie weitere Kosten vermeiden, indem Sie die erstellten Ressourcen löschen. Weitere Informationen finden Sie unter Bereinigen.
Hinweis
- Melden Sie sich in Ihrem Google Cloud Konto an. Wenn Sie noch nicht mit Google Cloudvertraut sind, erstellen Sie ein Konto, um die Leistung unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Aktivieren Sie die BigQuery-, Gemini for Google Cloud-, Dataform- und Compute Engine-APIs.
Rollen, die zum Aktivieren von APIs erforderlich sind
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (
roles/serviceusage.serviceUsageAdmin), die die Berechtigungserviceusage.services.enableenthält. Weitere Informationen zum Zuweisen von Rollen.Bei neuen Projekten ist die BigQuery API ist automatisch aktiviert.
Erforderliche Rollen
Wenn Sie ein neues Projekt erstellt haben, verfügen Sie über alle erforderlichen Berechtigungen, um diese Anleitung durchzuarbeiten. Wenn Sie ein vorhandenes Projekt verwenden, bitten Sie Ihren Administrator, Ihnen die folgenden Rollen zuzuweisen.
Berechtigungen zum Erstellen und Ausführen von Notebooks
Bitten Sie Ihren Administrator, Ihnen für das Projekt die IAM-Rolle BigQuery Studio-Nutzer (roles/bigquery.studioUser) zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen und Ausführen von Notebooks benötigen.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Informationen zu den Berechtigungen, die zum Erstellen und Ausführen von Notebooks erforderlich sind, finden Sie in den Schritten zur Einrichtung auf der Seite Notebooks erstellen.
Weitere Informationen zu BigQuery Identity and Access Management (IAM) finden Sie unter Zugriffssteuerung mit IAM.
Colab Enterprise-Notebook erstellen und mit einer Laufzeit verbinden
Colab Enterprise-Notebooks sind BigQuery Studio Code-Assets, die auf Dataform basieren. Sie können Notebooks verwenden, um Analyse- und ML-Workflows mithilfe von SQL, Python und anderen gängigen Paketen und APIs abzuschließen.
So erstellen Sie ein neues Notebook und verbinden es mit der Standardlaufzeit:
Rufen Sie die Seite BigQuery auf.
Maximieren Sie im linken Bereich Ihr Projekt und klicken Sie dann auf Notebooks.
Klicken Sie auf Neues Notebook > Leeres Notebook.
Klicken Sie auf Speichern.
Klicken Sie auf den Tab Notebooks, um das neue Notebook zu sehen. Möglicherweise müssen Sie auf Aktualisieren Aktualisieren klicken .
Klicken Sie für Ihr unbenanntes Notebook auf more_vert Aktionen öffnen und wählen Sie dann Umbenennen aus.
Geben Sie unter Notebook-Name
predict_liquor_salesein und klicken Sie dann auf Umbenennen.Klicken Sie auf den Tab
predict_liquor_sales.Klicken Sie in der Notebook-Symbolleiste auf Verbinden, um Ihr Notebook mit der Standardlaufzeitumgebung zu verbinden.
Data Science Agent zum Analysieren der Daten verwenden
Der Data Science Agent ist ein Gemini-basierter Assistent, der Code direkt in Ihrem Notebook schreiben, erklären und Fehler beheben kann. Er kann Sie bei Aufgaben unterstützen, die von der explorativen Datenanalyse bis hin zur Generierung von Vorhersagen und Prognosen für maschinelles Lernen reichen, einschließlich der folgenden:
- Pläne erstellen : Erstellen Sie einen detaillierten Plan, um ein Data-Science-Problem zu lösen.
- Datenexploration und ‑bereinigung : Fehlende Werte und Ausreißer ermitteln und Verteilungen visualisieren.
- Feature Engineering : Kategoriale Merkmale umwandeln und neue erstellen.
- Modelltraining und ‑bewertung : Modelle wie die lineare Regression oder Random Forest trainieren und ihre Leistung vergleichen.
In dieser Anleitung verwenden Sie den Data Science Agent, um Daten im öffentlichen Dataset „Iowa liquor retail sales“, zu analysieren und ein Modell zu erstellen, das den Spirituosenverkauf vorhersagt.
So verwenden Sie den Data Science Agent zum Analysieren der Daten:
Wenn das Gemini-Chatfenster in Ihrem Notebook
predict_liquor_salesnicht geöffnet ist, klicken Sie auf spark Gemini in Colab aktivieren/deaktivieren, um das Chatfenster zu öffnen.Geben Sie in der Chatoberfläche den folgenden Prompt ein:
Analyze the liquor sales data from bigquery-public-data.iowa_liquor_sales.sales by performing exploratory data analysis. Find the stores that sold the most gallons of alcohol across all products. Then, create a model that predicts liquor sales by store by using BigQuery ML. Visualize the results, evaluate the model, summarize the model's performance, and provide any key insights.Prüfen Sie, ob das Modell auf Gemini 3.0 Flash festgelegt ist.
Klicken Sie auf Senden.
Sehen Sie sich den vom Agent generierten Plan an. Der Plan sieht ungefähr so aus:
„Ich habe die Anfrage nach Daten zum Spirituosenverkauf in Iowa analysiert und einen strategischen Plan erstellt. Da die Daten in BigQuery gespeichert sind und Sie BigQuery ML verwenden möchten, beginnen wir mit der Datenexploration, ermitteln die leistungsstärksten Geschäfte und erstellen dann ein Regressionsmodell, um den Umsatz vorherzusagen. Hier ist der detaillierte Plan:
- Datenexploration und ‑profiling: Führen Sie eine erste Exploration der Tabelle „bigquery-public-data.iowa_liquor_sales.sales“ durch, um die Datenverteilung zu verstehen, nach fehlenden Werten zu suchen und die Datenqualität für wichtige Spalten wie Geschäftsinformationen, verkaufte Menge und Umsatz in US-Dollar zu überprüfen.
- Top-Geschäfte nach Menge ermitteln: Aggregieren Sie die insgesamt verkauften Liter Alkohol pro Geschäft für alle Produkte und ermitteln Sie die leistungsstärksten Geschäfte.
- Datenvorbereitung: Bereiten Sie die Trainingsdaten vor, indem Sie den Spirituosen verkauf nach Geschäft aggregieren und relevante Merkmale für das Vorhersagemodell auswählen.
- Modellentwicklung: Trainieren Sie mit BigQuery ML ein Regressionsmodell, um den Spirituosenverkauf für jedes Geschäft vorherzusagen.
- Modellbewertung: Bewerten Sie die Leistung des trainierten Modells anhand von Standardmesswerten für die Regression.
- Modellvorhersage: Generieren Sie mit dem trainierten Modell Vorhersagen für den Spirituosenverkauf.
- Visualisierung: Erstellen Sie ein Streudiagramm, in dem der vorhergesagte Spirituosen verkauf mit den tatsächlichen Werten verglichen wird, um die Genauigkeit des Modells visuell zu bewerten.
- Aufgabe abschließen: Fassen Sie die Leistung des Modells zusammen, geben Sie wichtige Erkenntnisse zum Umsatz der Geschäfte und schließen Sie die Analyse ab."
Nachdem Sie den Plan überprüft haben, klicken Sie auf Akzeptieren und ausführen. Der Agent generiert die erste Teilaufgabe: Datenexploration und ‑profiling. Der Agent pausiert, bis Sie den Code überprüft und akzeptiert haben. Wenn der Agent auf eine Nutzereingabe wartet, werden die generierten Zellen mit einem grünen Hintergrund gerendert.
Sehen Sie sich die generierte Codezelle und die Begründung des Agent an.
Klicken Sie auf Akzeptieren und ausführen. Wenn der Agent Probleme mit seinem Ansatz hat, gibt er eine Begründung, wie das Problem behoben werden kann, und fordert Sie auf, den geänderten Code zu akzeptieren.
Sehen Sie sich die Ausgabe in der Codezelle an.
Unter den Ergebnissen erstellt der Agent eine neue Zelle, um die nächste Teilaufgabe abzuschließen: die Geschäfte mit dem höchsten Spirituosenverkauf zu ermitteln.
Sehen Sie sich den generierten SQL-Code an, mit dem die Daten nach den Top-Geschäften nach verkauften Litern Alkohol abgefragt werden. Sie können die Begründung des Agent sehen, indem Sie die Textzelle Begründung über dem Code aufrufen. Wenn Sie der Meinung sind, dass der Code korrekt ist, klicken Sie auf Akzeptieren und ausführen.
Sehen Sie sich die Abfrageergebnisse in der Ausgabe der Zelle an. Die Ergebnisse sehen ungefähr so aus:
Sehen Sie sich den Code und die Begründung an, die der Agent für die nächste Teilaufgabe generiert hat: die Daten für das Modelltraining vorbereiten.
Nachdem Sie geprüft haben, ob der SQL-Code korrekt ist, klicken Sie auf Akzeptieren und ausführen.
Sehen Sie sich die Ausgabe in der Codezelle an. Sie sehen eine Meldung wie
JOB ID 123456 successfully executed.Sehen Sie sich den Code und die Begründung an, die der Agent für die nächste Teilaufgabe generiert hat: das Regressionsmodell trainieren.
Nachdem Sie den Code und die Begründung gesehen haben, klicken Sie auf Akzeptieren und ausführen.
Sehen Sie sich die Ausgabe in der Codezelle an. Sie sehen eine Meldung wie
JOB ID 123456 successfully executed.Sehen Sie sich den Code und die Begründung an, die der Agent für die nächste Teilaufgabe generiert hat: Modellbewertung.
Nachdem Sie den Code und die Begründung gesehen haben, klicken Sie auf Akzeptieren und ausführen.
Sehen Sie sich die Ausgabe in der Codezelle an.
Sehen Sie sich den Code und die Begründung an, die der Agent für die nächste Teilaufgabe generiert hat: Vorhersagen generieren.
Nachdem Sie den Code und die Begründung gesehen haben, klicken Sie auf Akzeptieren und ausführen.
Sehen Sie sich die Ausgabe in der Codezelle an. Sie sehen eine Meldung wie
JOB ID 123456 successfully executed.Nachdem die Abfrage ausgeführt wurde, erstellt der Agent eine Codezelle für die nächste Teilaufgabe: die Daten visualisieren.
Nachdem Sie den Code und die Begründung gesehen haben, klicken Sie auf Akzeptieren und ausführen.
Sehen Sie sich die Ausgabe in der Codezelle an. Sie sehen ein Diagramm, in dem der tatsächliche und der vorhergesagte Spirituosenverkauf dargestellt sind. Das Diagramm sieht dann ungefähr so aus:
Nachdem das Diagramm generiert wurde, erstellt der Agent eine Zusammenfassung der Ergebnisse mit wichtigen Erkenntnissen.
Nachdem Sie die Zusammenfassung überprüft haben, klicken Sie auf Akzeptieren , um den Plan abzuschließen.
Bereinigen
Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.
Damit Ihrem Google Cloud Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, können Sie das erstellte Notebook löschen. So löschen Sie Ihr Notebook:Rufen Sie die Seite BigQuery auf.
Maximieren Sie im linken Bereich Ihr Projekt und klicken Sie dann auf Notebooks.
Klicken Sie für Ihr
predict_liquor_salesNotebook auf more_vert Aktionen öffnen und wählen Sie dann Löschen aus.Klicken Sie auf Löschen , um das Notebook zu entfernen.
Nächste Schritte
- Informationen zu den Funktionen des Data Science Agent.
- Weitere Informationen zu Colab Enterprise-Notebooks in BigQuery.
- Dokumentation zu Gemini in BigQuery lesen.