Data Science Agent verwenden
In dieser Anleitung wird beschrieben, wie Sie den Data Science Agent in Colab Enterprise verwenden können, um Data Science-Aufgaben in Ihren Notebooks auszuführen.
Weitere Informationen dazu, wie und wann Gemini forIhre Daten verwendet. Google Cloud
Dieses Dokument richtet sich an Datenanalysten, Data Scientists und Datenentwickler, die mit Colab Enterprise arbeiten. Es wird davon ausgegangen, dass Sie wissen, wie Sie Code in einer Notebookumgebung schreiben.
Funktionen des Data Science Agent
Der Data Science Agent kann Sie bei Aufgaben unterstützen, die von der explorativen Datenanalyse bis hin zur Generierung von Vorhersagen und Prognosen für maschinelles Lernen reichen. Sie können den Data Science Agent für Folgendes verwenden:
- Datenverarbeitung im großen Maßstab: Mit BigQuery ML, BigQuery DataFrames oder Serverless for Apache Spark können Sie die verteilte Datenverarbeitung für große Datasets ausführen. So können Sie Daten, die zu groß sind, um auf einem einzelnen Computer in den Arbeitsspeicher zu passen, effizient bereinigen, transformieren und analysieren.
- Pläne erstellen: Erstellen und ändern Sie einen Plan, um eine bestimmte Aufgabe mit gängigen Tools wie Python, SQL, Apache Spark und BigQuery DataFrames auszuführen.
- Datenexploration: Untersuchen Sie ein Dataset, um seine Struktur zu verstehen, potenzielle Probleme wie fehlende Werte und Ausreißer zu identifizieren und die Verteilung der wichtigsten Variablen zu analysieren.
- Datenbereinigung: Bereinigen Sie Ihre Daten. Entfernen Sie beispielsweise Datenpunkte, die Ausreißer sind.
- Datenaufbereitung: Konvertieren Sie kategoriale Merkmale mithilfe von Techniken wie der One-Hot-Codierung oder der Labelcodierung in numerische Darstellungen. Erstellen Sie neue Merkmale für die Analyse.
- Datenanalyse: Analysieren Sie die Beziehungen zwischen verschiedenen Variablen. Berechnen Sie Korrelationen zwischen numerischen Merkmalen und analysieren Sie die Verteilungen kategorialer Merkmale. Suchen Sie nach Mustern und Trends in den Daten.
- Datenvisualisierung: Erstellen Sie Visualisierungen wie Histogramme, Box-Plots, Streudiagramme und Balkendiagramme, die die Verteilungen von einzelnen Variablen und die Beziehungen zwischen ihnen darstellen.
- Feature Engineering: Erstellen Sie neue Merkmale aus einem bereinigten Dataset.
- Datenaufteilung: Teilen Sie ein vorbereitetes Dataset in Trainings-, Validierungs-, und Test-Datasets auf.
- Modelltraining: Trainieren Sie ein Modell mit den Trainingsdaten in einem Pandas
DataFrame, einem
BigQuery-DataFrame,
einem PySpark-DataFrame,
oder mit der BigQuery ML
CREATE MODELAnweisung mit BigQuery-Tabellen. - Modelloptimierung: Optimieren Sie ein Modell mit dem Validierungs-Dataset.
Untersuchen Sie alternative Modelle wie
DecisionTreeRegressorundRandomForestRegressorund vergleichen Sie ihre Leistung. - Modellbewertung: Bewerten Sie die Modellleistung anhand eines Test-Datasets mit einem Pandas-DataFrame, BigQuery-DataFrames oder einem PySpark-DataFrame. Sie können auch die Modellqualität bewerten und Modelle vergleichen, indem Sie BigQuery ML Modellbewertungsfunktionen für Modelle verwenden, die mit BigQuery ML trainiert wurden.
- Modellinferenz: Führen Sie Inferenzen mit BigQuery ML-trainierten
Modellen, importierten Modellen und Remote-Modellen mithilfe von BigQuery ML
Inferenzfunktionen aus. Sie können auch
die BigQuery DataFrames
model.predict()Methode oder PySpark Transformer verwenden, um Vorhersagen zu treffen.
Beschränkungen
- Der Data Science Agent unterstützt die folgenden Datenquellen:
- CSV-Dateien
- BigQuery-Tabellen
- Der vom Data Science Agent erstellte Code wird nur in der Laufzeit Ihres Notebooks ausgeführt.
- Ihr Notebook muss sich in einer Region befinden, die vom Data Science Agent unterstützt wird. Weitere Informationen finden Sie unter Standorte.
- Der Data Science Agent wird in Projekten, in denen VPC Service Controls aktiviert ist, nicht unterstützt.
- Wenn Sie den Data Science Agent zum ersten Mal ausführen, kann es zu einer Latenz von etwa fünf bis zehn Minuten kommen. Dies geschieht nur einmal pro Projekt bei der Ersteinrichtung.
- Die Suche nach BigQuery-Tabellen mit der Funktion
@mentionist auf Ihr aktuelles Projekt beschränkt. Verwenden Sie die Tabellenauswahl, um projektübergreifend zu suchen. - Die Funktion
@mentionsucht nur nach BigQuery-Tabellen. Wenn Sie nach Datendateien suchen möchten, die Sie hochladen können, verwenden Sie das Symbol+. - PySpark im Data Science Agent generiert nur Apache Spark 4.0-Code. Der DSA kann Sie beim Upgrade auf Apache Spark 4.0 unterstützen. Nutzer, die frühere Versionen von Apache Spark benötigen, sollten den Data Science Agent jedoch nicht verwenden.
Hinweis
- Melden Sie sich in Ihrem Google Cloud Konto an. Wenn Sie noch kein Konto haben Google Cloud, erstellen Sie ein Konto, um die Leistung unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Colab Enterprise User (roles/aiplatform.colabEnterpriseUser) für das Projekt zuzuweisen, damit Sie die erforderlichen Berechtigungen zum Verwenden des Data Science Agent in Colab Enterprise erhalten.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Auf Ihre Daten verweisen
Damit der Data Science Agent von Colab Enterprise auf Ihre Daten zugreifen und damit arbeiten kann, können Sie eine CSV-Datei hochladen oder auf eine BigQuery-Tabelle verweisen.
CSV-Datei
-
Rufen Sie in der Google Cloud Console die Seite Meine Notebooks für Colab Enterprise auf.
-
Wählen Sie im Menü Region die Region aus, in der sich Ihr Notebook befindet.
-
Klicken Sie auf das Notebook, das Sie öffnen möchten.
-
Klicken Sie auf die Schaltfläche Gemini in Colab ein-/ausblenden , um das Chatdialogfeld zu öffnen.
- Klicken Sie im Chatdialogfeld auf Dateien hinzufügen > Hochladen.
-
Autorisieren Sie gegebenenfalls Ihr Google-Konto.
Warten Sie einen Moment, bis Colab Enterprise eine Laufzeit startet und den Dateibrowser aktiviert.
- Suchen Sie nach der Datei und klicken Sie dann auf Öffnen.
-
Klicken Sie auf OK , um zu bestätigen, dass die Dateien dieser Laufzeit gelöscht werden, wenn die Laufzeit beendet wird.
Die Datei wird in den Bereich Dateien hochgeladen und im Chatfenster angezeigt.
BigQuery-Tabelle
-
Rufen Sie in der Google Cloud Console die Seite Meine Notebooks für Colab Enterprise auf.
-
Wählen Sie im Menü Region die Region aus, in der sich Ihr Notebook befindet.
-
Klicken Sie auf das Notebook, das Sie öffnen möchten.
-
Klicken Sie auf die Schaltfläche Gemini in Colab ein-/ausblenden , um das Chatdialogfeld zu öffnen.
-
Führen Sie einen der folgenden Schritte aus, um auf Ihre Daten zu verweisen:
-
Wählen Sie mit der Tabellenauswahl eine oder mehrere Tabellen aus:
- Klicken Sie auf Zu Gemini hinzufügen > BigQuery-Tabellen.
- Wählen Sie im Fenster BigQuery-Tabellen eine oder mehrere Tabellen in Ihrem Projekt aus. Sie können mit der Suchleiste nach Tabellen in allen Projekten suchen und Tabellen filtern.
-
Fügen Sie einen BigQuery-Tabellennamen direkt in Ihren Prompt ein. Beispiel: „Unterstütze mich bei der explorativen Datenanalyse und gib mir Statistiken zu den Daten in dieser Tabelle:
PROJECT_ID:DATASET.TABLE.“Ersetzen Sie Folgendes:
PROJECT_ID: Ihre Projekt-ID.DATASET: der Name des Datasets, das die Tabelle enthält, die Sie analysieren.TABLE: der Name der Tabelle, die Sie analysieren.
-
Geben Sie
@ein, um in Ihrem aktuellen Projekt nach einer BigQuery-Tabelle zu suchen.
-
Data Science Agent verwenden
So verwenden Sie den Data Science Agent von Colab Enterprise:
-
Geben Sie im Chatdialogfeld Gemini einen Prompt ein und klicken Sie auf Senden. Ideen für Prompts finden Sie unter Funktionen des Data Science Agent und Beispiel-Prompts.
Sie können beispielsweise „Gib mir eine Analyse der von mir hochgeladenen Daten“ eingeben.
Wenn Sie den Data Science Agent noch nicht autorisiert haben, wird ein kurzes Dialogfeld angezeigt, während Colab Enterprise Ihr Google-Konto für den Data Science Agent authentifiziert.
-
Gemini antwortet auf Ihren Prompt. Die Antwort kann Code-Snippets zum Ausführen, allgemeine Ratschläge für Ihr Projekt, nächste Schritte zum Erreichen Ihrer Ziele oder Informationen zu bestimmten Problemen in Ihren Daten oder Ihrem Code enthalten.
Nachdem Sie die Antwort ausgewertet haben, können Sie Folgendes tun:
- Wenn Gemini in der Antwort Code bereitstellt, können Sie auf Folgendes klicken:
- Akzeptieren , um den Code zu Ihrem Notebook hinzuzufügen.
- Akzeptieren und ausführen , um den Code zu Ihrem Notebook hinzuzufügen und auszuführen.
- Abbrechen , um den vorgeschlagenen Code zu löschen.
- Stellen Sie Folgefragen und setzen Sie die Unterhaltung nach Bedarf fort.
- Wenn Gemini in der Antwort Code bereitstellt, können Sie auf Folgendes klicken:
-
Klicken Sie auf Schließen, um das Dialogfeld Gemini zu schließen.
Gemini in Colab Enterprise deaktivieren
Wenn Sie Gemini in Colab Enterprise für ein Google Cloud Projekt deaktivieren möchten, muss ein Administrator die Gemini for Google Cloud API deaktivieren. Weitere Informationen finden Sie unter Dienste deaktivieren.
Wenn Sie Gemini in Colab Enterprise für einen bestimmten Nutzer deaktivieren möchten, muss der
Administrator ihm die
Rolle „Gemini for
Google Cloud User“ (roles/cloudaicompanion.user) entziehen. Weitere Informationen finden Sie unter
Einzelne IAM-Rolle widerrufen.
Beispiel-Prompts
In den folgenden Abschnitten finden Sie Beispiele für die Arten von Prompts, die Sie mit dem Data Science Agent verwenden können.
Python-Prompts
Python-Code wird standardmäßig generiert, es sei denn, Sie verwenden im Prompt ein bestimmtes Keyword wie „BigQuery ML“ oder „SQL“.
- Fehlende Werte mit dem Machine-Learning-Algorithmus „k-Nearest Neighbors“ (KNN) untersuchen und ersetzen.
- Ein Diagramm des Gehalts nach Erfahrungsstufe erstellen. Verwenden Sie die Spalte
experience_level, um die Gehälter zu gruppieren, und erstellen Sie für jede Gruppe einen Box-Plot mit den Werten aus der Spaltesalary_in_usd. - Verwenden Sie den XGBoost-Algorithmus, um ein Modell zur Bestimmung der Variablen
classeiner bestimmten Frucht zu erstellen. Teilen Sie die Daten in Trainings- und Test-Datasets auf, um ein Modell zu generieren und die Genauigkeit des Modells zu bestimmen. Erstellen Sie eine Wahrheitsmatrix, um die Vorhersagen für jede Klasse zu zeigen, einschließlich aller richtigen und falschen Vorhersagen. target_variableausfilename.csvfür die nächsten sechs Monate vorhersagen.
SQL- und BigQuery ML-Prompts
- Erstellen und bewerten Sie ein Klassifizierungsmodell für
bigquery-public-data.ml_datasets.census_adult_incomemit BigQuery SQL. - Prognostizieren Sie mit SQL den zukünftigen Traffic meiner Website für den nächsten Monat basierend auf
bigquery-public-data.google_analytics_sample.ga_sessions_*. Stellen Sie dann die historischen und prognostizierten Werte grafisch dar. - Gruppieren Sie ähnliche Kunden, um mit einem KMeans-Modell und BigQuery ML-SQL-Funktionen gezielte Marketingkampagnen zu erstellen. Verwenden Sie drei Merkmale für das Clustering. Visualisieren Sie dann die Ergebnisse, indem Sie eine Reihe von 2D-Streudiagrammen erstellen. Verwenden Sie die Tabelle
bigquery-public-data.ml_datasets.census_adult_income. - Generieren Sie Texteinbettungen in BigQuery ML mit den Rezensionsinhalten in
bigquery-public-data.imdb.reviews.
Eine Liste der unterstützten Modelle und Machine-Learning-Aufgaben finden Sie in der BigQuery ML-Dokumentation.
DataFrame-Prompts
- Erstellen Sie ein Pandas-DataFrame für die Daten in
project_id:dataset.table. Analysieren Sie die Daten auf Nullwerte und stellen Sie dann die Verteilung der einzelnen Spalten mit dem Diagrammtyp grafisch dar. Verwenden Sie Violin-Plots für Messwerte und Balkendiagramme für Kategorien. - Lesen Sie
filename.csvund erstellen Sie ein DataFrame. Führen Sie eine Analyse für das DataFrame aus, um zu ermitteln, was mit den Werten geschehen muss. Gibt es beispielsweise fehlende Werte, die ersetzt oder entfernt werden müssen, oder gibt es doppelte Zeilen, die bearbeitet werden müssen? Bestimmen Sie mit der Datendatei die Verteilung des in US-Dollar investierten Geldes nach Stadt. Stellen Sie die 20 besten Ergebnisse in einem Balkendiagramm dar, das die Ergebnisse in absteigender Reihenfolge als „Standort“ im Vergleich zu „Durchschnittlicher investierter Betrag (USD)“ zeigt. - Erstellen und bewerten Sie ein Klassifizierungsmodell für
project_id:dataset.tablemit BigQuery DataFrames. - Erstellen Sie ein Modell für Prognosen von Zeitreihen für
project_id:dataset.tablemit BigQuery DataFrames und visualisieren Sie die Modellbewertungen. - Visualisieren Sie die Umsatzzahlen des letzten Jahres in der BigQuery
Tabelle
project_id:dataset.tablemit BigQuery DataFrames. - Ermitteln Sie mit BigQuery DataFrames die Merkmale, mit denen sich die Pinguinart am besten aus der Tabelle
bigquery-public_data.ml_datasets.penguinsvorhersagen lässt.
PySpark-Prompts
- Erstellen und bewerten Sie ein Klassifizierungsmodell für
project_id:dataset.tablemit Serverless for Apache Spark. - Gruppieren Sie ähnliche Kunden, um gezielte Marketingkampagnen zu erstellen. Führen Sie aber zuerst eine Dimensionsreduktion mit einem PCA-Modell durch. Verwenden Sie PySpark, um dies zu tun
für die Tabelle
project_id:dataset.table.
Unterstützte Regionen
Die unterstützten Regionen für den Data Science Agent von Colab Enterprise finden Sie unter Standorte.
Abrechnung
Während der Vorschauphase werden Ihnen nur die Kosten für die Ausführung von Code in der Laufzeit des Notebooks in Rechnung gestellt. Weitere Informationen finden Sie unter Colab Enterprise-Preise.
Nächste Schritte
Weitere Informationen zur Verwendung des Data Science Agent mit BigQuery finden Sie unter Data Science Agent von Colab Enterprise mit BigQuery verwenden.
Lesen Sie die Übersicht Google Cloud zu Gemini for.
Weitere Informationen zum Schreiben und Bearbeiten von Code mit Gemini-Unterstützung finden Sie unter:
Weitere Informationen dazu, wie und wann Gemini forIhre Daten Google Cloud verwendet