Data Science Agent verwenden

In diesem Leitfaden wird beschrieben, wie Sie den Data Science Agent in Colab Enterprise verwenden können, um Data Science-Aufgaben in Ihren Notebooks zu erledigen.

Weitere Informationen dazu, wie und wann Gemini for Google Cloud Ihre Daten verwendet

Dieses Dokument richtet sich an Datenanalysten, Data Scientists und Datenentwickler, die mit Colab Enterprise arbeiten. Es wird davon ausgegangen, dass Sie wissen, wie Sie Code in einer Notebook-Umgebung schreiben.

Funktionen des Data Science Agent

Der Data Science Agent kann Sie bei Aufgaben unterstützen, die von der explorativen Datenanalyse bis hin zum Generieren von Machine-Learning-Vorhersagen und ‑Prognosen reichen. Sie können den Data Science Agent für Folgendes verwenden:

  • Datenverarbeitung im großen Maßstab: Mit BigQuery ML, BigQuery DataFrames oder Managed Service for Apache Spark können Sie die verteilte Datenverarbeitung für große Datasets ausführen. So können Sie Daten, die zu groß sind, um auf einem einzelnen Computer in den Arbeitsspeicher zu passen, effizient bereinigen, transformieren und analysieren.
  • Pläne erstellen: Erstellen und ändern Sie einen Plan, um eine bestimmte Aufgabe mit gängigen Tools wie Python, SQL, Apache Spark und BigQuery DataFrames zu erledigen.
  • Explorative Datenanalyse: Untersuchen Sie ein Dataset, um seine Struktur zu verstehen, potenzielle Probleme wie fehlende Werte und Ausreißer zu identifizieren und die Verteilung der wichtigsten Variablen zu analysieren.
  • Datenbereinigung: Bereinigen Sie Ihre Daten. Entfernen Sie beispielsweise Ausreißer-Datenpunkte.
  • Data Wrangling: Konvertieren Sie kategoriale Merkmale in numerische Darstellungen, z. B. mithilfe von One-Hot-Codierung oder Label-Codierung. Neue Funktionen für die Analyse erstellen
  • Datenanalyse: Analysieren Sie die Beziehungen zwischen verschiedenen Variablen. Korrelationen zwischen numerischen Features berechnen und Verteilungen kategorialer Features untersuchen Suchen Sie nach Mustern und Trends in den Daten.
  • Datenvisualisierung: Erstellen Sie Visualisierungen wie Histogramme, Box-Plots, Streudiagramme und Balkendiagramme, die die Verteilungen einzelner Variablen und die Beziehungen zwischen ihnen darstellen.
  • Feature Engineering: Erstellen Sie neue Features aus einem bereinigten Dataset.
  • Datenaufteilung: Teilen Sie ein aufbereitetes Dataset in Trainings-, Validierungs- und Test-Datasets auf.
  • Modelltraining: Sie können ein Modell mit den Trainingsdaten in einem Pandas-DataFrame, einem BigQuery DataFrames, einem PySpark-DataFrame oder mit der BigQuery ML-CREATE MODEL-Anweisung mit BigQuery-Tabellen trainieren.
  • Modelloptimierung: Ein Modell mithilfe des Validierungssatzes optimieren. Sehen Sie sich alternative Modelle wie DecisionTreeRegressor und RandomForestRegressor an und vergleichen Sie ihre Leistung.
  • Modellbewertung: Bewerten Sie die Modellleistung anhand eines Testdatasets mit einem Pandas-DataFrame, BigQuery DataFrames oder einem PySpark-DataFrame. Sie können die Modellqualität auch bewerten und Modelle vergleichen, indem Sie BigQuery ML-Modellbewertungsfunktionen für Modelle verwenden, die mit BigQuery ML trainiert wurden.
  • Modellinferenz: Mit BigQuery ML-Inferenzfunktionen können Sie Inferenzen mit in BigQuery ML trainierten Modellen, importierten Modellen und Remote-Modellen ausführen. Sie können auch die BigQuery DataFrames-Methode model.predict() oder PySpark-Transformer verwenden, um Vorhersagen zu treffen.

Beschränkungen

  • Der Data Science Agent unterstützt die folgenden Datenquellen:
    • CSV-Dateien
    • BigQuery-Tabellen
  • Der vom Data Science Agent generierte Code wird nur in der Laufzeit Ihres Notebooks ausgeführt.
  • Ihr Notebook muss sich in einer Region befinden, die vom Data Science Agent unterstützt wird. Weitere Informationen
  • Wenn Sie den Data Science Agent zum ersten Mal ausführen, kann es zu einer Latenz von etwa fünf bis zehn Minuten kommen. Das geschieht nur einmal pro Projekt bei der Ersteinrichtung.
  • Die Suche nach BigQuery-Tabellen mit der Funktion @mention ist auf Ihr aktuelles Projekt beschränkt. Mit der Tabellenauswahl können Sie projektübergreifend suchen.
  • Mit der Funktion @mention wird nur nach BigQuery-Tabellen gesucht. Wenn Sie nach Datendateien suchen möchten, die Sie hochladen können, verwenden Sie das Symbol +.
  • Der Data Science Agent generiert PySpark-Code nur für Apache Spark 4.0. Der Data Science Agent kann Sie beim Upgrade auf Apache Spark 4.0 unterstützen. Nutzer, die frühere Versionen von Apache Spark benötigen, sollten den Data Science Agent jedoch nicht verwenden.

Hinweis

  1. Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie mit Google Cloudnoch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Colab Enterprise User (roles/aiplatform.colabEnterpriseUser) für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie für die Verwendung des Data Science Agent in Colab Enterprise benötigen. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Daten referenzieren

Damit der Data Science Agent von Colab Enterprise auf Ihre Daten zugreifen und sie verarbeiten kann, können Sie eine CSV-Datei hochladen oder auf eine BigQuery-Tabelle verweisen.

CSV-Datei

  1. Rufen Sie in der Google Cloud Console die Seite Meine Notebooks für Colab Enterprise auf.

    Zu „Meine Notebooks“

  2. Wählen Sie im Menü Region die Region aus, in der sich Ihr Notebook befindet.

  3. Klicken Sie auf das Notebook, das Sie öffnen möchten.

  4. Klicken Sie auf die Schaltfläche  Gemini in Colab ein-/ausblenden, um das Chatdialogfeld zu öffnen.

  5. Klicken Sie im Chatdialogfeld auf Dateien hinzufügen> Hochladen.
  6. Autorisieren Sie gegebenenfalls Ihr Google-Konto.

    Warten Sie einen Moment, bis Colab Enterprise eine Laufzeit startet und den Dateibrowser aktiviert.

  7. Suchen Sie den Speicherort der Datei und klicken Sie auf Öffnen.
  8. Klicken Sie auf OK, um zu bestätigen, dass die Dateien dieser Laufzeit gelöscht werden, wenn die Laufzeit gelöscht wird.

    Die Datei wird in den Bereich Dateien hochgeladen und im Chatfenster angezeigt.

BigQuery-Tabelle

  1. Rufen Sie in der Google Cloud Console die Seite Meine Notebooks für Colab Enterprise auf.

    Zu „Meine Notebooks“

  2. Wählen Sie im Menü Region die Region aus, in der sich Ihr Notebook befindet.

  3. Klicken Sie auf das Notebook, das Sie öffnen möchten.

  4. Klicken Sie auf die Schaltfläche  Gemini in Colab ein-/ausblenden, um das Chatdialogfeld zu öffnen.

  5. Sie haben folgende Möglichkeiten, auf Ihre Daten zu verweisen:

    • Wählen Sie mit der Tabellenauswahl eine oder mehrere Tabellen aus:

      1. Klicken Sie auf  Zu Gemini hinzufügen > BigQuery-Tabellen.
      2. Wählen Sie im Fenster BigQuery-Tabellen eine oder mehrere Tabellen in Ihrem Projekt aus. Sie können projektübergreifend nach Tabellen suchen und Tabellen über die Suchleiste filtern.
    • Geben Sie den Namen einer BigQuery-Tabelle direkt in Ihrem Prompt an. Beispiel: „Hilf mir, eine explorative Datenanalyse durchzuführen und Erkenntnisse zu den Daten in dieser Tabelle zu gewinnen: PROJECT_ID:DATASET.TABLE.“

      Ersetzen Sie Folgendes:

      • PROJECT_ID: Ihre Projekt-ID.
      • DATASET: der Name des Datasets, das die Tabelle enthält, die Sie analysieren.
      • TABLE: Der Name der Tabelle, die Sie analysieren.
    • Geben Sie @ ein, um in Ihrem aktuellen Projekt nach einer BigQuery-Tabelle zu suchen.
    • Beschreiben Sie in Ihrem Prompt die Tabelle, die Sie verwenden möchten, in natürlicher Sprache. Der Data Science Agent verweist dann auf die Tabelle, die am besten zu Ihrer Beschreibung passt.

Data Science Agent verwenden

So verwenden Sie den Data Science Agent in Colab Enterprise:

  1. Geben Sie im Gemini-Chatdialogfeld einen Prompt ein und klicken Sie auf  Senden. Ideen für Prompts finden Sie unter Funktionen des Data Science Agent und Beispiel-Prompts.

    Sie könnten beispielsweise „Analysiere die von mir hochgeladenen Daten“ eingeben.

    Wenn Sie den Data Science Agent noch nicht autorisiert haben, wird ein kurzes Dialogfeld angezeigt, während Colab Enterprise Ihr Google-Konto für den Data Science Agent authentifiziert.

  2. Gemini antwortet auf Ihren Prompt. Die Antwort kann Code-Snippets zum Ausführen, allgemeine Ratschläge für Ihr Projekt, nächste Schritte zum Erreichen Ihrer Ziele oder Informationen zu bestimmten Problemen in Ihren Daten oder Ihrem Code enthalten.

    Nachdem Sie die Antwort ausgewertet haben, können Sie Folgendes tun:

    • Wenn Gemini in der Antwort Code bereitstellt, können Sie auf Folgendes klicken:
      • Klicken Sie auf Akzeptieren, um den Code Ihrem Notebook hinzuzufügen.
      • Klicken Sie auf Akzeptieren und ausführen, um den Code Ihrem Notebook hinzuzufügen und auszuführen.
      • Abbrechen, um den vorgeschlagenen Code zu löschen.
    • Stellen Sie Folgefragen und setzen Sie die Diskussion bei Bedarf fort.
  3. Klicken Sie auf  Schließen, um das Dialogfeld Gemini zu schließen.

Gemini in Colab Enterprise deaktivieren

Wenn Sie Gemini in Colab Enterprise für ein Google Cloud -Projekt deaktivieren möchten, muss ein Administrator die Gemini for Google Cloud API deaktivieren. Weitere Informationen finden Sie unter Dienste deaktivieren.

Wenn Sie Gemini in Colab Enterprise für einen bestimmten Nutzer deaktivieren möchten, muss der Administrator ihm die Rolle Gemini for Google Cloud User (roles/cloudaicompanion.user) entziehen. Weitere Informationen finden Sie unter Einzelne IAM-Rolle widerrufen.

Beispiel-Prompts

In den folgenden Abschnitten finden Sie Beispiele für die Arten von Prompts, die Sie mit dem Data Science-Agenten verwenden können.

Python-Prompts

Python-Code wird standardmäßig generiert, sofern Sie in der Aufforderung kein bestimmtes Keyword wie „BigQuery ML“ oder „SQL“ verwenden.

  • Untersuchen Sie fehlende Werte und füllen Sie sie mithilfe des Machine-Learning-Algorithmus „k-Nearest Neighbors“ (KNN) aus.
  • Erstellen Sie ein Diagramm des Gehalts nach Erfahrungsniveau. Verwenden Sie die Spalte experience_level, um die Gehälter zu gruppieren, und erstellen Sie für jede Gruppe ein Boxplot mit den Werten aus der Spalte salary_in_usd.
  • Verwenden Sie den XGBoost-Algorithmus, um ein Modell zur Bestimmung der Variablen class einer bestimmten Frucht zu erstellen. Teilen Sie die Daten in Trainings- und Test-Datasets auf, um ein Modell zu generieren und die Genauigkeit des Modells zu bestimmen. Erstellen Sie eine Wahrheitsmatrix, um die Vorhersagen für jede Klasse darzustellen, einschließlich aller richtigen und falschen Vorhersagen.
  • Erstelle eine Prognose für target_variable von filename.csv für die nächsten sechs Monate.

SQL- und BigQuery ML-Prompts

  • Erstellen und bewerten Sie ein Klassifizierungsmodell für bigquery-public-data.ml_datasets.census_adult_income mit BigQuery SQL.
  • Erstelle mit SQL eine Prognose für den zukünftigen Traffic meiner Website für den nächsten Monat basierend auf bigquery-public-data.google_analytics_sample.ga_sessions_*. Stellen Sie dann die historischen und prognostizierten Werte grafisch dar.
  • Ähnliche Kunden gruppieren, um mithilfe eines KMeans-Modells und von BigQuery ML-SQL-Funktionen Kampagnen für die Zielgruppe zu erstellen Verwenden Sie drei Attribute für das Clustering. Anschließend visualisieren Sie die Ergebnisse, indem Sie eine Reihe von 2D-Streudiagrammen erstellen. Verwenden Sie die Tabelle bigquery-public-data.ml_datasets.census_adult_income.
  • Texteinbettungen in BigQuery ML mit den Rezensionsinhalten in bigquery-public-data.imdb.reviews generieren.

Eine Liste der unterstützten Modelle und Aufgaben für maschinelles Lernen finden Sie in der BigQuery ML-Dokumentation.

DataFrame-Prompts

  • Erstelle einen Pandas DataFrame für die Daten in project_id:dataset.table. Analysieren Sie die Daten auf Nullwerte und stellen Sie dann die Verteilung der einzelnen Spalten mit dem Diagrammtyp dar. Verwenden Sie Violin-Diagramme für Messwerte und Balkendiagramme für Kategorien.
  • filename.csv lesen und DataFrame erstellen Führen Sie eine Analyse des DataFrame aus, um zu ermitteln, was mit den Werten geschehen muss. Gibt es beispielsweise fehlende Werte, die ersetzt oder entfernt werden müssen, oder doppelte Zeilen, die korrigiert werden müssen? Mithilfe der Datendatei können Sie die Verteilung des in US-Dollar investierten Geldes pro Stadt ermitteln. Stellen Sie die 20 besten Ergebnisse in einem Balkendiagramm dar, in dem die Ergebnisse in absteigender Reihenfolge als „Standort“ im Vergleich zu „Durchschnittlich investierter Betrag (USD)“ dargestellt werden.
  • Klassifizierungsmodell für project_id:dataset.table mit BigQuery DataFrames erstellen und bewerten.
  • Erstellen Sie ein Zeitreihen-Prognosemodell für project_id:dataset.table mit BigQuery DataFrames und visualisieren Sie die Modellbewertungen.
  • Visualisieren Sie die Umsatzzahlen des letzten Jahres in der BigQuery-Tabelle project_id:dataset.table mit BigQuery DataFrames.
  • Finden Sie die Merkmale, mit denen sich die Pinguinart aus der Tabelle bigquery-public_data.ml_datasets.penguins mithilfe von BigQuery DataFrames am besten vorhersagen lässt.

PySpark-Prompts

  • Ein Klassifizierungsmodell für project_id:dataset.table mit Managed Service for Apache Spark erstellen und bewerten
  • Gruppieren Sie ähnliche Kunden, um Marketingkampagnen für die Zielgruppenansprache zu erstellen. Führen Sie aber zuerst eine Dimensionsreduzierung mit einem PCA-Modell durch. Verwenden Sie PySpark, um dies für die Tabelle project_id:dataset.table zu tun.

Unterstützte Regionen

Eine Liste der unterstützten Regionen für den Data Science Agent von Colab Enterprise finden Sie unter Standorte.

Abrechnung

Die Preise für Data Science Agent basieren auf Ihren Eingabe- und Ausgabedaten. Weitere Informationen finden Sie auf der Seite mit den BigQuery-Preisen unter „Agent-Preise“.

VPC Service Controls

Der Data Science Agent unterstützt VPC Service Controls. Wenn Sie den Data Science-Agent in einem Dienstperimeter verwenden möchten, lesen Sie den Abschnitt VPC Service Controls mit Colab Enterprise verwenden.

Nächste Schritte