Data Science Agent von Colab Enterprise mit BigQuery verwenden

Mit dem Data Science Agent (DSA) für Colab Enterprise und BigQuery können Sie explorative Datenanalysen automatisieren, Aufgaben im Bereich Machine Learning ausführen und Erkenntnisse gewinnen – alles in einem Colab Enterprise-Notebook.

Hinweis

  1. Melden Sie sich in Ihrem Google Cloud Konto an. Wenn Sie noch kein Konto haben Google Cloud, erstellen Sie ein Konto, um die Leistung unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Aktivieren Sie die BigQuery-, Vertex AI-, Dataform- und Compute Engine APIs.

    Rollen, die zum Aktivieren von APIs erforderlich sind

    Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Informationen zum Zuweisen von Rollen.

    APIs aktivieren

    Bei neuen Projekten ist die BigQuery API ist automatisch aktiviert.

Wenn Sie Colab Enterprise in BigQuery noch nicht kennen, finden Sie auf der Seite Notebooks erstellen eine Anleitung zur Einrichtung.

Beschränkungen

  • Der Data Science Agent ist nur in der Colab Enterprise-Umgebung verfügbar.
  • Der Data Science Agent unterstützt die folgenden Datenquellen:
    • CSV-Dateien
    • BigQuery-Tabellen
  • Der vom Data Science Agent erstellte Code wird nur in der Laufzeitumgebung Ihres Notebooks ausgeführt.
  • Der Data Science Agent wird nicht in Projekten unterstützt, in denen VPC Service Controls aktiviert ist.
  • Die Suche nach BigQuery-Tabellen mit der Funktion @mention ist auf Ihr aktuelles Projekt beschränkt. Verwenden Sie die Tabellenauswahl, um projektübergreifend zu suchen.
  • Die Funktion @mention sucht nur nach BigQuery-Tabellen. Verwenden Sie das Symbol +, um nach hochladbaren Datendateien zu suchen.
  • PySpark im Data Science Agent generiert nur Serverless for Apache Spark 4.0-Code. Der DSA kann Sie beim Upgrade auf Serverless for Apache Spark 4.0 unterstützen. Nutzer, die frühere Versionen benötigen, sollten den Data Science Agent jedoch nicht verwenden.

Wann sollte der Data Science Agent verwendet werden?

Der Data Science Agent unterstützt Sie bei Aufgaben von der explorativen Datenanalyse bis hin zur Generierung von Machine Learning-Vorhersagen und -Prognosen. Sie können den DSA für Folgendes verwenden:

  • Umfangreiche Datenverarbeitung: Mit BigQuery ML, BigQuery DataFrames oder Serverless for Apache Spark können Sie verteilte Datenverarbeitung für große Datasets durchführen. So lassen sich Daten effizient bereinigen, transformieren und analysieren, die zu groß sind, um auf einem einzelnen Computer in den Arbeitsspeicher zu passen.
  • Plan erstellen: Erstellen und ändern Sie einen Plan, um eine bestimmte Aufgabe mit gängigen Tools wie Python, SQL, Serverless for Apache Spark und BigQuery DataFrames zu erledigen.
  • Datenexploration: Untersuchen Sie ein Dataset, um seine Struktur zu verstehen, potenzielle Probleme wie fehlende Werte und Ausreißer zu erkennen und die Verteilung wichtiger Variablen mit Python oder SQL zu analysieren.
  • Datenbereinigung: Bereinigen Sie Ihre Daten. Entfernen Sie beispielsweise Ausreißer-Datenpunkte.
  • Datenaufbereitung: Konvertieren Sie kategoriale Features in numerische Darstellungen, z. B. mit One-Hot- oder Label-Codierung oder mit den Feature-Transformationstools von BigQuery ML . Erstellen Sie neue Features für die Analyse.
  • Datenanalyse: Analysieren Sie die Beziehungen zwischen verschiedenen Variablen. Berechnen Sie Korrelationen zwischen numerischen Features und analysieren Sie die Verteilungen kategorialer Features. Suchen Sie nach Mustern und Trends in den Daten.
  • Datenvisualisierung: Erstellen Sie Visualisierungen wie Histogramme, Box-Plots, Streudiagramme und Balkendiagramme, die die Verteilungen von einzelnen Variablen und die Beziehungen zwischen ihnen darstellen. Sie können auch Visualisierungen in Python für in BigQuery gespeicherte Tabellen erstellen.
  • Feature Engineering: Erstellen Sie neue Features aus einem bereinigten Dataset.
  • Datenaufteilung: Teilen Sie ein vorbereitetes Dataset in Trainings-, Validierungs-, und Test-Datasets auf.
  • Modelltraining: Trainieren Sie ein Modell mit den Trainingsdaten in einem Pandas DataFrame (X_train, y_train), BigQuery DataFrames, einem PySpark DataFrame oder mit der BigQuery ML-CREATE MODEL Anweisung mit BigQuery-Tabellen.
  • Modelloptimierung: Optimieren Sie ein Modell mit dem Validierungs-Dataset. Untersuchen Sie alternative Modelle wie DecisionTreeRegressor und RandomForestRegressor und vergleichen Sie ihre Leistung.
  • Modellbewertung: Bewerten Sie die Modellleistung anhand eines Test-Datasets mit einem Pandas DataFrame, BigQuery DataFrames oder einem PySpark DataFrame. Sie können auch die Modellqualität bewerten und Modelle vergleichen, indem Sie die BigQuery ML Modellbewertungsfunktionen für Modelle verwenden, die mit BigQuery ML trainiert wurden.
  • Modellinferenz: Führen Sie Inferenzen mit BigQuery ML-trainierten Modellen, importierten Modellen und Remote-Modellen mit BigQuery ML Inferenzfunktionen durch. Sie können auch die BigFrames model.predict() Methode oder PySpark Transformer verwenden, um Vorhersagen zu treffen.

Data Science Agent in BigQuery verwenden

In den folgenden Schritten wird beschrieben, wie Sie den Data Science Agent in BigQuery verwenden.

  1. Erstellen oder öffnen Sie ein Colab Enterprise-Notebook.

  2. Optional: Verweisen Sie auf Ihre Daten auf eine der folgenden Arten:

    • Laden Sie eine CSV-Datei hoch oder verwenden Sie das Symbol + in Ihrem Prompt, um nach verfügbaren Dateien zu suchen.
    • Wählen Sie in der Tabellenauswahl eine oder mehrere BigQuery-Tabellen aus Ihrem aktuellen Projekt oder aus anderen Projekten aus, auf die Sie Zugriff haben.
    • Verweisen Sie in Ihrem Prompt im folgenden Format auf einen BigQuery-Tabellennamen: project_id:dataset.table.
    • Geben Sie das @ Symbol ein, um nach einem BigQuery-Tabellennamen mit der @mention Funktion zu suchen.
  3. Geben Sie einen Prompt ein, der die Datenanalyse beschreibt, die Sie durchführen möchten, oder den Prototyp, den Sie erstellen möchten. Standardmäßig generiert der Data Science Agent Python-Code mit Open-Source-Bibliotheken wie scikit-learn, um komplexe Machine Learning-Aufgaben zu erledigen. Wenn Sie ein bestimmtes Tool verwenden möchten, fügen Sie die folgenden Keywords in Ihren Prompt ein:

    • Wenn Sie BigQuery ML verwenden möchten, fügen Sie das Keyword „SQL“ ein.
    • Wenn Sie „BigQuery DataFrames“ verwenden möchten, geben Sie die Keywords „BigFrames“ oder „BigQuery DataFrames“ an.
    • Wenn Sie PySpark verwenden möchten, fügen Sie die Keywords „Apache Spark“ oder „PySpark“ ein.

    Weitere Informationen finden Sie in den Beispiel-Prompts.

  4. Sehen Sie sich die Ergebnisse an.

CSV-Datei analysieren

So analysieren Sie eine CSV-Datei mit dem Data Science Agent in BigQuery:

  1. Rufen Sie die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie auf der BigQuery Studio-Startseite unter Neu erstellen, auf Notebook.

    Alternativ können Sie in der Tableiste auf den Drop-down-Pfeil neben dem Symbol + und dann auf Notebook > Leeres Notebook klicken.

  3. Klicken Sie auf die Schaltfläche Gemini in Colab aktivieren/deaktivieren , um das Chatfenster zu öffnen.

  4. Laden Sie die CSV-Datei hoch.

    1. Klicken Sie im Chatfenster auf Zu Gemini hinzufügen > Hochladen.

    2. Autorisieren Sie gegebenenfalls Ihr Google-Konto.

    3. Suchen Sie nach der CSV-Datei und klicken Sie auf Öffnen.

  5. Alternativ können Sie das Symbol + in Ihren Prompt eingeben, um nach verfügbaren Dateien zu suchen, die Sie hochladen können.

  6. Geben Sie Ihren Prompt in das Chatfenster ein. Beispiel: Identify trends and anomalies in this file.

  7. Klicken Sie auf „Senden“ Senden. Die Ergebnisse werden im Chatfenster angezeigt.

  8. Sie können den Agent bitten, den Plan zu ändern, oder Sie können ihn ausführen, indem Sie auf Akzeptieren und ausführen klicken. Während der Ausführung des Plans werden generierter Code und Text im Notebook angezeigt. Klicken Sie auf Abbrechen , um den Vorgang zu beenden.

BigQuery-Tabellen analysieren

Wenn Sie eine BigQuery-Tabelle analysieren möchten, wählen Sie in der Tabellenauswahl eine oder mehrere Tabellen aus, verweisen Sie in Ihrem Prompt auf die Tabelle oder suchen Sie mit dem Symbol @ nach einer Tabelle.

  1. Rufen Sie die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie auf der BigQuery Studio-Startseite unter Neu erstellen, auf Notebook.

    Alternativ können Sie in der Tableiste auf den Drop-down-Pfeil neben dem Symbol + und dann auf Notebook > Leeres Notebook klicken.

  3. Klicken Sie auf die Schaltfläche Gemini in Colab aktivieren/deaktivieren , um das Chatfenster zu öffnen.

  4. Geben Sie Ihren Prompt in das Chatfenster ein.

  5. Verweisen Sie auf Ihre Daten auf eine der folgenden Arten:

    1. Wählen Sie mit der Tabellenauswahl eine oder mehrere Tabellen aus:

      1. Klicken Sie auf Zu Gemini hinzufügen > BigQuery-Tabellen.

      2. Wählen Sie im Fenster BigQuery-Tabellen eine oder mehrere Tabellen in Ihrem Projekt aus. Sie können projektübergreifend nach Tabellen suchen und Tabellen über die Suchleiste filtern.

    2. Fügen Sie einen BigQuery-Tabellennamen direkt in Ihren Prompt ein. Beispiel: „Help me perform exploratory data analysis and get insights about the data in this table: project_id:dataset.table.“

      Ersetzen Sie Folgendes:

      • project_id: Ihre Projekt-ID
      • dataset: Der Name des Datasets, das die Tabelle enthält, die Sie analysieren
      • table: Der Name der Tabelle, die Sie analysieren
    3. Geben Sie @ ein, um in Ihrem aktuellen Projekt nach einer BigQuery-Tabelle zu suchen.

  6. Klicken Sie auf „Senden“ Senden.

    Die Ergebnisse werden im Chatfenster angezeigt.

  7. Sie können den Agent bitten, den Plan zu ändern, oder Sie können ihn ausführen, indem Sie auf Akzeptieren und ausführen klicken. Während der Ausführung des Plans werden generierter Code und Text im Notebook angezeigt. Für zusätzliche Schritte im Plan müssen Sie möglicherweise noch einmal auf Akzeptieren und ausführen klicken. Klicken Sie auf Abbrechen , um den Vorgang zu beenden.

Beispiel-Prompts

Unabhängig von der Komplexität des verwendeten Prompts generiert der Data Science Agent einen Plan, den Sie an Ihre Bedürfnisse anpassen können.

Die folgenden Beispiele zeigen die Arten von Prompts, die Sie mit dem DSA verwenden können.

Python-Prompts

Python-Code wird standardmäßig generiert, es sei denn, Sie verwenden ein bestimmtes Keyword im Prompt, z. B. „BigQuery ML“ oder „SQL“.

  • Untersuchen und füllen Sie fehlende Werte mit dem Machine Learning-Algorithmus „k-Nearest Neighbors“ (KNN).
  • Erstellen Sie ein Diagramm des Gehalts nach Erfahrungsstufe. Gruppieren Sie die Gehälter nach der Spalte experience_level und erstellen Sie für jede Gruppe ein Box-Plot mit den Werten aus der Spalte salary_in_usd.
  • Verwenden Sie den XGBoost-Algorithmus, um ein Modell zur Bestimmung der Variablen class einer bestimmten Frucht zu erstellen. Teilen Sie die Daten in Trainings- und Test-Datasets auf, um ein Modell zu generieren und die Genauigkeit des Modells zu bestimmen. Erstellen Sie eine Wahrheitsmatrix, um die Vorhersagen für jede Klasse zu zeigen, einschließlich aller korrekten und falschen Vorhersagen.
  • Prognostizieren Sie target_variable aus filename.csv für die nächsten sechs Monate.

SQL- und BigQuery ML-Prompts

  • Erstellen und bewerten Sie ein Klassifizierungsmodell für bigquery-public-data.ml_datasets.census_adult_income mit BigQuery SQL.
  • Prognostizieren Sie mit SQL den zukünftigen Traffic meiner Website für den nächsten Monat basierend auf bigquery-public-data.google_analytics_sample.ga_sessions_*. Stellen Sie dann die historischen und prognostizierten Werte grafisch dar.
  • Gruppieren Sie ähnliche Kunden, um mit einem KMeans-Modell und BigQuery ML-SQL-Funktionen gezielte Marketingkampagnen zu erstellen. Verwenden Sie drei Features für das Clustering. Visualisieren Sie dann die Ergebnisse, indem Sie eine Reihe von 2D-Streudiagrammen erstellen. Verwenden Sie die Tabelle bigquery-public-data.ml_datasets.census_adult_income.
  • Generieren Sie Texteinbettungen in BigQuery ML mit den Rezensionsinhalten in bigquery-public-data.imdb.reviews.

Eine Liste der unterstützten Modelle und Machine Learning-Aufgaben finden Sie in der BigQuery ML-Dokumentation.

DataFrame-Prompts

  • Erstellen Sie ein Pandas DataFrame für die Daten in project_id:dataset.table. Analysieren Sie die Daten auf Nullwerte und stellen Sie dann die Verteilung der einzelnen Spalten mit dem Diagrammtyp grafisch dar. Verwenden Sie Violin-Plots für Messwerte und Balkendiagramme für Kategorien.
  • Lesen Sie filename.csv und erstellen Sie ein DataFrame. Führen Sie eine Analyse für das DataFrame aus, um zu bestimmen, was mit den Werten geschehen soll. Gibt es beispielsweise fehlende Werte, die ersetzt oder entfernt werden müssen, oder gibt es doppelte Zeilen, die bearbeitet werden müssen? Bestimmen Sie mit der Datendatei die Verteilung der in US-Dollar investierten Beträge nach Stadt. Stellen Sie die 20 besten Ergebnisse in einem Balkendiagramm dar, das die Ergebnisse in absteigender Reihenfolge als „Standort“ im Vergleich zu „Durchschnittlich investierter Betrag (USD)“ zeigt.
  • Erstellen und bewerten Sie ein Klassifizierungsmodell für project_id:dataset.table mit BigQuery DataFrames.
  • Erstellen Sie ein Modell für Prognosen von Zeitreihen für project_id:dataset.table mit BigQuery DataFrames und visualisieren Sie die Modellbewertungen.
  • Visualisieren Sie die Umsatzzahlen des letzten Jahres in der BigQuery Tabelle project_id:dataset.table mit BigQuery DataFrames.
  • Ermitteln Sie mit BigQuery DataFrames die Features, mit denen sich die Pinguinart am besten aus der Tabelle bigquery-public_data.ml_datasets.penguins vorhersagen lässt.

PySpark-Prompts

  • Erstellen und bewerten Sie ein Klassifizierungsmodell für project_id:dataset.table mit Serverless for Apache Spark.
  • Gruppieren Sie ähnliche Kunden, um gezielte Marketingkampagnen zu erstellen. Führen Sie aber zuerst eine Dimensionsreduktion mit einem PCA-Modell durch. Verwenden Sie PySpark, um dies zu tun für die Tabelle project_id:dataset.table.

Gemini in BigQuery deaktivieren

Wenn Sie Gemini in BigQuery für ein Google Cloud Projekt deaktivieren möchten, muss ein Administrator die Gemini for Google Cloud API deaktivieren. Weitere Informationen finden Sie unter Dienste deaktivieren.

Wenn Sie Gemini in BigQuery für einen bestimmten Nutzer deaktivieren möchten, muss der Administrator ihm die Rolle „Gemini for Google Cloud User“ (roles/cloudaicompanion.user) entziehen. Weitere Informationen finden Sie unter Einzelne IAM-Rolle widerrufen.

Preise

Während der Vorschau werden Ihnen die Kosten für die Ausführung von Code in der Laufzeitumgebung des Notebooks und für alle verwendeten BigQuery Slots in Rechnung gestellt. Weitere Informationen finden Sie unter Colab Enterprise-Preise.

Unterstützte Regionen

Die unterstützten Regionen für den Data Science Agent von Colab Enterprise finden Sie unter Standorte.