Data Science Agent von Colab Enterprise mit BigQuery verwenden
Mit dem Data Science Agent (DSA) für Colab Enterprise und BigQuery können Sie die explorative Datenanalyse automatisieren, Machine-Learning-Aufgaben ausführen und Erkenntnisse gewinnen – alles in einem Colab Enterprise-Notebook.
Hinweis
- Melden Sie sich in Ihrem Google Cloud Konto an. Wenn Sie noch kein Konto haben Google Cloud, erstellen Sie ein Konto, um die Leistung unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Aktivieren Sie die BigQuery API, die Gemini for Google CloudGoogle Cloud API, die Dataform API und die Compute Engine API.
Rollen, die zum Aktivieren von APIs erforderlich sind
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (
roles/serviceusage.serviceUsageAdmin), die die Berechtigungserviceusage.services.enableenthält. Informationen zum Zuweisen von Rollen.Bei neuen Projekten ist die BigQuery API ist automatisch aktiviert.
Wenn Sie Colab Enterprise in BigQuery noch nicht kennen, finden Sie auf der Seite Notebooks erstellen eine Anleitung zur Einrichtung.
Beschränkungen
- Der Data Science Agent ist nur in der Colab Enterprise-Umgebung verfügbar.
- Der Data Science Agent unterstützt die folgenden Datenquellen:
- CSV-Dateien
- BigQuery-Tabellen
- Der vom Data Science Agent erstellte Code wird nur in der Laufzeitumgebung Ihres Notebooks ausgeführt.
- Die Suche nach BigQuery-Tabellen mit der Funktion
@mentionist auf Ihr aktuelles Projekt beschränkt. Verwenden Sie die Tabellenauswahl, um projektübergreifend zu suchen. - Die Funktion
@mentionsucht nur nach BigQuery-Tabellen. Verwenden Sie das Symbol+, um nach hochladbaren Datendateien zu suchen. - PySpark im Data Science Agent generiert nur Code für Managed Service for Apache Spark 4.0. Der DSA kann Sie beim Upgrade auf Managed Service for Apache Spark 4.0 unterstützen. Nutzer, die frühere Versionen benötigen, sollten den Data Science Agent jedoch nicht verwenden.
- Kundenverwaltete Verschlüsselungsschlüssel (CMEK) werden nicht unterstützt.
Wann sollte der Data Science Agent verwendet werden?
Der Data Science Agent unterstützt Sie bei Aufgaben von der explorativen Datenanalyse bis hin zur Generierung von Machine-Learning-Vorhersagen und -Prognosen. Sie können den DSA für Folgendes verwenden:
- Umfangreiche Datenverarbeitung: Mit BigQuery ML, BigQuery DataFrames oder Managed Service for Apache Spark können Sie die verteilte Datenverarbeitung für große Datasets ausführen. So lassen sich Daten effizient bereinigen, transformieren und analysieren, die zu groß sind, um auf einem einzelnen Computer in den Arbeitsspeicher zu passen.
- Plan erstellen: Erstellen und ändern Sie einen Plan, um eine bestimmte Aufgabe mit gängigen Tools wie Python, SQL, Managed Service for Apache Spark und BigQuery DataFrames auszuführen.
- Datenexploration: Untersuchen Sie ein Dataset, um seine Struktur zu verstehen, potenzielle Probleme wie fehlende Werte und Ausreißer zu identifizieren und die Verteilung wichtiger Variablen mit Python oder SQL zu analysieren.
- Datenbereinigung: Bereinigen Sie Ihre Daten. Entfernen Sie beispielsweise Ausreißer-Datenpunkte.
- Datenaufbereitung: Konvertieren Sie kategoriale Features in numerische Darstellungen. Verwenden Sie dazu Techniken wie One-Hot-Encoding oder Label-Encoding oder die Tools zur Feature-Transformation von BigQuery ML. Erstellen Sie neue Features für die Analyse.
- Datenanalyse: Analysieren Sie die Beziehungen zwischen verschiedenen Variablen. Berechnen Sie Korrelationen zwischen numerischen Features und analysieren Sie die Verteilungen kategorialer Features. Suchen Sie nach Mustern und Trends in den Daten.
- Datenvisualisierung: Erstellen Sie Visualisierungen wie Histogramme, Box-Plots, Streudiagramme und Balkendiagramme, die die Verteilungen von einzelnen Variablen und die Beziehungen zwischen ihnen darstellen. Sie können auch Visualisierungen in Python für Tabellen erstellen, die in BigQuery gespeichert sind.
- Feature Engineering: Erstellen Sie neue Features aus einem bereinigten Dataset.
- Datenaufteilung: Teilen Sie ein vorbereitetes Dataset in Trainings-, Validierungs-, und Test-Datasets auf.
- Modelltraining: Trainieren Sie ein Modell mit den Trainingsdaten in einem pandas
DataFrame (
X_train,y_train), BigQuery DataFrames, einem PySpark DataFrame oder mit der BigQuery ML-CREATE MODELAnweisung mit BigQuery-Tabellen. - Modelloptimierung: Optimieren Sie ein Modell mit dem Validierungs-Dataset.
Untersuchen Sie alternative Modelle wie
DecisionTreeRegressorundRandomForestRegressorund vergleichen Sie ihre Leistung. - Modellbewertung: Bewerten Sie die Modellleistung anhand eines Test-Datasets mit einem pandas-DataFrame, BigQuery DataFrames oder einem PySpark-DataFrame. Sie können auch die Modellqualität bewerten und Modelle vergleichen, indem Sie die BigQuery ML Funktionen zur Modellbewertung für Modelle verwenden, die mit BigQuery ML trainiert wurden.
- Modellinferenz: Führen Sie Inferenzen mit BigQuery ML-trainierten Modellen, importierten Modellen und Remote-Modellen mit BigQuery ML Inferenzfunktionen aus. Sie können auch
die BigFrames
model.predict()Methode oder PySpark Transformer verwenden, um Vorhersagen zu treffen.
Data Science Agent in BigQuery verwenden
In den folgenden Schritten wird beschrieben, wie Sie den Data Science Agent in BigQuery verwenden.
Erstellen oder öffnen Sie ein Colab Enterprise-Notebook.
Optional: Verweisen Sie auf Ihre Daten auf eine der folgenden Arten:
- Laden Sie eine CSV-Datei hoch oder verwenden Sie das Symbol
+in Ihrem Prompt, um nach verfügbaren Dateien zu suchen. - Wählen Sie in der Tabellenauswahl eine oder mehrere BigQuery-Tabellen aus Ihrem aktuellen Projekt oder aus anderen Projekten aus, auf die Sie Zugriff haben.
- Verweisen Sie in Ihrem Prompt im folgenden
Format auf einen BigQuery-Tabellennamen:
project_id:dataset.table. - Geben Sie das
@Symbol ein, um nach einem BigQuery-Tabellennamen mit der@mentionFunktion zu suchen.
- Laden Sie eine CSV-Datei hoch oder verwenden Sie das Symbol
Geben Sie einen Prompt ein, der die Datenanalyse beschreibt, die Sie ausführen möchten, oder den Prototyp, den Sie erstellen möchten. Standardmäßig generiert der Data Science Agent Python-Code mit Open-Source-Bibliotheken wie scikit-learn, um komplexe Machine-Learning-Aufgaben auszuführen. Wenn Sie ein bestimmtes Tool verwenden möchten, fügen Sie die folgenden Keywords in Ihren Prompt ein:
- Wenn Sie BigQuery ML verwenden möchten, fügen Sie das Keyword „SQL“ ein.
- Wenn Sie „BigQuery DataFrames“ verwenden möchten, geben Sie die Keywords „BigFrames“ oder „BigQuery DataFrames“ an.
- Wenn Sie PySpark verwenden möchten, fügen Sie die Keywords „Apache Spark“ oder „PySpark“ ein.
Weitere Informationen finden Sie in den Beispiel-Prompts.
Wählen Sie Ihr Modell aus. Das Standardmodell ist Gemini 3.0 Flash.
Senden Sie Ihren Prompt und sehen Sie sich die Ergebnisse an.
CSV-Datei analysieren
So analysieren Sie eine CSV-Datei mit dem Data Science Agent in BigQuery:
Rufen Sie die Seite BigQuery auf.
Maximieren Sie im linken Bereich Ihr Projekt und klicken Sie dann auf Notebooks.
Klicken Sie auf Neues Notebook > Leeres Notebook.
Alternativ können Sie in der Tab-Leiste neben dem Symbol arrow_drop_down Hinzufügen auf den Drop-down-Pfeil arrow_drop_down klicken und dann Notebook > Leeres Notebook auswählen.
Klicken Sie auf die Schaltfläche spark Gemini in Colab aktivieren/deaktivieren, um das Chatfenster zu öffnen.
Laden Sie die CSV-Datei hoch.
Klicken Sie im Chatfenster auf Zu Gemini hinzufügen > Hochladen.
Autorisieren Sie gegebenenfalls Ihr Google-Konto.
Suchen Sie nach dem Speicherort der CSV-Datei und klicken Sie dann auf Öffnen.
Alternativ können Sie das Symbol
+in Ihren Prompt eingeben, um nach verfügbaren Dateien zu suchen, die Sie hochladen können.Geben Sie Ihren Prompt in das Chatfenster ein. Beispiel:
Identify trends and anomalies in this file.Wählen Sie Ihr Modell aus. Das Standardmodell ist Gemini 3.0 Flash.
Klicken Sie auf „Senden“ Send. Die Ergebnisse werden im Chatfenster angezeigt.
Sie können den Agent bitten, den Plan zu ändern, oder Sie können ihn ausführen, indem Sie auf Akzeptieren und ausführen klicken. Während der Ausführung des Plans werden generierter Code und Text im Notebook angezeigt. Klicken Sie auf Abbrechen , um die Ausführung zu beenden.
BigQuery-Tabellen analysieren
Wenn Sie eine BigQuery-Tabelle analysieren möchten, wählen Sie in der Tabellenauswahl eine oder mehrere Tabellen aus, verweisen Sie in Ihrem Prompt auf die Tabelle oder suchen Sie mit dem Symbol @ nach einer Tabelle.
Rufen Sie die Seite BigQuery auf.
Maximieren Sie im linken Bereich Ihr Projekt und klicken Sie dann auf Notebooks.
Klicken Sie auf Neues Notebook > Leeres Notebook.
Alternativ können Sie in der Tab-Leiste neben dem Symbol arrow_drop_down Hinzufügen auf den Drop-down-Pfeil arrow_drop_down klicken und dann Notebook > Leeres Notebook auswählen.
Klicken Sie auf die Schaltfläche spark Gemini in Colab aktivieren/deaktivieren, um das Chatfenster zu öffnen.
Geben Sie Ihren Prompt in das Chatfenster ein.
Verweisen Sie auf Ihre Daten auf eine der folgenden Arten:
Wählen Sie mit der Tabellenauswahl eine oder mehrere Tabellen aus:
Klicken Sie auf Zu Gemini hinzufügen > BigQuery-Tabellen.
Wählen Sie im Fenster BigQuery-Tabellen eine oder mehrere Tabellen in Ihrem Projekt aus. Sie können mit der Suchleiste projektübergreifend nach Tabellen suchen und Tabellen filtern.
Fügen Sie einen BigQuery-Tabellennamen direkt in Ihren Prompt ein. Beispiel: „Help me perform exploratory data analysis and get insights about the data in this table:
project_id:dataset.table.“Ersetzen Sie Folgendes:
project_id: Ihre Projekt-IDdataset: der Name des Datasets, das die zu analysierende Tabelle enthälttable: der Name der zu analysierenden Tabelle
Geben Sie
@ein, um in Ihrem aktuellen Projekt nach einer BigQuery-Tabelle zu suchen.
Wählen Sie Ihr Modell aus. Das Standardmodell ist Gemini 3.0 Flash.
Klicken Sie auf „Senden“ Send.
Die Ergebnisse werden im Chatfenster angezeigt.
Sie können den Agent bitten, den Plan zu ändern, oder Sie können ihn ausführen, indem Sie auf Akzeptieren und ausführen klicken. Während der Ausführung des Plans werden generierter Code und Text im Notebook angezeigt. Für zusätzliche Schritte im Plan müssen Sie möglicherweise noch einmal auf Akzeptieren und ausführen klicken. Klicken Sie auf Abbrechen , um die Ausführung zu beenden.
Beispiel-Prompts
Unabhängig von der Komplexität des verwendeten Prompts generiert der Data Science Agent einen Plan, den Sie an Ihre Anforderungen anpassen können.
Die folgenden Beispiele zeigen die Arten von Prompts, die Sie mit dem DSA verwenden können.
Python-Prompts
Python-Code wird standardmäßig generiert, es sei denn, Sie verwenden ein bestimmtes Keyword im Prompt, z. B. „BigQuery ML“ oder „SQL“.
- „Investigate and fill missing values by using the k-Nearest Neighbors (KNN) machine learning algorithm.“
- „Create a plot of salary by experience level. Use the
experience_levelcolumn to group the salaries, and create a box plot for each group showing the values from thesalary_in_usdcolumn.“ - „Use the XGBoost algorithm to make a model for determining the
classvariable of a particular fruit. Split the data into training and testing datasets to generate a model and to determine the model's accuracy. Create a confusion matrix to show the predictions amongst each class, including all predictions that are correct and incorrect.“ - „Forecast
target_variablefromfilename.csvfor the next six months.“
SQL- und BigQuery ML-Prompts
- „Create and evaluate a classification model on
bigquery-public-data.ml_datasets.census_adult_incomeusing BigQuery SQL.“ - „Using SQL, forecast the future traffic of my website for the next month based on
bigquery-public-data.google_analytics_sample.ga_sessions_*. Then, plot the historical and forecasted values.“ - „Group similar customers together to create targeting market campaigns using a KMeans model and BigQuery ML SQL functions. Use three features for
clustering. Then visualize the results by creating a series of 2D scatter
plots. Use the table
bigquery-public-data.ml_datasets.census_adult_income.“ - „Generate text embeddings in BigQuery ML using the review content in
bigquery-public-data.imdb.reviews.“
Eine Liste der unterstützten Modelle und Machine-Learning-Aufgaben finden Sie in der BigQuery ML-Dokumentation.
DataFrame-Prompts
- „Create a pandas DataFrame for the data in
project_id:dataset.table. Analyze the data for null values, and then graph the distribution of each column using the graph type. Use violin plots for measured values and bar plots for categories.“ - „Read
filename.csvand construct a DataFrame. Run analysis on the DataFrame to determine what needs to be done with values. For example, are there missing values that need to be replaced or removed, or are there duplicate rows that need to be addressed? Use the data file to determine the distribution of the money invested in USD per city location. Graph the top 20 results using a bar graph that shows the results in descending order as Location versus Avg Amount Invested (USD).“ - „Create and evaluate a classification model on
project_id:dataset.tableusing BigQuery DataFrames.“ - „Create a time series forecasting model on
project_id:dataset.tableusing BigQuery DataFrames, and visualize the model evaluations.“ - „Visualize the sales figures in the past year in BigQuery
table
project_id:dataset.tableusing BigQuery DataFrames.“ - „Find the features that can best predict the penguin species from the table
bigquery-public_data.ml_datasets.penguinsusing BigQuery DataFrames.“
PySpark-Prompts
- „Create and evaluate a classification model on
project_id:dataset.tableusing Managed Service for Apache Spark.“ - „Group similar customers together to create targeting market campaigns, but first do dimensionality reduction using a PCA model. Use PySpark to do this
on table
project_id:dataset.table."
Gemini in BigQuery deaktivieren
Wenn Sie Gemini in BigQuery für ein Google Cloud Projekt deaktivieren möchten, muss ein Administrator die Gemini for Google Cloud API deaktivieren. Weitere Informationen finden Sie unter Dienste deaktivieren.
Wenn Sie Gemini in BigQuery für einen bestimmten Nutzer deaktivieren möchten, muss der
Administrator ihm die
Rolle „Gemini for
Google Cloud User“ (roles/cloudaicompanion.user) entziehen. Weitere Informationen finden Sie unter
Einzelne IAM-Rolle widerrufen.
Preise
Die Preise für den Data Science Agent basieren auf Ihren Eingabe- und Ausgabedaten. Weitere Informationen finden Sie unter Preise für Agenten auf der Seite Funktionsweise der BigQuery-Preise.
Unterstützte Regionen
Die unterstützten Regionen für den Data Science Agent von Colab Enterprise finden Sie unter Standorte.