データ サイエンス エージェントを使用する
このガイドでは、Colab Enterprise でデータ サイエンス エージェントを使用して、ノートブックでデータ サイエンス タスクを実行する方法について説明します。
Gemini for がデータを使用する方法とタイミングに関する説明をご覧ください。 Google Cloud
このドキュメントは、Colab Enterprise を使用するデータ アナリスト、データ サイエンティスト、データ デベロッパーを対象としています。ノートブック環境でコードを記述する方法を理解していることを前提としています。
データ サイエンス エージェントの機能
データ サイエンス エージェントは、探索的データ分析から ML 予測、予測の生成まで、さまざまなタスクを支援します。データ サイエンス エージェントは次の目的で使用できます。
- 大規模なデータ処理: BigQuery ML、 BigQuery DataFrames、または Apache Spark 用サーバーレス を使用して、大規模なデータセットで分散データ処理を実行します。これにより、単一のマシンのメモリに収まらないほど大きなデータを効率的にクリーンアップ、変換、分析できます。
- プランの生成: Python、SQL、Apache Spark、BigQuery DataFrames などの一般的なツールを使用して、特定の タスクを完了するためのプランを生成して変更します。
- データ探索: データセットを探索して、その構造を理解し、欠損値や外れ値などの潜在的な問題を特定して、主要な変数の分布を調べることができます。
- データ クリーニング: データをクリーニングします。たとえば、外れ値のデータポイントを削除できます。
- データ ラングリング: ワンホット エンコードやラベル エンコードなどの手法を使用して、カテゴリ特徴を数値表現に変換します。分析用の新しい特徴を作成できます。
- データ分析: さまざまな変数間の関係を分析します。数値特徴間の相関を計算し、カテゴリ特徴の分布を調べることができます。データのパターンと傾向を探すことができます。
- データの可視化: 個々の変数の分布とそれらの関係を表すヒストグラム、箱ひげ図、 散布図、棒グラフなどの 可視化を行います。
- 特徴量エンジニアリング: クリーンアップされたデータセットから新しい特徴量をエンジニアリングします。
- データ分割: エンジニアリングされたデータセットをトレーニング データセット、検証データセット、 テスト データセットに分割します。
- モデルのトレーニング: pandas
DataFrame、
BigQuery DataFrames、
PySpark DataFrameのトレーニング データを使用するか、BigQuery テーブルで BigQuery ML
CREATE MODELステートメント を使用してモデルをトレーニングします。 - モデルの最適化: 検証セットを使用してモデルを最適化します。
DecisionTreeRegressorやRandomForestRegressorなどの代替モデルを調べて、パフォーマンスを比較できます。 - モデルの評価: pandas DataFrame、BigQuery DataFrames、または PySpark DataFrame を使用して、テスト データセットでモデルのパフォーマンスを評価します。BigQuery ML を使用してトレーニングされたモデルに対して、 BigQuery ML モデル評価関数 を使用してモデルの品質を評価し、モデルを比較することもできます。
- モデルの推論: BigQuery ML の推論関数を使用して、BigQuery ML でトレーニングした
モデル、インポートしたモデル、リモートモデルで推論を実行します。
BigQuery DataFrames の
model.predict()メソッドまたは PySpark トランスフォーマー を使用して予測を行うこともできます。
制限事項
- データ サイエンス エージェントは、次のデータソースをサポートしています。
- CSV ファイル
- BigQuery テーブル
- データ サイエンス エージェントによって生成されたコードは、ノートブックのランタイムでのみ実行されます。
- ノートブックは、データ サイエンス エージェントでサポートされているリージョンに存在する必要があります。 ロケーションをご覧ください。
- データ サイエンス エージェントは、VPC Service Controls が有効になっているプロジェクトではサポートされていません。
- データ サイエンス エージェントを初めて実行するときに、5~10 分程度のレイテンシが発生することがあります。これは、初期設定時にプロジェクトごとに 1 回だけ発生します。
@mention関数を使用した BigQuery テーブルの検索は、現在のプロジェクトに限定されます。テーブル セレクタを使用して、プロジェクト全体を検索します。@mention関数は BigQuery テーブルのみを検索します。アップロード可能なデータファイルを検索するには、+記号を使用します。- データ サイエンス エージェントの PySpark は、Apache Spark 4.0 コードのみを生成します。DSA は Apache Spark 4.0 へのアップグレードに役立ちますが、以前のバージョンの Apache Spark が必要なユーザーはデータ サイエンス エージェントを使用しないでください。
始める前に
- アカウントにログインします。 Google Cloud を初めて使用する場合は、 アカウントを作成して、実際のシナリオで Google プロダクトのパフォーマンスを評価してください。 Google Cloud新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
必要なロール
Colab Enterprise でデータ サイエンス エージェントを使用するために必要な権限を取得するには、プロジェクトに対する Colab Enterprise ユーザー (roles/aiplatform.colabEnterpriseUser)IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織に対するアクセス権の管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
データを参照する
Colab Enterprise のデータ サイエンス エージェントがデータにアクセスして操作できるようにするには、CSV ファイルをアップロードするか、BigQuery テーブルを参照します。
CSV ファイル
-
コンソールで、Colab Enterprise の [マイ ノートブック] ページに移動します。 Google Cloud
-
[リージョン] メニューで、ノートブックを含むリージョンを選択します。
-
開きたいノートブックをクリックします。
-
[Toggle Gemini in Colab] ボタンをクリックして、チャット ダイアログを開きます。
- チャット ダイアログで、 [ファイルを追加 > アップロード] をクリックします。
-
必要に応じて Google アカウントを認可します。
Colab Enterprise がランタイムを開始してファイルのブラウジングを有効にするまでしばらく待ちます。
- ファイルの場所に移動し、 [Open] をクリックします。
-
[OK] をクリックして、このランタイムが削除されるとこのランタイムのファイルが削除されることを確認します。
ファイルが [ファイル] ペインにアップロードされ、 チャット ウィンドウに表示されます。
BigQuery テーブル
-
コンソールで、Colab Enterprise の [マイ ノートブック] ページに移動します。 Google Cloud
-
[リージョン] メニューで、ノートブックを含むリージョンを選択します。
-
開きたいノートブックをクリックします。
-
[Toggle Gemini in Colab] ボタンをクリックして、チャット ダイアログを開きます。
-
データを参照するには、次のいずれかの操作を行います。
-
テーブル セレクタを使用して 1 つ以上のテーブルを選択します。
- [Add to Gemini > BigQuery tables] をクリックします。
- In the [BigQuery テーブル] ウィンドウで、プロジェクト内の 1 つ以上のテーブルを選択します。検索バーを使用すると、複数プロジェクトにわたってテーブルを検索し、テーブルをフィルタできます。
-
プロンプトに BigQuery テーブル名を直接含めます 。たとえば、「探索的データ分析を行い、次のテーブルのデータに関する分析情報を取得してください:
PROJECT_ID:DATASET.TABLE.」と入力します。次のように置き換えます。
PROJECT_ID: プロジェクト ID。DATASET: 分析するテーブルを含むデータセットの名前。TABLE: 分析するテーブルの名前。
-
「
@」と入力して、現在のプロジェクトの BigQuery テーブルを検索します。
-
データ サイエンス エージェントを使用する
Colab Enterprise のデータ サイエンス エージェントの使用を開始するには、次の操作を行います。
-
[Gemini] チャット ダイアログで、プロンプトを入力して [送信] をクリックします。 プロンプトのアイデアを得るには、 データ サイエンス エージェントの機能を確認し、 サンプル プロンプトをご覧ください。
たとえば、「アップロードしたデータの分析を提供してください」と入力します。
データ サイエンス エージェントをまだ認可していない場合は、 Colab Enterprise が Google アカウントをデータ サイエンス エージェントに対して認証している間、短いダイアログが表示されます。
-
Gemini がプロンプトに応答します。レスポンスには、実行するコード スニペット、プロジェクトに関する一般的なアドバイス、目標を達成するための次のステップ、データまたはコード内の特定の問題に関する情報が含まれる場合があります。
レスポンスを評価したら、次の操作を行うことができます。
- Gemini がレスポンスでコードを提供している場合は、次のいずれかをクリックします。
- [同意] をクリックして、コードをノートブックに追加します。
- [**同意して実行**] をクリックして、コードをノートブックに追加し、コードを実行します。
- [キャンセル] をクリックして、提案されたコードを削除します。
- 必要に応じて、フォローアップの質問をしてディスカッションを続けます。
- Gemini がレスポンスでコードを提供している場合は、次のいずれかをクリックします。
-
[Gemini] ダイアログを閉じるには、 [閉じる] をクリックします。
Gemini in Colab Enterprise をオフにする
プロジェクトで Gemini in Colab Enterprise をオフにするには、管理者が Google Cloud Gemini for Google Cloud API を無効にする必要があります。サービスの無効化をご覧ください。
特定のユーザーに対して Gemini in Colab Enterprise をオフにするには、管理者がそのユーザーの Gemini for Google Cloud ユーザー(roles/cloudaicompanion.user)ロールを取り消す必要があります。単一の IAM ロールを取り消すをご覧ください。
サンプル プロンプト
以降のセクションでは、データ サイエンス エージェントで使用できるプロンプトのタイプの例を示します。
Python プロンプト
プロンプトで「BigQuery ML」や「SQL」などの特定のキーワードを使用しない限り、Python コードがデフォルトで生成されます。
- k 近傍法(KNN)ML 機アルゴリズムを使用して、欠損値を調査して入力します。
- 経験レベル別の給与のプロットを作成します。
experience_level列を使用して給与をグループ化し、salary_in_usd列の値を示すグループごとに箱ひげ図を作成します。 - XGBoost アルゴリズムを使用して、特定の果物の
class変数を決定するモデルを作成します。データをトレーニング データセットとテスト データセットに分割して、モデルを生成し、モデルの精度を判断します。混同行列を作成して、各クラスの予測を表示します。これには、正しい予測と正しくない予測の両方が含まれます。 - 今後 6 か月間の
filename.csvからのtarget_variableを予測します。
SQL と BigQuery ML のプロンプト
- BigQuery SQL を使用して
bigquery-public-data.ml_datasets.census_adult_incomeで分類モデルを作成して評価します。 - SQL を使用して、
bigquery-public-data.google_analytics_sample.ga_sessions_*に基づいてウェブサイトの来月のトラフィックを予測します。次に、過去の値と予測値をプロットします。 - KMeans モデルと BigQuery ML SQL 関数を使用して、類似した顧客をグループ化し、ターゲティング マーケティング キャンペーンを作成します。クラスタリングに 3 つの特徴を使用します。次に、一連の 2D 散布図を作成して結果を可視化します。テーブル
bigquery-public-data.ml_datasets.census_adult_incomeを使用します。 bigquery-public-data.imdb.reviewsのレビュー コンテンツを使用して、BigQuery ML でテキスト エンベディングを生成します。
サポートされているモデルと ML タスクの一覧については、BigQuery ML のドキュメントをご覧ください。
DataFrame プロンプト
project_id:dataset.tableのデータの pandas DataFrame を作成します。データの null 値を分析し、グラフタイプを使用して各列の分布をグラフ化します。測定値にはバイオリン プロット、カテゴリには棒グラフを使用します。filename.csvを読み取り、DataFrame を構築します。DataFrame で分析を実行して、必要な値の処理を決定します。たとえば、置換または削除する必要がある欠損値があるか、対処する必要がある重複行があるかなどです。データファイルを使用して、都市の場所ごとに米ドルで投資された金額の分布を特定します。上位 20 件の結果をグラフ化し、棒グラフに「場所」と「平均投資額(米ドル)」を降順で表示します。- BigQuery DataFrames を使用して
project_id:dataset.tableで分類モデルを作成して評価します。 - BigQuery DataFrames を使用して
project_id:dataset.tableに時系列予測モデルを作成し、モデル評価を可視化します。 - BigQuery DataFrames を使用して、BigQuery テーブル
project_id:dataset.tableの過去 1 年間の売上高を可視化します。 - BigQuery DataFrames を使用して、テーブル
bigquery-public_data.ml_datasets.penguinsからペンギン種を最適に予測できる特徴を見つけます。
PySpark プロンプト
- Apache Spark 用サーバーレスを使用して、
project_id:dataset.tableで分類モデルを作成して評価します。 - 類似した顧客をグループ化して、ターゲティング マーケティング キャンペーンを作成しますが、最初に PCA モデルを使用して次元数の削減を行う必要があります。PySpark を使用して、テーブル
project_id:dataset.tableでこれを行います 。
サポートされるリージョン
Colab Enterprise のデータ サイエンス エージェントでサポートされているリージョンについては、 ロケーションをご覧ください。
課金
プレビュー期間中は、ノートブックのランタイムで実行されたコードに対してのみ課金されます。詳細については、 Colab Enterprise の料金をご覧ください。
次のステップ
BigQuery でデータ サイエンス エージェントを使用する方法について詳しくは、BigQuery で Colab Enterprise データ サイエンス エージェントを使用するをご覧ください。
Gemini for Google Cloudの 概要をご覧ください。
Gemini アシスタント機能を利用してコードを記述、編集する方法については、以下をご覧ください。
Gemini for がデータを使用する方法をご覧ください。 Google Cloud