このページでは、表形式データから Gemini Enterprise Agent Platform データセットを作成して、分類モデルと回帰モデルのトレーニングを開始する方法について説明します。データセットは、 コンソールまたは Google Cloud Agent Platform API を使用して作成できます。
始める前に
表形式データから Agent Platform データセットを作成する前に、まずデータを準備します。詳細は下記のページをご覧ください。
空のデータセットを作成して、準備したデータを関連付ける
分類または回帰用の ML モデルを作成するには、最初にトレーニングに使用する代表的なデータを収集する必要があります。Google Cloud コンソールまたは API を使用して、準備したデータをデータセットに関連付けます。データを関連付けることで、変更を行い、モデルのトレーニングを開始できます。
Google Cloud コンソール
- コンソールの Agent Platform セクションで、 [データセット] ページに移動します。 Google Cloud
- [作成] をクリックして [データセットを作成] の詳細ページを開きます。
- [データセット名] フィールドを変更して、わかりやすいデータセットの表示名を作成します。
- [表形式] タブを選択します。
- 目標に [回帰 / 分類] を選択します。
- [リージョン] プルダウン リストからリージョンを選択します。
- データセットで顧客管理の暗号鍵(CMEK)を使用する場合は、[ADVANCED OPTIONS] を開いて鍵を指定します。(プレビュー)
- [作成] をクリックして空のデータセットを作成し、[ソース] タブに進みます。
- データソースに基づいて、次のいずれかのオプションを選択します。
パソコン上の CSV ファイル
- [パソコンから CSV ファイルをアップロード] をクリックします。
- [ファイルを選択] をクリックし、Cloud Storage バケットにアップロードするすべてのローカル ファイルを選択します。
- [Cloud Storage パスの選択] セクションで、Cloud Storage バケットへのパスを入力するか、[参照] をクリックしてバケットのロケーションを選択します。
Cloud Storage の CSV ファイル
- [Cloud Storage から CSV ファイルを選択] をクリックします。
- [Cloud Storage から CSV ファイルを選択] セクションで、Cloud Storage バケットのパスを入力するか、[参照] をクリックして CSV ファイルのロケーションを選択します。
BigQuery のテーブルまたはビュー
- [テーブルまたはビューを BigQuery から選択] をクリックします。
- 入力ファイルのプロジェクト、データセット、テーブル ID を入力します。
- [続行] をクリックします。
データソースはデータセットに関連付けられます。
API
データセットを作成するときに、データセットをデータソースに関連付けます。データセットの作成に必要なコードは、トレーニング データが Cloud Storage と BigQuery のどちらに存在するかによって異なります。データソースが別のプロジェクトにある場合は、必要な権限を設定する必要があります。Cloud Storage のデータでデータセットを作成する
REST
データセットを作成するには、datasets.create メソッドを使用します。
リクエストのデータを使用する前に、次のように置き換えます。
-
LOCATION: データセットが格納されるリージョン。これは、データセット リソースをサポートしているリージョンにする必要があります。例:
us-central1 - PROJECT: [プロジェクト ID](/resource-manager/docs/creating-managing-projects#identifiers)。 。
- DATASET_NAME: データセットの表示名。
-
METADATA_SCHEMA_URI: 目的のスキーマ ファイルの URI。
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml -
URI: トレーニング データを含む Cloud Storage バケットへのパス(URI)。複数指定することも可能です。各 URI の形式は次のとおりです。
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: プロジェクトに自動生成されたプロジェクト番号。
HTTP メソッドと URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
リクエストの本文(JSON):
{
"display_name": "DATASET_NAME",
"metadata_schema_uri": "METADATA_SCHEMA_URI",
"metadata": {
"input_config": {
"gcs_source": {
"uri": [URI1, URI2, ...]
}
}
}
}
リクエストを送信するには、次のいずれかのオプションを選択します。
curl
リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
次のような JSON レスポンスが返されます。
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata",
"genericMetadata": {
"createTime": "2020-07-07T21:27:35.964882Z",
"updateTime": "2020-07-07T21:27:35.964882Z"
}
}
Java
このサンプルを試す前に、クライアント ライブラリを使用した Agent Platform クイックスタートのJava設定手順に沿ってください。
Agent Platform で認証を行うには、アプリケーションのデフォルト認証情報を設定します。 詳細については、 ローカル開発環境の認証の設定をご覧ください。
Node.js
このサンプルを試す前に、クライアント ライブラリを使用した Agent Platform クイックスタートのNode.js の手順に沿って設定を行ってください。
Agent Platform で認証を行うには、アプリケーションのデフォルト認証情報を設定します。 詳細については、 ローカル開発環境の認証の設定をご覧ください。
Python
Vertex AI SDK for Python のインストールまたは更新の方法については、Vertex AI SDK for Python をインストールするをご覧ください。詳細については、Python API リファレンス ドキュメントをご覧ください。
BigQuery のデータでデータセットを作成する
REST
データセットを作成するには、datasets.create メソッドを使用します。リクエストのデータを使用する前に、次のように置き換えます。
-
LOCATION: データセットが格納されるリージョン。これは、データセット リソースをサポートしているリージョンにする必要があります。例:
us-central1 - PROJECT:
- DATASET_NAME: データセットの表示名。
-
METADATA_SCHEMA_URI: 目的のスキーマ ファイルの URI。
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml -
URI: トレーニング データを含む BigQuery テーブルへのパス。フォームで次の操作を行います。
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: プロジェクトに自動生成されたプロジェクト番号。
HTTP メソッドと URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
リクエストの本文(JSON):
{
"display_name": "DATASET_NAME",
"metadata_schema_uri": "METADATA_SCHEMA_URI",
"metadata": {
"input_config": {
"bigquery_source" :{
"uri": "URI
}
}
}
}
リクエストを送信するには、次のいずれかのオプションを選択します。
curl
リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
次のような JSON レスポンスが返されます。
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata",
"genericMetadata": {
"createTime": "2020-07-07T21:27:35.964882Z",
"updateTime": "2020-07-07T21:27:35.964882Z"
}
}
Java
このサンプルを試す前に、クライアント ライブラリを使用した Agent Platform クイックスタートのJava設定手順に沿ってください。
Agent Platform で認証を行うには、アプリケーションのデフォルト認証情報を設定します。 詳細については、 ローカル開発環境の認証の設定をご覧ください。
Node.js
このサンプルを試す前に、クライアント ライブラリを使用した Agent Platform クイックスタートのNode.js の手順に沿って設定を行ってください。
Agent Platform で認証を行うには、アプリケーションのデフォルト認証情報を設定します。 詳細については、 ローカル開発環境の認証の設定をご覧ください。
Python
Vertex AI SDK for Python のインストールまたは更新の方法については、Vertex AI SDK for Python をインストールするをご覧ください。詳細については、Python API リファレンス ドキュメントをご覧ください。
オペレーションのステータスを取得する
一部のリクエストでは、完了までに長時間かかるオペレーションが実行されます。このようなリクエストではオペレーション名が返されます。そのオペレーション名を使用して、オペレーションのステータス確認やキャンセルを行うことができます。Agent Platform には、長時間実行オペレーションに対して呼び出しを行うためのヘルパー メソッドが用意されています。詳細については、長時間実行 オペレーションによる作業をご覧ください。