ウェブサイトの高度なインデックス登録では、データストアにインポートするウェブデータのサイズに基づいて、毎月データ ストレージ料金が発生します。ウェブデータをインポートする前にサイズの推定値を取得するには、estimateDataSize
メソッドを呼び出して、インポートするウェブページを指定します。estimateDataSize
メソッドは、データサイズの推定プロセスが完了するまで実行される長時間実行オペレーションです。指定したウェブページの数に応じて、数分から 1 時間以上かかることがあります。ウェブデータのサイズの見積もりを取得したら、Vertex AI Search の料金ページ(データ インデックスの料金セクションを参照)または Google Cloud の料金計算ツール(Vertex AI Search を検索)を使用して、月額データ ストレージ費用を見積もることができます。
始める前に
ウェブデータをデータストアにインポートするときに含める(必要に応じて除外する)ウェブサイトの URL パターンを決定します。これらの URL パターンは、estimateDataSize
メソッドを呼び出すときに指定します。
手順
ウェブデータのサイズの推定値を取得する手順は次のとおりです。
estimateDataSize
メソッドを呼び出します。curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'
次のように置き換えます。
PROJECT_ID
: 実際のプロジェクトの ID。URI_PATTERN_TO_INCLUDE
: データサイズの見積もりの対象とするウェブサイトの URL パターン。URI_PATTERN_TO_EXCLUDE
:(省略可)データサイズの見積もりの対象から除外するウェブサイトの URL パターン。URI_PATTERN_TO_INCLUDE
とURI_PATTERN_TO_EXCLUDE
には、次のようなパターンを使用できます。- ウェブサイト全体:
www.mysite.com
- ウェブサイトの構成要素:
www.mysite.com/faq
- ドメイン全体:
mysite.com
または*.mysite.com
- ウェブサイト全体:
EXCLUSIVE_BOOLEAN
:(省略可)true
の場合、指定された URI パターンは、データサイズの推定から除外されるウェブページを表します。デフォルトはfalse
です。これは、指定された URI パターンが、データサイズの推定に含まれるウェブページを表すことを意味します。EXACT_MATCH_BOOLEAN
:(省略可)true
の場合、指定された URI パターンは、ウェブページとそのすべての子ではなく、単一のウェブページを表します。デフォルトはfalse
です。これは、指定された URI パターンがウェブページとそのすべての子を表すことを意味します。
出力は次のようになります。
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
この出力には、長時間実行オペレーションの名前である
name
フィールドが含まれています。次のステップで使用するname
の値を保存します。operations.get
メソッドをポーリングします。curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"
OPERATION_NAME
は、前のステップで保存したname
値に置き換えます。長時間実行オペレーションを一覧表示してオペレーション名を取得することもできます。各回答を評価します。
レスポンスに
"done": true
が含まれていない場合、データサイズの推定プロセスは完了していません。ポーリングを続行します。出力は次のようになります。
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }
レスポンスに
"done": true
が含まれている場合、データサイズの推定プロセスは完了しています。次のステップで使用するために、レスポンスからDATA_SIZE_BYTES
値を保存します。出力は次のようになります。
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2023-12-08T19:54:06.911248Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }
この出力には次の値が含まれます。
DATA_SIZE_BYTES
: ウェブデータの推定サイズ(バイト単位)。DOCUMENT_COUNT
: ウェブデータ内のウェブページの推定数。
前の手順で取得した
DATA_SIZE_BYTES
の値を 1,000,000,000 で割って、GB を取得します。次の手順で使用するため、この値を保存します。毎月のデータ ストレージ費用の見積もりを取得するには:
Google Cloud の料金計算ツールに移動します。
[Add To Estimate] をクリックします。
Vertex AI Search
を検索し、[Vertex AI Search] ボックスをクリックします。[データ インデックス] ボックスに、前の手順で確認したウェブデータの推定サイズ(GB 単位)を入力します。
データ ストレージの推定費用については、[推定費用] ボックスをご覧ください。