データストアで高度なウェブサイト インデックス登録が有効になっている場合は、サイトマップを送信して使用し、データストア内のウェブページのインデックス登録と更新を行うことができます。この機能は、XML サイトマップとサイトマップ インデックスのみをサポートしています。
このページでは、サイトマップまたはサイトマップ インデックスを送信して、サイトマップ ベースのインデックス登録と更新をトリガーする方法について説明します。サイトマップを使用せずに自動更新と手動更新を理解して実装するには、ウェブページを更新するをご覧ください。
また、このページでは、データストアでサイトマップを表示する方法や、サイトマップを削除する方法についても説明します。
サイトマップベースの更新のコンセプト
ここでは、開始時に役立つ主なコンセプトと用語を紹介します。
サイトマップ プロトコル: Agent Search がサポートするすべてのサイトマップとサイトマップ インデックスは、サイトマップ プロトコルに準拠する必要があります。
サイトマップ: サイトマップは UTF-8 でエンコードされた XML ファイルです。このファイルには、ウェブサイト内のウェブページとファイルの URL のリストが含まれています。また、ウェブページの最終更新日や、ウェブサイト内の他のウェブページに対するクローラによるウェブページの優先度など、その他の重要な情報も含まれている場合があります。サイトマップ プロトコルによると、1 つのサイトマップに含めることができる URL の最大数は 50,000 件で、最大サイズは 50 MB です。
サイトマップ インデックス: サイトマップの URL の数またはサイズが上限を超える場合は、複数のサイトマップを作成し、それらのサイトマップをサイトマップ インデックス ファイルに記載できます。サイトマップ プロトコルによると、1 つのサイトマップ インデックスにネストできるサイトマップの最大数は 50,000 個で、最大サイズは 50 MB です。
エージェント検索には、1 つ以上のサイトマップ、1 つ以上のサイトマップ インデックス、またはサイトマップとサイトマップ インデックスの組み合わせを送信できます。
エージェント検索データストアにサイトマップまたはサイトマップ インデックスを送信すると、次のアクションがトリガーされます。
データストア インデックスに含まれる URL のインデックス登録。
- サイトマップのみを更新する場合、このリストには、データストアに含まれる URL パターンに一致するサイトマップまたはサイトマップ インデックス内の URL のみが含まれます。
- 組み合わせ更新の場合、このリストには自動更新プロセスで検出されたすべての URL が含まれます。
これらの 2 つの更新プロセスの詳細については、ウェブサイトのデータストアの更新方法とサイトマップのみの更新をご覧ください。
サイトマップに追加、削除、更新された URL の毎日の更新。更新された URL の例としては、サイトマップ内の URL の
lastmodフィールドを更新した場合などがあります。変更されていない URL を 14 日ごとに定期的に更新します。
ウェブサイトのデータストアの更新方法
データストアにサイトマップ ベースの更新を組み込むには、次のいずれかの方法を選択できます。
- サイトマップのみの更新: 初期インデックス登録と自動更新をオフにして、サイトマップ ベースの更新のみを使用します。
- 組み合わせ更新: サイトマップ ベースの更新と、初回インデックス登録および自動更新を組み合わせます。
選択した更新方法に関係なく、データストア インデックス内の特定のウェブページはいつでも手動で更新できます。
サイトマップのみの更新
ウェブサイト データストアを作成するときは、データストアのインデックスに含めるウェブページの URL パターンを指定する必要があります。デフォルトでは、ウェブサイト データストアの作成が完了すると、Agent Search はこれらのウェブページに対して最初のインデックスを生成します。
ウェブサイトの高度なインデックス登録を使用するウェブサイト データストアの場合、初期インデックス登録プロセスは自動更新の一部です。初期インデックス登録プロセスでは、Google 検索で利用可能なすべての URL がインデックスに登録されます。これらの URL の初期の鮮度は、Google 検索で利用できる情報の鮮度を反映します。最初のインデックス登録後、自動更新プロセスで新しいページが検出され、ベストエフォート方式で更新されます。このプロセスでは、必要以上の URL が検出されるため、ページが比較的古くなったり、インデックスが肥大化したりする可能性があります。
代わりに、サイトマップのみの更新を実行することもできます。これは、次のような場合に便利です。
- 最新の状態に保たれたサイトマップがある。
- 大規模なウェブサイトがあり、インデックスに登録するウェブページをより細かく制御する必要がある。これにより、管理しやすいインデックスが作成されます。
- 追加または更新したページは毎日更新し、削除したページは削除する必要があります。これにより、サイトマップを反映した新しいインデックスが作成されます。
次の表は、データストア インデックスを更新するさまざまな方法を比較したものです。
| 更新方法 | 適合率 | 手動での介入 | 頻度 | 調査 |
|---|---|---|---|---|
| サイトマップに基づく更新 | そのとおりです。サイトマップ内の URL のみをインデックスに登録します。 | サイトマップまたはサイトマップ インデックスを送信した後は不要 | サイトマップで追加、削除、更新された URL については毎日。URL が変更されていない場合は 14 日間 | サイトマップで指定された範囲を超えない。 |
| 手動更新(再クロールとも呼ばれます) | そのとおりです。再クロール リクエストで指定された URL のみをインデックスに登録します。 | 必須 | オンデマンド | いいえ。 |
| 自動更新 | 正確ではありません。データストアはベスト エフォートで更新されます。 | 不要 | ランダムでベスト エフォート | はい。Google 検索で利用可能な URL 以外も検出します。 |
始める前に
サイトマップまたはサイトマップ インデックスをエージェント検索データストアに送信する前に、次の操作を行います。
サイトマップ プロトコルに従って、ウェブサイトのすべてのサイトマップを参照する XML サイトマップまたはサイトマップ インデックスを作成します。
- サイトマップを作成する際の基本を理解する。詳細については、サイトマップ ベースの更新のコンセプトとサイトマップを作成して送信するをご覧ください。
サイトマップまたはサイトマップ インデックスをエージェント検索データストアに送信する場合、Google 検索に送信する必要はありません。
インデックス登録するサイトマップ内のすべての URL は、データストアで確認済みの公開ドメインに属している必要があります。詳しくは、ウェブサイトのドメインを確認するをご覧ください。
サイトマップ URI またはネストされたサイトマップ URI を含むサイトマップ インデックス URI は、一般公開されている必要があります。
ウェブサイトで
robots.txtファイルを使用している場合は、更新します。詳しくは、ウェブサイトのrobots.txtファイルを準備する方法をご覧ください。
サイトマップまたはサイトマップ インデックスをデータストアに送信する
データストアに含まれるウェブページのインデックス登録と更新をトリガーする手順は次のとおりです。
サイトマップのみの更新を行うか、他の方法と組み合わせて更新を行うかを決定します。
サイトマップのみを更新するには、この手順に沿って操作します。それ以外の場合は、次の手順に進みます。
初期インデックス登録と更新が行われている既存のデータストアは使用できません。
AdvancedSiteSearchConfig構成を使用して、初期インデックス登録と自動更新をオフにして、新しいデータストアを作成する必要があります。REST
サイトマップの更新のみが有効になっているデータストアを作成します。これは、初期インデックスと自動更新をオフにすることで行われます。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "content_config": "PUBLIC_WEBSITE", "searchTier": "ENTERPRISE", "advancedSiteSearchConfig": { "disableInitialIndex": true, "disableAutomaticRefresh": true, } }'注:
disableAutomaticRefreshをtrueに設定すると、検出ベースの自動更新のみが無効になります。この設定は、提供されたサイトマップに基づいて行われる毎日の自動更新(lastmodフィールドなどの変更の確認)には影響しません。次のように置き換えます。
PROJECT_ID: 実際の Google Cloud プロジェクト ID。DATA_STORE_ID: 作成するエージェント検索データストアの ID。この ID に使用できるのは、小文字、数字、アンダースコア、ハイフンのみです。DATA_STORE_DISPLAY_NAME: 作成するエージェント検索データストアの表示名。
データストアで追加または除外するサイトの URL パターンを更新します。詳細については、ウェブサイトのコンテンツを使用してデータストアを作成するをご覧ください。
データストアに含まれるウェブページのドメインの所有権を証明します。
サイトマップのみの更新と組み合わせた更新のどちらを選択した場合でも、
sitemaps.createメソッドを使用して、サイトマップまたはサイトマップ インデックスの URI をデータストアに送信します。REST
サイトマップまたはサイトマップ インデックスを送信します。
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_NUMBER" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
次のように置き換えます。
PROJECT_ID: 実際の Google Cloud プロジェクト ID。DATA_STORE_ID: エージェント検索データストアの ID。SITEMAP_URI: 送信する個々のサイトマップまたはサイトマップ インデックスの公開 URI。サイトマップ インデックスを送信する場合は、サイトマップ インデックスの URI を送信するだけで十分です。エージェント検索は、サイトマップ インデックス内にネストされているすべてのサイトマップに含まれる URL を自動的にインデックス登録します。
サイトマップまたはサイトマップ インデックスをデータストアに送信すると、エージェント検索は次の処理をトリガーします。
- サイトマップ内の対象 URL のインデックス登録(データストアに含まれている URL)。このプロセスが完了するまでには、平均して数時間かかります。サイトマップが大きいほど、インデックス登録に時間がかかることがあります。
- 対象となる URL を含むウェブページを毎日更新します。
サイトマップまたはサイトマップ インデックスの変更が更新に与える影響については、サイトマップとサイトマップ インデックスの変更をご覧ください。
データストア内のサイトマップを表示します。
サイトマップとサイトマップ インデックスの変更
初回送信後、Agent Search はサイトマップまたはサイトマップ インデックスの変更を毎日検出し、次のように処理します。
- サイトマップの変更:
- URL を追加する場合: データストアの除外 URL パターンに一致する URL は、インデックスに追加され、毎日更新されます。
- URL を削除した場合: 削除した URL がインデックスに登録されている場合は、インデックスから削除され、更新されなくなります。
- 既存の URL を更新する場合(たとえば、サイトマップ内の URL の
lastmodフィールドを更新する場合): データストアの URL パターンに含まれる URL と一致する更新済みの URL はすべて更新されます。通常、更新後 24 時間以内に更新が行われます。
- サイトマップ インデックスの変更:
- サイトマップを追加すると、データストアの URL パターンに一致する新しいサイトマップ内の URL がインデックスに追加され、毎日更新されます。
- サイトマップを削除すると、データストアの URL パターンに一致する URL は更新されなくなります。ただし、インデックスには残ります。サイトマップとその URL をインデックスから削除するには、サイトマップとその URL をインデックスから削除するをご覧ください。
データストア内のサイトマップとサイトマップ インデックスを一覧表示する
データストア内のすべてのサイトマップとサイトマップ インデックスを一覧表示するには、sitemaps.fetch メソッドを使用します。サイトマップ インデックスを送信した場合は、このメソッドは個別のネストされたサイトマップではなく、サイトマップ インデックスを返します。データストアにサイトマップがない場合、このリクエストは空の JSON ファイルを返します。
REST
データストア内のサイトマップとサイトマップ インデックスを一覧表示します。
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"
次のように置き換えます。
PROJECT_ID: 実際の Google Cloud プロジェクト ID。DATA_STORE_ID: エージェント検索データストアの ID。
データストアにサイトマップまたはサイトマップ インデックスが存在するかどうかを確認する
サイトマップまたはサイトマップ インデックスがデータストアに存在するかどうかを確認するには、sitemaps.fetch メソッドを使用します。確認するサイトマップまたはサイトマップ インデックスがデータストアに送信されている場合、レスポンスにはサイトマップの名前と URI が含まれます。サイトマップ インデックスを送信した場合は、サイトマップ インデックス内の個々のサイトマップを確認しても、正しい結果は返されません。
REST
データストアでサイトマップまたはサイトマップ インデックスを確認します。
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"
次のように置き換えます。
PROJECT_ID: 実際の Google Cloud プロジェクト ID。DATA_STORE_ID: エージェント検索データストアの ID。SITEMAP_URI_N: データストアで確認するサイトマップまたはサイトマップ インデックスの公開 URI。
データストアからサイトマップまたはサイトマップ インデックスを削除する
データストアからサイトマップを削除するには、sitemap.delete メソッドを使用します。サイトマップを削除しても、その URL がインデックスから削除されることはありません。サイトマップとその URL をインデックスから削除するには、サイトマップとその URL をインデックスから削除するをご覧ください。
REST
サイトマップまたはサイトマップ インデックスを削除します。
curl -X DELETE \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"
次のように置き換えます。
PROJECT_ID: 実際の Google Cloud プロジェクト ID。DATA_STORE_ID: エージェント検索データストアの ID。SITEMAP_ID: サイトマップまたはサイトマップ インデックスを識別する一意の ID。この ID は、サイトマップまたはサイトマップ インデックスを送信したとき、またはデータストア内のサイトマップとサイトマップ インデックスを一覧表示したときのレスポンスの名前フィールドで確認できます。
サイトマップまたはサイトマップ インデックスとその URL をデータストア インデックスから削除する
サイトマップまたはサイトマップ インデックスとその URL をインデックスから削除する手順は次のとおりです。
すべての URL を削除して、データストアに送信されたサイトマップまたはサイトマップ インデックスを空にします。
サイトマップ インデックスをデータストアに送信した場合は、すべての URL を削除してネストされたサイトマップを空にし、サイトマップ インデックスからサイトマップを削除します。
エージェント検索がこれらの変更を処理し、データストアのインデックスから URL を削除するまで 48 時間待ちます。