Webseiten mit Sitemaps indexieren und aktualisieren

Wenn die erweiterte Websiteindexierung in Ihrem Datenspeicher aktiviert ist, können Sie Sitemaps einreichen und verwenden, um die Webseiten in Ihrem Datenspeicher zu indexieren und zu aktualisieren. Diese Funktion unterstützt nur XML-Sitemaps und Sitemap-Indexe.

Auf dieser Seite wird beschrieben, wie Sie eine Sitemap oder einen Sitemap-Index einreichen, um die Sitemap-basierte Indexierung und Aktualisierung auszulösen. Informationen zur automatischen und manuellen Aktualisierung ohne Sitemap finden Sie unter Webseiten aktualisieren.

Außerdem wird auf dieser Seite beschrieben, wie Sie die Sitemaps in Ihrem Datenspeicher ansehen oder eine Sitemap löschen.

Konzepte zur Sitemap-basierten Aktualisierung

Hier sind einige wichtige Konzepte und Begriffe, die Ihnen den Einstieg erleichtern:

  • Sitemap-Protokoll: Alle Sitemaps und Sitemap-Indexe, die von Agent Search unterstützt werden, müssen dem Sitemap-Protokoll entsprechen.

  • Sitemap: Eine Sitemap ist eine UTF-8-codierte XML-Datei, die eine Liste mit URLs der Webseiten und Dateien auf Ihrer Website enthält. Außerdem kann sie weitere wichtige, aber optionale Informationen enthalten, z. B. das Datum der letzten Änderung der Webseite und die Priorität der Webseite für einen Crawler im Vergleich zu anderen Webseiten auf Ihrer Website. Gemäß dem Sitemap -Protokoll kann eine einzelne Sitemap maximal 50.000 URLs enthalten und maximal 50 MB groß sein.

  • Sitemap-Index: Wenn Ihre Sitemap die maximale Anzahl von URLs oder die maximale Größe überschreitet, können Sie mehrere Sitemaps erstellen und diese in einer Sitemap-Indexdatei auflisten. Gemäß dem Sitemap-Protokoll kann ein einzelner Sitemap-Index maximal 50.000 Sitemaps enthalten und maximal 50 MB groß sein.

Sie können eine oder mehrere Sitemaps, einen oder mehrere Sitemap-Indexe oder eine Kombination aus Sitemaps und Sitemap-Indexen bei Agent Search einreichen.

Wenn Sie Ihre Sitemap oder Ihren Sitemap-Index im Datenspeicher von Agent Search einreichen, lösen Sie die folgenden Aktionen aus:

  • Indexierung der enthaltenen URLs im Index Ihres Datenspeichers.

    • Bei einer Aktualisierung nur der Sitemap enthält diese Liste nur die URLs in der Sitemap oder im Sitemap-Index, die dem URL-Muster in Ihrem Datenspeicher entsprechen.
    • Bei einer kombinierten Aktualisierung enthält diese Liste alle URLs, die bei der automatischen Aktualisierung gefunden werden.

    Weitere Informationen zu diesen beiden Aktualisierungsprozessen finden Sie unter Aktualisierungsmethoden für Websitedatenspeicher und Aktualisierung nur der Sitemap.

  • Tägliche Aktualisierung aller hinzugefügten, gelöschten und aktualisierten URLs in der Sitemap. Ein Beispiel für eine aktualisierte URL ist, wenn Sie das Feld lastmod einer URL in der Sitemap aktualisieren.

  • Regelmäßige Aktualisierung unveränderter URLs alle 14 Tage.

Aktualisierungsmethoden für Websitedatenspeicher

Sie haben folgende Möglichkeiten, die Sitemap-basierte Aktualisierung in Ihren Datenspeicher zu integrieren:

  • Aktualisierung nur der Sitemap: Verwenden Sie ausschließlich die Sitemap-basierte Aktualisierung, indem Sie die erste Indexierung und die automatische Aktualisierung deaktivieren.
  • Kombinierte Aktualisierung: Verwenden Sie die Sitemap-basierte Aktualisierung zusammen mit der ersten Indexierung und automatischer Aktualisierung.

Sie können bestimmte Webseiten im Index Ihres Datenspeichers jederzeitmanuell aktualisieren, unabhängig von der von Ihnen gewählten Aktualisierungsmethode.

Aktualisierung nur der Sitemap

Wenn Sie einen Websitedatenspeicher erstellen, müssen Sie URL-Muster für die Webseiten angeben, die in den Index Ihres Datenspeichers aufgenommen werden sollen. Standardmäßig generiert Agent Search nach dem Erstellen eines Websitedatenspeichers einen ersten Index für diese Webseiten.

Bei Websitedatenspeichern mit erweiterter Websiteindexierung ist die erste Indexierung Teil der automatischen Aktualisierung. Bei der ersten Indexierung werden alle enthaltenen URLs indexiert, die in der Google Suche verfügbar sind. Die erste Aktualität dieser URLs entspricht der Aktualität in der Google Suche. Nach der ersten Indexierung werden bei der automatischen Aktualisierung neue Seiten gefunden und bestmöglich aktualisiert. Dies kann zu relativ veralteten Seiten und einem umfangreicheren Index führen, da bei diesem Prozess URLs gefunden werden, die möglicherweise nicht erforderlich sind.

Stattdessen können Sie die Aktualisierung nur der Sitemap durchführen. Dies ist in den folgenden Fällen nützlich:

  • Sie haben eine gut gepflegte und aktuelle Sitemap.
  • Sie haben eine große Website und möchten genauer steuern, welche Webseiten indexiert werden. Dies führt zu einem schlankeren, übersichtlicheren Index.
  • Sie müssen Ihre hinzugefügten und aktualisierten Seiten täglich aktualisieren und gelöschte Seiten entfernen. Dies führt zu einem aktuelleren Index, der die Sitemap widerspiegelt.

In der folgenden Tabelle werden die verschiedenen Methoden zum Aktualisieren des Datenspeicherindex verglichen:

Aktualisierungsmethode Precision Manuelle Eingriffe Häufigkeit Discovery
Sitemap-basierte Aktualisierung Genau. Es werden nur die URLs in den Sitemaps indexiert. Nach dem Einreichen der Sitemap oder des Sitemap-Index nicht erforderlich Täglich für hinzugefügte, gelöschte und aktualisierte URLs in der Sitemap. 14 Tage für unveränderte URLs Nicht über die in der Sitemap angegebenen hinaus.
Manuelle Aktualisierung (auch als Neucrawl bezeichnet) Genau. Es werden nur die URLs indexiert, die in der Neucrawlanfrage angegeben sind. Erforderlich On demand Nein.
Automatische Aktualisierung Nicht genau. Der Datenspeicher wird bestmöglich aktualisiert. Nicht erforderlich Zufällig und bestmöglich Ja. Findet URLs, die über die in der Google Suche verfügbaren hinausgehen.

Hinweis

Bevor Sie eine Sitemap oder einen Sitemap-Index im Datenspeicher von Agent Search einreichen:

  • Erstellen Sie gemäß dem Sitemap-Protokoll eine XML-Sitemap oder einen Sitemap-Index, der auf alle Sitemaps für Ihre Website verweist.

  • Sie müssen eine Sitemap oder einen Sitemap-Index nicht bei der Google Suche einreichen, um sie im Datenspeicher von Agent Search einzureichen.

  • Alle URLs in Ihrer Sitemap, die indexiert werden sollen, müssen zu öffentlichen Domains gehören, die in Ihrem Datenspeicher bestätigt wurden. Weitere Informationen finden Sie unter Websitedom/1}ains bestätigen.

  • Der Sitemap-URI oder der Sitemap-Index-URI mit den verschachtelten Sitemap-URIs muss öffentlich verfügbar sein.

  • Wenn Sie die Datei robots.txt auf Ihrer Website verwenden, aktualisieren Sie sie. Weitere Informationen finden Sie unter Datei Ihrer Website vorbereiten.robots.txt

Sitemap oder Sitemap-Index in einem Datenspeicher einreichen

So lösen Sie die Indexierung und Aktualisierung der enthaltenen Webseiten in Ihrem Datenspeicher aus:

  1. Entscheiden Sie, ob Sie nur die Sitemap aktualisieren oder eine kombinierte Aktualisierung mit anderen Methoden durchführen möchten.

  2. Wenn Sie nur die Sitemap aktualisieren möchten, führen Sie diesen Schritt aus. Andernfalls fahren Sie mit dem nächsten Schritt fort.

    Sie können keinen vorhandenen Datenspeicher verwenden, der die erste Indexierung und Aktualisierung enthält. Sie müssen einen neuen Datenspeicher erstellen, indem Sie die erste Indexierung und die automatische Aktualisierung mit der AdvancedSiteSearchConfig Konfiguration deaktivieren.

    REST

    Erstellen Sie einen Datenspeicher, in dem nur die Sitemap-Aktualisierung aktiviert ist. Dazu müssen Sie die erste Indexierung und die automatische Aktualisierung deaktivieren.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Hinweis: Wenn Sie disableAutomaticRefresh auf true setzen, wird nur die discoverybasierte automatische Aktualisierung deaktiviert. Die tägliche automatische Aktualisierung, die auf der Grundlage der bereitgestellten Sitemap erfolgt (Prüfung auf Änderungen wie das Feld lastmod), ist davon nicht betroffen.

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die ID Ihres Google Cloud Projekts in.
    • DATA_STORE_ID: die ID des Agent Search-Datenspeichers, den Sie erstellen möchten. Diese ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.
    • DATA_STORE_DISPLAY_NAME: der Anzeigename des Agent Search-Datenspeichers, den Sie erstellen möchten.

  3. Aktualisieren Sie die URL-Muster der Websites, die in Ihren Datenspeicher aufgenommen oder ausgeschlossen werden sollen. Weitere Informationen finden Sie unter Datenspeicher mit Website inhalten erstellen.

  4. Bestätigen Sie die Domains der Webseiten in Ihrem Datenspeicher.

  5. Unabhängig davon, ob Sie nur die Sitemap aktualisieren oder eine Kombination aktualisieren, reichen Sie mit der sitemaps.create Methode einen Sitemap- oder Sitemap-Index-URI in einem Datenspeicher ein.

    REST

    Sitemap oder Sitemap-Index einreichen.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die ID Ihres Google Cloud Projekts in.
    • DATA_STORE_ID: die ID des Agent Search-Datenspeichers.
    • SITEMAP_URI: der öffentliche URI für die einzelne Sitemap oder den Sitemap-Index, die Sie einreichen möchten. Wenn Sie einen Sitemap-Index einreichen, reicht es aus, den URI des Sitemap-Index einzureichen. Agent Search indexiert automatisch die enthaltenen URLs in all den Sitemaps, die im Sitemap-Index verschachtelt sind.

    Nachdem Sie die Sitemap oder den Sitemap-Index im Datenspeicher eingereicht haben, löst Agent Search Folgendes aus:

    • Indexierung der infrage kommenden URLs in der Sitemap, d. h. der URLs, die in Ihrem Datenspeicher enthalten sind. Dieser Vorgang dauert durchschnittlich einige Stunden. Bei größeren Sitemaps kann die Indexierung länger dauern.
    • Tägliche Aktualisierung der Webseiten mit infrage kommenden URLs.

    Informationen dazu, wie sich Änderungen an der Sitemap oder am Sitemap-Index auf die Aktualisierung auswirken, siehe Änderungen an Sitemap und Sitemap-Index.

  6. Sitemaps in Ihrem Datenspeicher ansehen.

Änderungen an Sitemap und Sitemap-Index

Nach der ersten Einreichung erkennt Agent Search täglich Änderungen an Ihrer Sitemap oder Ihrem Sitemap-Index und verarbeitet diese Änderungen so:

  • Änderungen an einer Sitemap:
    • Wenn Sie URLs hinzufügen: URLs, die dem Muster für enthaltene URLs für den Datenspeicher entsprechen, werden dem Index hinzugefügt und täglich aktualisiert.
    • Wenn Sie URLs entfernen: Wenn sich die entfernten URLs im Index befinden, werden sie daraus entfernt und nicht mehr aktualisiert.
    • Wenn Sie die vorhandenen URLs aktualisieren, z. B. wenn Sie das Feld lastmod für eine URL in der Sitemap aktualisieren: Alle aktualisierten URLs, die dem Muster für enthaltene URLs für den Datenspeicher entsprechen, werden aktualisiert. Die Aktualisierung erfolgt in der Regel innerhalb von 24 Stunden nach der Aktualisierung.
  • Änderungen an einem Sitemap-Index:
    • Wenn Sie eine Sitemap hinzufügen: URLs in der neuen Sitemap, die dem Muster für enthaltene URLs für den Datenspeicher entsprechen, werden dem Index hinzugefügt und täglich aktualisiert.
    • Wenn Sie eine Sitemap entfernen: Die URLs, die dem Muster für enthaltene URLs für den Datenspeicher entsprechen, werden nicht mehr aktualisiert. Sie bleiben jedoch im Index. Informationen zum Entfernen der Sitemap und ihrer URLs aus dem Index finden Sie unter Sitemap und URLs aus dem Index entfernen.

Sitemaps und Sitemap-Indexe in einem Datenspeicher auflisten

Verwenden Sie die sitemaps.fetch Methode, um alle Sitemaps und Sitemap-Indexe in einem Datenspeicher aufzulisten. Wenn Sie einen Sitemap-Index eingereicht haben, gibt diese Methode den Sitemap-Index und nicht die einzelnen, verschachtelten Sitemaps zurück. Wenn der Datenspeicher keine Sitemaps enthält, gibt diese Anfrage eine leere JSON-Datei zurück.

REST

Sitemaps und Sitemap-Indexe in einem Datenspeicher auflisten.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Ersetzen Sie Folgendes:

  • PROJECT_ID: die ID Ihres Google Cloud Projekts in.
  • DATA_STORE_ID: die ID des Agent Search-Datenspeichers.

Prüfen, ob eine Sitemap oder ein Sitemap-Index in einem Datenspeicher vorhanden ist

Verwenden Sie die Methode sitemaps.fetch, um zu prüfen, ob eine Sitemap oder ein Sitemap-Index in einem Datenspeicher vorhanden ist. Wenn die Sitemap oder der Sitemap-Index, die bzw. den Sie prüfen, im Datenspeicher eingereicht wurde, enthält die Antwort den Sitemap-Namen und den URI der Sitemap. Wenn Sie einen Sitemap-Index eingereicht haben, werden beim Prüfen auf einzelne Sitemaps im Sitemap-Index nicht die richtigen Ergebnisse zurückgegeben.

REST

Nach einer Sitemap oder einem Sitemap-Index in einem Datenspeicher suchen.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Ersetzen Sie Folgendes:

  • PROJECT_ID: die ID Ihres Google Cloud Projekts in.
  • DATA_STORE_ID: die ID des Agent Search-Datenspeichers.
  • SITEMAP_URI_N: der öffentliche URI der Sitemap oder des Sitemap-Index, die bzw. den Sie im Datenspeicher prüfen möchten.

Sitemap oder Sitemap-Index aus dem Datenspeicher löschen

Verwenden Sie die sitemap.delete Methode, um eine Sitemap aus dem Datenspeicher zu löschen. Wenn Sie eine Sitemap löschen, werden ihre URLs nicht aus dem Index entfernt. Informationen zum Entfernen der Sitemap und ihrer URLs aus dem Index finden Sie unter Sitemap und URLs aus dem Index entfernen.

REST

Sitemap oder Sitemap-Index löschen.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Ersetzen Sie Folgendes:

Sitemap oder Sitemap-Index und zugehörige URLs aus dem Datenspeicherindex entfernen

So entfernen Sie eine Sitemap oder einen Sitemap-Index und die zugehörigen URLs aus dem Index:

  1. Leeren Sie die Sitemap oder den Sitemap-Index, die bzw. der im Datenspeicher eingereicht wurde, indem Sie alle URLs entfernen.

    Wenn Sie einen Sitemap-Index im Datenspeicher eingereicht haben, leeren Sie die verschachtelten Sitemaps, indem Sie alle URLs entfernen, und entfernen Sie die Sitemaps aus dem Sitemap-Index.

  2. Warten Sie 48 Stunden, bis Agent Search diese Änderungen verarbeitet und die URLs aus dem Index des Datenspeichers entfernt hat.

  3. Löschen Sie die Sitemap oder den Sitemap-Index.