Webseiten mit Sitemaps indexieren und aktualisieren

Wenn die erweiterte Websiteindexierung in Ihrem Datenspeicher aktiviert ist, können Sie Sitemaps einreichen und verwenden, um die Webseiten in Ihrem Datenspeicher zu indexieren und zu aktualisieren. Diese Funktion unterstützt nur XML-Sitemaps und Sitemap-Indexe.

Auf dieser Seite wird beschrieben, wie Sie eine Sitemap oder einen Sitemap-Index einreichen, um die Sitemap-basierte Indexierung und Aktualisierung auszulösen. Informationen zum automatischen und manuellen Aktualisieren ohne Sitemap finden Sie unter Webseiten aktualisieren.

Außerdem wird auf dieser Seite beschrieben, wie Sie die Sitemaps in Ihrem Datenspeicher ansehen oder eine Sitemap löschen.

Konzepte für die Sitemap-basierte Aktualisierung

Hier sind einige wichtige Konzepte und Begriffe, die Ihnen den Einstieg erleichtern:

  • Sitemap-Protokoll: Alle Sitemaps und Sitemap-Indexe, die von Agent Search unterstützt werden, müssen dem Sitemap-Protokoll entsprechen.

  • Sitemap: Eine Sitemap ist eine UTF-8-codierte XML-Datei, die eine Liste mit URLs der Webseiten und Dateien auf Ihrer Website enthält. Außerdem kann sie weitere wichtige, aber optionale Informationen enthalten, z. B. das Datum der letzten Änderung der Webseite und die Priorität der Webseite für einen Crawler im Vergleich zu anderen Webseiten auf Ihrer Website. Gemäß dem Sitemap -Protokoll kann eine einzelne Sitemap maximal 50.000 URLs enthalten und maximal 50 MB groß sein.

  • Sitemap-Index: Wenn Ihre Sitemap die maximale Anzahl von URLs oder die maximale Größe überschreitet, können Sie mehrere Sitemaps erstellen und diese in einer Sitemap-Indexdatei auflisten. Gemäß dem Sitemap-Protokoll kann ein einzelner Sitemap-Index maximal 50.000 Sitemaps enthalten und maximal 50 MB groß sein.

Sie können eine oder mehrere Sitemaps, einen oder mehrere Sitemap-Indexe oder eine Kombination aus Sitemaps und Sitemap-Indexen bei Agent Search einreichen.

Wenn Sie Ihre Sitemap oder Ihren Sitemap-Index im Datenspeicher von Agent Search einreichen, werden die folgenden Aktionen ausgelöst:

  • Indexierung der enthaltenen URLs im Index Ihres Datenspeichers.

    • Bei einer Aktualisierung nur der Sitemap enthält diese Liste nur die URLs in der Sitemap oder im Sitemap-Index, die dem URL-Muster in Ihrem Datenspeicher entsprechen.
    • Bei einer kombinierten Aktualisierung enthält diese Liste alle URLs, die beim automatischen Aktualisierungsprozess gefunden werden.

    Weitere Informationen zu diesen beiden Aktualisierungsprozessen finden Sie unter Aktualisierungsmethoden für Websitedatenspeicher und Aktualisierung nur der Sitemap.

  • Tägliche Aktualisierung aller hinzugefügten, gelöschten und aktualisierten URLs in der Sitemap. Ein Beispiel für eine aktualisierte URL ist, wenn Sie das Feld lastmod einer URL in der Sitemap aktualisieren.

  • Regelmäßige Aktualisierung unveränderter URLs alle 14 Tage.

Aktualisierungsmethoden für Websitedatenspeicher

Sie haben folgende Möglichkeiten, die Sitemap-basierte Aktualisierung in Ihren Datenspeicher zu integrieren:

  • Aktualisierung nur der Sitemap: Verwenden Sie ausschließlich die Sitemap-basierte Aktualisierung, indem Sie die erste Indexierung und die automatische Aktualisierung deaktivieren.
  • Kombinierte Aktualisierung: Verwenden Sie die Sitemap-basierte Aktualisierung zusammen mit der ersten Indexierung und automatischer Aktualisierung.

Sie können bestimmte Webseiten im Index Ihres Datenspeichers jederzeitmanuell aktualisieren, unabhängig von der von Ihnen gewählten Aktualisierungsmethode.

Aktualisierung nur der Sitemap

Wenn Sie einen Websitedatenspeicher erstellen, müssen Sie URL-Muster für die Webseiten angeben, die in den Index Ihres Datenspeichers aufgenommen werden sollen. Standardmäßig generiert Agent Search nach dem Erstellen eines Websitedatenspeichers einen ersten Index für diese Webseiten.

Bei Websitedatenspeichern mit erweiterter Websiteindexierung ist die erste Indexierung Teil der automatischen Aktualisierung. Beim ersten Indexierungsprozess werden alle enthaltenen URLs indexiert, die in der Google Suche verfügbar sind. Die erste Aktualität dieser URLs entspricht der Aktualität in der Google Suche. Nach der ersten Indexierung werden beim automatischen Aktualisierungsprozess neue Seiten gefunden und nach Möglichkeit aktualisiert. Dies kann zu relativ veralteten Seiten und einem umfangreicheren Index führen, da bei diesem Prozess URLs gefunden werden, die möglicherweise nicht erforderlich sind.

Stattdessen können Sie die Aktualisierung nur der Sitemap durchführen. Dies ist in den folgenden Fällen nützlich:

  • Sie haben eine gut gepflegte Sitemap, die auf dem neuesten Stand ist.
  • Sie haben eine große Website und müssen genauer steuern, welche Webseiten indexiert werden. Dies führt zu einem schlankeren, übersichtlicheren Index.
  • Sie müssen Ihre hinzugefügten und aktualisierten Seiten täglich aktualisieren und gelöschte Seiten entfernen. Dies führt zu einem aktuelleren Index, der die Sitemap widerspiegelt.

In der folgenden Tabelle werden die verschiedenen Methoden zum Aktualisieren des Datenspeicherindex verglichen:

Aktualisierungsmethode Genauigkeit Manuelle Eingriffe Häufigkeit Erkennung
Sitemap-basierte Aktualisierung Exakt. Es werden nur die URLs in den Sitemaps indexiert. Nach dem Einreichen der Sitemap oder des Sitemap-Index nicht erforderlich Täglich für hinzugefügte, gelöschte und aktualisierte URLs in der Sitemap. 14 Tage für unveränderte URLs Nicht über die in der Sitemap angegebenen hinaus.
Manuelle Aktualisierung (auch als Neu crawlen bezeichnet) Exakt. Es werden nur die URLs indexiert, die in der Anfrage zum Neu crawlen angegeben sind. Erforderlich On demand Nein.
Automatische Aktualisierung Nicht exakt. Der Datenspeicher wird nach Möglichkeit aktualisiert. Nicht erforderlich Zufällig und nach Möglichkeit Ja. Es werden URLs gefunden, die nicht in der Google Suche verfügbar sind.

Hinweis

Bevor Sie eine Sitemap oder einen Sitemap-Index im Datenspeicher von Agent Search einreichen, müssen Sie Folgendes tun:

  • Erstellen Sie gemäß dem Sitemap-Protokoll eine XML-Sitemap oder einen Sitemap-Index, der auf alle Sitemaps für Ihre Website verweist.

  • Sie müssen eine Sitemap oder einen Sitemap-Index nicht bei der Google Suche einreichen, um sie im Datenspeicher von Agent Search einzureichen.

  • Alle URLs in Ihrer Sitemap, die indexiert werden sollen, müssen zu öffentlichen Domains gehören, die in Ihrem Datenspeicher bestätigt wurden. Weitere Informationen finden Sie unter Website-Domains bestätigen.

  • Der Sitemap-URI oder der Sitemap-Index-URI mit den verschachtelten Sitemap-URIs muss öffentlich verfügbar sein.

  • Wenn Sie die Datei robots.txt auf Ihrer Website verwenden, aktualisieren Sie sie. Weitere Informationen finden Sie unter Datei Ihrer Website vorbereiten.robots.txt

Sitemap oder Sitemap-Index in einem Datenspeicher einreichen

So lösen Sie die Indexierung und Aktualisierung der enthaltenen Webseiten in Ihrem Datenspeicher aus:

  1. Entscheiden Sie, ob Sie eine Aktualisierung nur der Sitemap oder eine kombinierte Aktualisierung mit anderen Methoden durchführen möchten.

  2. Wenn Sie eine Aktualisierung nur der Sitemap durchführen möchten, folgen Sie diesem Schritt. Andernfalls fahren Sie mit dem nächsten Schritt fort.

    Sie können keinen vorhandenen Datenspeicher mit erster Indexierung und Aktualisierung verwenden. Sie müssen einen neuen Datenspeicher erstellen, indem Sie die erste Indexierung und die automatische Aktualisierung mit der AdvancedSiteSearchConfig Konfiguration deaktivieren.

    REST

    Erstellen Sie einen Datenspeicher, in dem nur die Sitemap-Aktualisierung aktiviert ist. Dazu müssen Sie die erste Indexierung und die automatische Aktualisierung deaktivieren.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Hinweis: Wenn Sie disableAutomaticRefresh auf true setzen, wird nur die discoverybasierte automatische Aktualisierung deaktiviert. Die tägliche automatische Aktualisierung, die auf der Grundlage der bereitgestellten Sitemap erfolgt (Prüfung auf Änderungen wie das Feld lastmod), ist davon nicht betroffen.

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die ID Ihres Google Cloud Projekts in.
    • DATA_STORE_ID: die ID des Datenspeichers von Agent Search, den Sie erstellen möchten. Diese ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.
    • DATA_STORE_DISPLAY_NAME: der Anzeigename des Datenspeichers von Agent Search, den Sie erstellen möchten.

  3. Aktualisieren Sie die URL-Muster der Websites, die in Ihren Datenspeicher aufgenommen oder ausgeschlossen werden sollen. Weitere Informationen finden Sie unter Datenspeicher mit Website inhalten erstellen.

  4. Bestätigen Sie die Domains der Webseiten, die in Ihrem Datenspeicher enthalten sind.

  5. Unabhängig davon, ob Sie die Aktualisierung nur der Sitemap oder eine Kombination Aktualisierung wählen, reichen Sie mit der sitemaps.create Methode einen Sitemap- oder Sitemap-Index-URI in einem Datenspeicher ein.

    REST

    Reichen Sie eine Sitemap oder einen Sitemap-Index ein.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die ID Ihres Google Cloud Projekts in.
    • DATA_STORE_ID: die ID des Datenspeichers von Agent Search.
    • SITEMAP_URI: der öffentliche URI für die einzelne Sitemap oder den Sitemap-Index, die Sie einreichen möchten. Wenn Sie einen Sitemap-Index einreichen, reicht es aus, den URI des Sitemap-Index einzureichen. Agent Search indexiert automatisch die enthaltenen URLs in all den Sitemaps, die im Sitemap-Index verschachtelt sind.

    Nachdem Sie die Sitemap oder den Sitemap-Index im Datenspeicher eingereicht haben, löst Agent Search Folgendes aus:

    • Indexierung der infrage kommenden URLs in der Sitemap, d. h. der URLs, die in Ihrem Datenspeicher enthalten sind. Dieser Vorgang dauert durchschnittlich einige Stunden. Bei größeren Sitemaps kann die Indexierung länger dauern.
    • Tägliche Aktualisierung der Webseiten mit infrage kommenden URLs.

    Informationen dazu, wie sich Änderungen an der Sitemap oder am Sitemap-Index auf die Aktualisierung auswirken, siehe Änderungen an Sitemap und Sitemap-Index.

  6. Sitemaps in Ihrem Datenspeicher ansehen.

Änderungen an Sitemap und Sitemap-Index

Nach dem ersten Einreichen erkennt Agent Search täglich Änderungen an Ihrer Sitemap oder Ihrem Sitemap-Index und verarbeitet diese Änderungen so:

  • Änderungen an einer Sitemap:
    • Wenn Sie URLs hinzufügen: URLs, die dem Muster für enthaltene URLs für den Datenspeicher entsprechen, werden dem Index hinzugefügt und täglich aktualisiert.
    • Wenn Sie URLs entfernen: Wenn sich die entfernten URLs im Index befinden, werden sie daraus entfernt und nicht mehr aktualisiert.
    • Wenn Sie die vorhandenen URLs aktualisieren, z. B. wenn Sie das Feld lastmod für eine URL in der Sitemap aktualisieren: Alle aktualisierten URLs, die dem Muster für enthaltene URLs für den Datenspeicher entsprechen, werden aktualisiert. Die Aktualisierung erfolgt in der Regel innerhalb von 24 Stunden nach der Aktualisierung.
  • Änderungen an einem Sitemap-Index:
    • Wenn Sie eine Sitemap hinzufügen: URLs in der neuen Sitemap, die dem Muster für enthaltene URLs für den Datenspeicher entsprechen, werden dem Index hinzugefügt und täglich aktualisiert.
    • Wenn Sie eine Sitemap entfernen: Die URLs, die dem Muster für enthaltene URLs für den Datenspeicher entsprechen, werden nicht mehr aktualisiert. Sie bleiben jedoch im Index. Informationen zum Entfernen der Sitemap und ihrer URLs aus dem Index finden Sie unter Sitemap und URLs aus dem Index entfernen.

Sitemaps und Sitemap-Indexe in einem Datenspeicher auflisten

Verwenden Sie die sitemaps.fetch Methode, um alle Sitemaps und Sitemap-Indexe in einem Datenspeicher aufzulisten. Wenn Sie einen Sitemap-Index eingereicht haben, gibt diese Methode den Sitemap-Index und nicht die einzelnen, verschachtelten Sitemaps zurück. Wenn der Datenspeicher keine Sitemaps enthält, gibt diese Anfrage eine leere JSON-Datei zurück.

REST

Sitemaps und Sitemap-Indexe in einem Datenspeicher auflisten.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Ersetzen Sie Folgendes:

  • PROJECT_ID: die ID Ihres Google Cloud Projekts in.
  • DATA_STORE_ID: die ID des Datenspeichers von Agent Search.

Prüfen, ob eine Sitemap oder ein Sitemap-Index in einem Datenspeicher vorhanden ist

Verwenden Sie die Methode sitemaps.fetch, um zu prüfen, ob eine Sitemap oder ein Sitemap-Index in einem Datenspeicher vorhanden ist. Wenn die Sitemap oder der Sitemap-Index, die bzw. den Sie prüfen, im Datenspeicher eingereicht wurde, enthält die Antwort den Sitemap-Namen und den URI der Sitemap. Wenn Sie einen Sitemap-Index eingereicht haben, werden beim Prüfen auf einzelne Sitemaps im Sitemap-Index nicht die richtigen Ergebnisse zurückgegeben.

REST

Nach einer Sitemap oder einem Sitemap-Index in einem Datenspeicher suchen.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Ersetzen Sie Folgendes:

  • PROJECT_ID: die ID Ihres Google Cloud Projekts in.
  • DATA_STORE_ID: die ID des Datenspeichers von Agent Search.
  • SITEMAP_URI_N: der öffentliche URI der Sitemap oder des Sitemap-Index, die bzw. den Sie im Datenspeicher prüfen möchten.

Sitemap oder Sitemap-Index aus dem Datenspeicher löschen

Verwenden Sie die sitemap.delete Methode, um eine Sitemap aus dem Datenspeicher zu löschen. Wenn Sie eine Sitemap löschen, werden ihre URLs nicht aus dem Index entfernt. Informationen zum Entfernen der Sitemap und ihrer URLs aus dem Index finden Sie unter Sitemap und URLs aus dem Index entfernen.

REST

Sitemap oder Sitemap-Index löschen.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Ersetzen Sie Folgendes:

Sitemap oder Sitemap-Index und zugehörige URLs aus dem Datenspeicherindex entfernen

So entfernen Sie eine Sitemap oder einen Sitemap-Index und die zugehörigen URLs aus dem Index:

  1. Leeren Sie die Sitemap oder den Sitemap-Index, die bzw. der im Datenspeicher eingereicht wurde, indem Sie alle URLs entfernen.

    Wenn Sie einen Sitemap-Index im Datenspeicher eingereicht haben, leeren Sie die verschachtelten Sitemaps, indem Sie alle URLs entfernen, und entfernen Sie die Sitemaps aus dem Sitemap-Index.

  2. Warten Sie 48 Stunden, bis Agent Search diese Änderungen verarbeitet und die URLs aus dem Index des Datenspeichers entfernt hat.

  3. Löschen Sie die Sitemap oder den Sitemap-Index.