Indicizzare e aggiornare le pagine web utilizzando le Sitemap

Se l'indicizzazione avanzata dei siti web è attivata nel datastore, puoi inviare e utilizzare le Sitemap per indicizzare e aggiornare le pagine web nel datastore. Questa funzionalità supporta solo le Sitemap XML e gli indici Sitemap.

Questa pagina descrive come inviare una Sitemap o un indice Sitemap per attivare l'indicizzazione e l'aggiornamento basati sulla Sitemap. Per comprendere e implementare l'aggiornamento automatico e manuale senza una Sitemap, consulta Aggiornare le pagine web.

Inoltre, questa pagina descrive come visualizzare le Sitemap nel datastore o eliminare una Sitemap.

Concetti di aggiornamento basato sulla Sitemap

Ecco alcuni concetti e termini chiave per iniziare:

  • Protocollo Sitemap: tutte le Sitemap e tutti gli indici Sitemap supportati da Ricerca agente devono seguire il protocollo Sitemap.

  • Sitemap: una Sitemap è un file XML codificato in UTF-8 che contiene un elenco di URL delle pagine web e dei file nel tuo sito web, oltre ad altre informazioni importanti, ma facoltative, come la data dell'ultima modifica della pagina web e la priorità della pagina web per un crawler rispetto ad altre pagine nel tuo sito web. In base al protocollo Sitemap, una singola Sitemap può contenere un massimo di 50.000 URL e può avere una dimensione massima di 50 MB.

  • Indice Sitemap: se la Sitemap supera il numero massimo di URL o la dimensione massima, puoi creare più Sitemap ed elencarle in un file indice Sitemap. In base al protocollo Sitemap, un singolo indice Sitemap può nidificare un massimo di 50.000 Sitemap e può avere una dimensione massima di 50 MB.

Puoi inviare a Ricerca agente una o più Sitemap, uno o più indici Sitemap o una combinazione di Sitemap e indici Sitemap.

Quando invii la Sitemap o l'indice Sitemap al datastore di Ricerca agente, attivi le seguenti azioni:

  • Indicizzazione degli URL inclusi nell'indice del datastore.

    • Per un aggiornamento solo della Sitemap, questo elenco contiene solo gli URL nella Sitemap o nell'indice Sitemap che corrispondono al pattern URL incluso nel datastore.
    • Per un aggiornamento combinato, questo elenco contiene tutti gli URL rilevati dalla procedura di aggiornamento automatico.

    Per ulteriori informazioni su queste due procedure di aggiornamento, consulta Metodi di aggiornamento del datastore del sito web e Aggiornamento solo della Sitemap.

  • Aggiornamento quotidiano di tutti gli URL aggiunti, eliminati e aggiornati nella Sitemap. Un esempio di URL aggiornato è quando aggiorni il campo lastmod di un URL nella Sitemap.

  • Aggiornamento periodico degli URL invariati ogni 14 giorni.

Metodi di aggiornamento del datastore del sito web

Puoi scegliere uno dei seguenti modi per incorporare l'aggiornamento basato sulla Sitemap nel datastore:

  • Aggiornamento solo della Sitemap: utilizza l'aggiornamento basato sulla Sitemap in modo esclusivo disattivando l'indicizzazione iniziale e l'aggiornamento automatico.
  • Aggiornamento combinato: utilizza l'aggiornamento basato sulla Sitemap con l'indicizzazione iniziale e l'aggiornamento automatico.

Puoi aggiornare manualmente pagine web specifiche nell'indice del datastore in qualsiasi momento, indipendentemente dal metodo di aggiornamento scelto.

Aggiornamento solo della Sitemap

Quando crei un datastore del sito web, devi fornire pattern URL per le pagine web che vuoi includere nell'indice del datastore. Per impostazione predefinita, al termine della creazione di un datastore del sito web, Ricerca agente genera un indice iniziale per queste pagine web incluse.

Per i datastore del sito web con indicizzazione avanzata dei siti web, la procedura di indicizzazione iniziale fa parte dell'aggiornamento automatico. La procedura di indicizzazione iniziale indicizza tutti gli URL inclusi disponibili nella Ricerca Google. L'aggiornamento iniziale di questi URL rispecchia l'aggiornamento disponibile nella Ricerca Google. Dopo l'indicizzazione iniziale, la procedura di aggiornamento automatico rileva le nuove pagine e le aggiorna al meglio delle possibilità. Questo può comportare pagine relativamente obsolete e un indice più voluminoso perché questa procedura rileva URL che potrebbero andare oltre quelli richiesti.

In alternativa, puoi scegliere di eseguire l'aggiornamento solo della Sitemap, utile nei seguenti scenari:

  • Hai una Sitemap ben gestita e aggiornata.
  • Hai un sito web di grandi dimensioni e hai bisogno di un controllo più rigoroso sulle pagine web indicizzate. In questo modo si ottiene un indice più snello e gestibile.
  • Devi aggiornare quotidianamente le pagine aggiunte e aggiornate e rimuovere le pagine eliminate. In questo modo si ottiene un indice più aggiornato che riflette la Sitemap.

La seguente tabella confronta i diversi metodi che aggiornano l'indice del datastore:

Metodo di aggiornamento Precisione Intervento manuale Frequenza Discovery
Aggiornamento basato sulla Sitemap Esatta. Indicizza solo gli URL nelle Sitemap. Non è necessario dopo l'invio della Sitemap o dell'indice Sitemap Quotidiano per gli URL aggiunti, eliminati e aggiornati nella Sitemap. 14 giorni per gli URL invariati Non oltre quelli specificati nella Sitemap.
Aggiornamento manuale (noto anche come nuova scansione) Esatta. Indicizza solo gli URL specificati nella richiesta di nuova scansione. Obbligatorio On demand No.
Aggiornamento automatico Non esatta. Il datastore viene aggiornato al meglio delle possibilità. Non obbligatorio Casuale e al meglio delle possibilità Sì. Rileva URL oltre a quelli disponibili nella Ricerca Google.

Prima di iniziare

Prima di inviare una Sitemap o un indice Sitemap al datastore di Ricerca agente:

Inviare una Sitemap o un indice Sitemap a un datastore

Per attivare l'indicizzazione e l'aggiornamento delle pagine web incluse nel datastore:

  1. Decidi se vuoi eseguire un aggiornamento solo della Sitemap o un aggiornamento combinato con altri metodi.

  2. Per eseguire un aggiornamento solo della Sitemap, segui questo passaggio, altrimenti vai al passaggio successivo.

    Non puoi utilizzare un datastore esistente con indicizzazione e aggiornamento iniziali. Devi creare un nuovo datastore disattivando l'indicizzazione iniziale e l'aggiornamento automatico utilizzando la AdvancedSiteSearchConfig configurazione.

    REST

    Crea un datastore in cui è attivato solo l'aggiornamento della Sitemap. A questo scopo, disattiva l'indice iniziale e l'aggiornamento automatico.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Nota: l'impostazione di disableAutomaticRefresh su true disattiva solo l'aggiornamento automatico basato sulla discovery. Non influisce sull'aggiornamento automatico quotidiano che si verifica in base alla Sitemap fornita (controllo delle modifiche come il campo lastmod).

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID del tuo Google Cloud progetto.
    • DATA_STORE_ID: l'ID del datastore di Ricerca agente che vuoi creare. Questo ID può contenere solo lettere minuscole, cifre, trattini bassi e trattini.
    • DATA_STORE_DISPLAY_NAME: il nome visualizzato del datastore di Ricerca agente che vuoi creare.

  3. Aggiorna i pattern URL dei siti da includere ed escludere nel datastore. Per ulteriori informazioni, Creare un datastore utilizzando i contenuti del sito web.

  4. Verifica i domini delle pagine web incluse nel tuo datastore.

  5. Indipendentemente dal fatto che tu scelga l'aggiornamento solo della Sitemap o un aggiornamento combinato refresh, invia un URI della Sitemap o dell'indice Sitemap a un datastore utilizzando il sitemaps.create metodo.

    REST

    Invia una Sitemap o un indice Sitemap.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID del tuo Google Cloud progetto.
    • DATA_STORE_ID: l'ID del datastore di Ricerca agente.
    • SITEMAP_URI: l'URI pubblico della singola Sitemap o dell'indice Sitemap che vuoi inviare. Quando invii un indice Sitemap, è sufficiente inviare l'URI dell'indice Sitemap. Ricerca agente indicizza automaticamente gli URL inclusi in tutte le Sitemap nidificate all'interno dell'indice Sitemap.

    Dopo aver inviato la Sitemap o l'indice Sitemap al datastore, Ricerca agente attiva quanto segue:

    • Indicizzazione degli URL idonei nella Sitemap, ovvero quelli inclusi nel datastore. In media, il completamento di questa procedura richiede alcune ore. L'indicizzazione delle Sitemap più grandi può richiedere più tempo.
    • Aggiornamento quotidiano delle pagine web con URL idonei.

    Per scoprire in che modo le modifiche alla Sitemap o all'indice Sitemap influiscono sull'aggiornamento, consulta Modifiche alla Sitemap e all'indice Sitemap.

  6. Visualizza le Sitemap nel datastore.

Modifiche alla Sitemap e all'indice Sitemap

Dopo l'invio iniziale, Ricerca agente rileva quotidianamente le modifiche alla Sitemap o all'indice Sitemap e le gestisce nel seguente modo:

  • Modifiche a una Sitemap:
    • Quando aggiungi URL: gli URL che corrispondono al pattern degli URL inclusi per il datastore vengono aggiunti all'indice e aggiornati quotidianamente.
    • Quando rimuovi gli URL: se gli URL rimossi sono nell'indice, vengono rimossi dall'indice e non vengono più aggiornati.
    • Quando aggiorni gli URL esistenti, ad esempio quando aggiorni il campo lastmod per un URL nella Sitemap: tutti gli URL aggiornati che corrispondono al pattern degli URL inclusi per il datastore vengono aggiornati. L'aggiornamento in genere avviene entro 24 ore dall'aggiornamento.
  • Modifiche a un indice Sitemap:
    • Quando aggiungi una Sitemap: gli URL nella nuova Sitemap che corrispondono al pattern degli URL inclusi per il datastore vengono aggiunti all'indice e aggiornati quotidianamente.
    • Quando rimuovi una Sitemap: gli URL che corrispondono al pattern degli URL inclusi per il datastore non vengono più aggiornati. Tuttavia, rimangono nell'indice. Per rimuovere la Sitemap e i relativi URL dall'indice, consulta Rimuovere una Sitemap e i relativi URL dall'indice.

Elencare le Sitemap e gli indici Sitemap in un datastore

Per elencare tutte le Sitemap e tutti gli indici Sitemap in un datastore, utilizza il sitemaps.fetch metodo. Se hai inviato un indice Sitemap, questo metodo restituisce l'indice Sitemap e non le singole Sitemap nidificate. Se non sono presenti Sitemap nel datastore, questa richiesta restituisce un file JSON vuoto.

REST

Elenca le Sitemap e gli indici Sitemap in un datastore.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del tuo Google Cloud progetto.
  • DATA_STORE_ID: l'ID del datastore di Ricerca agente.

Verificare se una Sitemap o un indice Sitemap è presente in un datastore

Per verificare se una Sitemap o un indice Sitemap è presente in un datastore, utilizza il metodo sitemaps.fetch. Se la Sitemap o l'indice Sitemap per cui stai eseguendo il controllo è stato inviato al datastore, la risposta contiene il nome della Sitemap e l'URI della Sitemap. Se hai inviato un indice Sitemap, il controllo delle singole Sitemap all'interno dell'indice Sitemap non restituirà i risultati corretti.

REST

Controlla la presenza di una Sitemap o di un indice Sitemap in un datastore.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del tuo Google Cloud progetto.
  • DATA_STORE_ID: l'ID del datastore di Ricerca agente.
  • SITEMAP_URI_N: l'URI pubblico della Sitemap o dell'indice Sitemap per cui vuoi eseguire il controllo nel datastore.

Eliminare una Sitemap o un indice Sitemap dal datastore

Per eliminare una Sitemap dal datastore, utilizza il sitemap.delete metodo. L'eliminazione di una Sitemap non rimuove i relativi URL dall'indice. Per rimuovere la Sitemap e i relativi URL dall'indice, consulta Rimuovere una Sitemap e i relativi URL dall'indice.

REST

Elimina una Sitemap o un indice Sitemap.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Sostituisci quanto segue:

Rimuovere una Sitemap o un indice Sitemap e i relativi URL dall'indice del datastore

Per rimuovere una Sitemap o un indice Sitemap e i relativi URL dall'indice:

  1. Svuota la Sitemap o l'indice Sitemap inviato al datastore rimuovendo tutti gli URL.

    Se hai inviato un indice Sitemap al datastore, svuota le Sitemap nidificate rimuovendo tutti gli URL e rimuovi la Sitemap dall'indice Sitemap.

  2. Attendi 48 ore affinché Ricerca agente elabori queste modifiche e rimuova gli URL dall'indice del datastore.

  3. Elimina la Sitemap o l'indice Sitemap.