Indexa y actualiza páginas web con mapas del sitio

Si la indexación de sitios web avanzada está habilitada en tu almacén de datos, puedes enviar y usar mapas del sitio para indexar y actualizar las páginas web de tu almacén de datos. Esta función solo admite mapas del sitio y archivos de índice de mapas del sitio en formato XML.

En esta página, se describe cómo enviar un mapa del sitio o un archivo de índice de mapa del sitio para activar la indexación y la actualización basadas en mapas del sitio. Para comprender y realizar la actualización automática y manual sin un mapa del sitio, consulta Actualiza páginas web.

Además, en esta página, se describe cómo ver los mapas del sitio en tu almacén de datos o borrar un mapa del sitio.

Conceptos de actualización basada en mapas del sitio

Estos son algunos conceptos y términos clave que te ayudarán a comenzar:

  • Protocolo de mapas del sitio: Todos los mapas del sitio y los archivos de índice de mapas del sitio que admite Agent Search deben seguir el protocolo de mapas del sitio.

  • Mapa del sitio: Un mapa del sitio es un archivo en formato XML codificado en UTF-8 que contiene una lista de URLs de las páginas y los archivos de tu sitio web, junto con otra información importante pero opcional, como la fecha de la última modificación de la página web y la prioridad de la página web para los rastreadores en comparación con otras páginas del sitio. Según el protocolo de mapas del sitio, un solo mapa del sitio puede contener un máximo de 50,000 URLs y puede tener un tamaño máximo de 50 MB.

  • Índice de mapa del sitio: Cuando tu mapa del sitio supera la cantidad máxima de URLs o el tamaño máximo, puedes crear varios mapas del sitio y enumerarlos en un archivo de índice de mapas del sitio. Según el protocolo de mapas del sitio, un solo índice de mapa del sitio puede anidar un máximo de 50,000 mapas del sitio y puede tener un tamaño máximo de 50 MB.

Puedes enviar uno o más mapas del sitio, uno o más archivos de índice de mapas del sitio, o una combinación de mapas del sitio y archivos de índice de mapas del sitio a Agent Search.

Cuando envías tu mapa del sitio o archivo de índice de mapa del sitio al almacén de datos de Agent Search, se activan las siguientes acciones:

  • Indexación de las URLs incluidas en el índice de tu almacén de datos

    • Para una actualización solo del mapa del sitio, esta lista contiene solo las URLs del mapa del sitio o del archivo de índice de mapa del sitio que se ajustan al patrón de URL incluido en tu almacén de datos.
    • Para una actualización combinada, esta lista contiene todas las URLs que descubre el proceso de actualización automática.

    Para obtener más información sobre estos dos procesos de actualización, consulta Métodos de actualización del almacén de datos del sitio web y Actualización solo del mapa del sitio.

  • Actualización diaria de las URLs agregadas, borradas y actualizadas al mapa del sitio (por ejemplo, cuando actualizas el campo lastmod de una URL en el mapa del sitio)

  • Actualización periódica de las URLs sin cambios cada 14 días

Métodos de actualización del almacén de datos del sitio web

Puedes elegir una de las siguientes formas para incorporar la actualización basada en mapas del sitio en tu almacén de datos:

  • Actualización solo del mapa del sitio: Usa la actualización basada en mapas del sitio exclusivamente desactivando la indexación inicial y la actualización automática.
  • Actualización combinada: Usa la actualización basada en mapas del sitio con la indexación inicial y la actualización automática.

Puedes actualizar manualmente páginas web específicas en el índice de tu almacén de datos en cualquier momento, independientemente del método de actualización que elijas.

Actualización solo del mapa del sitio

Cuando creas un almacén de datos del sitio web, debes proporcionar patrones de URL para las páginas web que deseas incluir en el índice de tu almacén de datos. De forma predeterminada, cuando terminas de crear un almacén de datos del sitio web, Agent Search genera un índice inicial para estas páginas web incluidas.

Para los almacenes de datos del sitio web con indexación de sitios web avanzada, el proceso de indexación inicial forma parte de la actualización automática. El proceso de indexación inicial indexa todas las URLs incluidas que están disponibles en la Búsqueda de Google. La actualización inicial de estas URLs refleja la actualización disponible en la Búsqueda de Google. Después de la indexación inicial, el proceso de actualización automática descubre páginas nuevas y las actualiza según el criterio del mejor esfuerzo. Esto puede generar páginas relativamente obsoletas y un índice más voluminoso, ya que este proceso descubre URLs que podrían estar más allá de lo que se requiere.

En cambio, puedes optar por realizar una actualización solo del mapa del sitio, que es útil en las siguientes situaciones:

  • Tienes un mapa del sitio bien mantenido y actualizado.
  • Tienes un sitio web grande y necesitas un control más estricto sobre qué páginas web se indexan. Esto da como resultado un índice más simple y fácil de administrar.
  • Debes actualizar diariamente las páginas agregadas y actualizadas, y quitar las páginas borradas. Esto da como resultado un índice más actualizado que refleja el mapa del sitio.

En la siguiente tabla, se comparan los diferentes métodos que actualizan el índice del almacén de datos:

Método de actualización Precisión Intervención manual Frecuencia Discovery
Actualización basada en mapas del sitio Exacta. Indexa solo las URLs de los mapas del sitio. No es obligatoria después de enviar el mapa del sitio o el archivo de índice de mapa del sitio. Diaria para las URLs agregadas, borradas y actualizadas en el mapa del sitio 14 días para las URLs sin cambios No más allá de las especificadas en el mapa del sitio
Actualización manual (también conocida como nuevo rastreo) Exacta. Indexa solo las URLs especificadas en la solicitud de nuevo rastreo. Obligatoria Según demanda No.
Actualización automática No es exacta. El almacén de datos se actualiza según el criterio del mejor esfuerzo. No es obligatoria Aleatoria y según el criterio del mejor esfuerzo Sí. Descubre URLs más allá de lo que está disponible en la Búsqueda de Google.

Antes de comenzar

Antes de enviar un mapa del sitio o un archivo de índice de mapa del sitio al almacén de datos de Agent Search, haz lo siguiente:

  • Crea un mapa del sitio en formato XML o un archivo de índice de mapa del sitio que haga referencia a todos los mapas del sitio de tu sitio web según el protocolo de mapas del sitio.

  • Ten en cuenta que, para enviar un mapa del sitio o un archivo de índice de mapa del sitio al almacén de datos de Agent Search, no es necesario enviarlos a la Búsqueda de Google.

  • Todas las URLs de tu mapa del sitio que deseas indexar deben pertenecer a dominios públicos verificados en tu almacén de datos. Para obtener más información, consulta Verifica dominios de sitios web.

  • El URI del mapa del sitio o el URI del archivo de índice de mapa del sitio con los URIs anidados del mapa del sitio deben estar disponibles públicamente.

  • Si usas el archivo robots.txt en tu sitio web, actualízalo. Para obtener más información, consulta cómo preparar el archivo de tu sitio webrobots.txt.

Envía un mapa del sitio o un archivo de índice de mapa del sitio a un almacén de datos

Para activar la indexación y la actualización de las páginas web incluidas en tu almacén de datos, sigue estos pasos:

  1. Decide si deseas realizar una actualización solo del mapa del sitio o una actualización combinada con otros métodos.

  2. Para realizar una actualización solo del mapa del sitio, sigue este paso. De lo contrario, salta al siguiente paso.

    No puedes usar un almacén de datos existente que tenga indexación y actualización iniciales. Debes crear un almacén de datos nuevo desactivando la indexación inicial y la actualización automática con la AdvancedSiteSearchConfig configuración.

    REST

    Crea un almacén de datos en el que solo esté habilitada la actualización del mapa del sitio. Para ello, desactiva el índice inicial y la actualización automática.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Nota: Si configuras disableAutomaticRefresh como true, solo se desactiva la actualización automática basada en Discovery. No afecta la actualización automática diaria que se produce en función del mapa del sitio proporcionado (verificación de cambios como el campo lastmod).

    Reemplaza lo siguiente:

    • PROJECT_ID: el ID de tu Google Cloud proyecto
    • DATA_STORE_ID: el ID del almacén de datos de Agent Search que deseas crear (este ID solo puede contener letras minúsculas, dígitos, guiones bajos y guiones)
    • DATA_STORE_DISPLAY_NAME: el nombre visible del almacén de datos de Agent Search que deseas crear

  3. Actualiza los patrones de URL de los sitios para incluir y excluir en tu almacén de datos. Para obtener más información, Crea un almacén de datos con contenido del sitio web content.

  4. Verifica los dominios de las páginas web incluidas en tu almacén de datos.

  5. Ya sea que elijas la actualización solo del mapa del sitio o una combinación actualización, envía un mapa del sitio o un URI de archivo de índice de mapa del sitio a un almacén de datos con el sitemaps.create método.

    REST

    Envía un mapa del sitio o un archivo de índice de mapa del sitio.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    Reemplaza lo siguiente:

    • PROJECT_ID: el ID de tu Google Cloud proyecto
    • DATA_STORE_ID: el ID del almacén de datos de Agent Search
    • SITEMAP_URI: el URI público del mapa del sitio individual o del archivo de índice de mapa del sitio que deseas enviar (cuando envías un archivo de índice de mapa del sitio, es suficiente con enviar el URI del archivo de índice de mapa del sitio) Agent Search indexa automáticamente las URLs incluidas en todos los mapas del sitio anidados dentro del archivo de índice de mapa del sitio.

    Después de enviar el mapa del sitio o el archivo de índice de mapa del sitio al almacén de datos, Agent Search activa lo siguiente:

    • Una indexación de las URLs aptas en el mapa del sitio (las que se incluyen en tu almacén de datos) (este proceso tarda en completarse un promedio de pocas horas) (los mapas del sitio más grandes pueden tardar más en indexarse)
    • Una actualización diaria de las páginas web con URLs aptas

    Para saber cómo las modificaciones en el mapa del sitio o el archivo de índice de mapa del sitio afectan la actualización, consulta Cambios en el mapa del sitio y el archivo de índice de mapa del sitio.

  6. Consulta los mapas del sitio en tu almacén de datos.

Cambios en el mapa del sitio y el archivo de índice de mapa del sitio

Después del envío inicial, Agent Search detecta modificaciones en tu mapa del sitio o archivo de índice de mapa del sitio a diario y las controla de la siguiente manera:

  • Cambios en un mapa del sitio:
    • Cuando agregas URLs: Las URLs que coinciden con el patrón de URLs incluidas para el almacén de datos se agregan al índice y se actualizan diariamente.
    • Cuando quitas URLs: Si las URLs quitadas están en el índice, se quitan del índice y ya no se actualizan.
    • Cuando actualizas las URLs existentes (por ejemplo, cuando actualizas el campo lastmod de una URL en el mapa del sitio): Se actualizan todas las URLs actualizadas que coinciden con el patrón de URLs incluidas para el almacén de datos. La actualización suele ocurrir en un plazo de 24 horas después de la actualización.
  • Cambios en un archivo de índice de mapa del sitio:
    • Cuando agregas un mapa del sitio: Las URLs del mapa del sitio nuevo que coinciden con el patrón de URLs incluidas para el almacén de datos se agregan al índice y se actualizan diariamente.
    • Cuando quitas un mapa del sitio: Las URLs que coinciden con el patrón de URLs incluidas para el almacén de datos ya no se actualizan. Sin embargo, permanecen en el índice. Para quitar el mapa del sitio y sus URLs del índice, consulta Quita un mapa del sitio y sus URLs del índice.

Enumera los mapas del sitio y los archivos de índice de mapas del sitio en un almacén de datos

Para enumerar todos los mapas del sitio y los archivos de índice de mapas del sitio en un almacén de datos, usa el sitemaps.fetch método. Si enviaste un archivo de índice de mapa del sitio, este método muestra el archivo de índice de mapa del sitio y no los mapas del sitio individuales y anidados. Si no hay mapas del sitio en el almacén de datos, esta solicitud muestra un archivo JSON vacío.

REST

Enumera los mapas del sitio y los archivos de índice de mapas del sitio en un almacén de datos.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Reemplaza lo siguiente:

  • PROJECT_ID: el ID de tu Google Cloud proyecto
  • DATA_STORE_ID: el ID del almacén de datos de Agent Search

Verifica si un mapa del sitio o un archivo de índice de mapa del sitio está presente en un almacén de datos

Para verificar si un mapa del sitio o un archivo de índice de mapa del sitio está presente en un almacén de datos, usa el método sitemaps.fetch. Si el mapa del sitio o el archivo de índice de mapa del sitio que estás verificando se envía al almacén de datos, la respuesta contiene el nombre del mapa del sitio y el URI del mapa del sitio. Si enviaste un archivo de índice de mapa del sitio, la verificación de mapas del sitio individuales dentro del archivo de índice de mapa del sitio no mostrará los resultados correctos.

REST

Verifica si hay un mapa del sitio o un archivo de índice de mapa del sitio en un almacén de datos.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Reemplaza lo siguiente:

  • PROJECT_ID: el ID de tu Google Cloud proyecto
  • DATA_STORE_ID: el ID del almacén de datos de Agent Search
  • SITEMAP_URI_N: el URI público del mapa del sitio o el archivo de índice de mapa del sitio que deseas verificar en el almacén de datos

Borra un mapa del sitio o un archivo de índice de mapa del sitio del almacén de datos

Para borrar un mapa del sitio del almacén de datos, usa el sitemap.delete método. Borrar un mapa del sitio no quita sus URLs del índice. Para quitar el mapa del sitio y sus URLs del índice, consulta Quita un mapa del sitio y sus URLs del índice.

REST

Borra un mapa del sitio o un archivo de índice de mapa del sitio.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Reemplaza lo siguiente:

Quita un mapa del sitio o un archivo de índice de mapa del sitio y sus URLs del índice del almacén de datos

Para quitar un mapa del sitio o un archivo de índice de mapa del sitio y sus URLs del índice, sigue estos pasos:

  1. Quita todas las URLs del mapa del sitio o del archivo de índice de mapa del sitio que se envió al almacén de datos.

    Si enviaste un archivo de índice de mapa del sitio al almacén de datos, quita todos los mapas del sitio anidados quitando todas las URLs y quita el mapa del sitio del archivo de índice de mapa del sitio.

  2. Espera un período de 48 horas para que Agent Search procese estos cambios y quite las URLs del índice del almacén de datos.

  3. Borra el mapa del sitio o el archivo de índice de mapa del sitio.