Nota: Se cambiará el nombre de Vertex AI Search por Agent Search. Estamos en proceso de actualizar el contenido para reflejar el nuevo desarrollo de la marca.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Actualiza páginas web con la actualización automática y manual

Si tu almacén de datos usa la búsqueda básica de sitios web, la actualización de su índice replicará la que esté disponible en la Búsqueda de Google.

Si la indexación de sitio web avanzada está habilitada en tu almacén de datos, las páginas web que se encuentren allí se actualizarán de las siguientes maneras:

Actualización automática
Actualización manual
Actualización basada en el mapa del sitio

En esta página, se describe la actualización automática y manual. Para comprender y aplicar la actualización basada en el mapa del sitio, consulta Indexa y actualiza según el mapa del sitio.

Antes de comenzar

Si usas el archivo robots.txt en tu sitio web, actualízalo. Para obtener más información, consulta cómo preparar el archivo robots.txt de tu sitio web.

Actualización automática

La búsqueda del agente realiza la actualización automática de la siguiente manera:

Después de crear un almacén de datos, genera un índice inicial para las páginas incluidas.
Luego, indexa las páginas descubiertas recientemente y vuelve a rastrear las páginas existentes según el criterio del mejor esfuerzo.
Actualiza regularmente los almacenes de datos que presentan una tasa de 50 búsquedas por 30 días.

Actualización manual

Si deseas actualizar páginas web específicas en un almacén de datos con la indexación avanzada de sitios web activada, puedes llamar al recrawlUris método. Usa el campo uris para especificar cada página web que deseas rastrear. El método recrawlUris es una operación de larga duración que se ejecuta hasta que se rastrean las páginas web especificadas o hasta que se agota el tiempo de espera después de 24 horas, lo que ocurra primero. Si se agota el tiempo de espera del método recrawlUris, puedes volver a llamarlo y especificar las páginas web que aún no se rastrearon. Puedes sondear el operations.get método para supervisar el estado de tu operación de rastreo.

Límites de rastreo

Existen límites en la frecuencia con la que puedes rastrear páginas web y en la cantidad de páginas web que puedes rastrear a la vez:

Llamadas diarias. La cantidad máxima de llamadas al método recrawlUris permitida es de 20 por día y por proyecto.
Páginas web por llamada. La cantidad máxima de valores uris que puedes especificar con una llamada al método recrawlUris es de 10,000.

Vuelve a rastrear las páginas web de tu almacén de datos

Puedes rastrear manualmente páginas web específicas en un almacén de datos que tenga activada la indexación avanzada de sitios web.

REST

Para usar la línea de comandos para rastrear páginas web específicas en tu almacén de datos, sigue estos pasos:

Busca el ID de tu almacén de datos. Si ya tienes el ID de tu almacén de datos, avanza al próximo paso.
1. En la consola de Google Cloud , ve a la página Aplicaciones basadas en IA y, en el menú de navegación, haz clic en Almacenes de datos.
  
  Ir a la página Almacenes de datos.
2. Haz clic en el nombre de tu almacén de datos.
3. En la página Datos de tu almacén de datos, obtén el ID del almacén de datos.

Llama al método recrawlUris y usa el campo uris para especificar cada página web que deseas rastrear. Cada uri representa una sola página, incluso si contiene asteriscos (*). No se admiten patrones de comodines.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine:recrawlUris" \
-d '{
  "uris": [URIS]
}'

Reemplaza lo siguiente:

PROJECT_ID: Es el ID de tu Google Cloud proyecto.
DATA_STORE_ID: Es el ID del almacén de datos de la búsqueda del agente.
URIS: Es la lista de páginas web que deseas rastrear, por ejemplo, "https://example.com/page-1", "https://example.com/page-2", "https://example.com/page-3".

El resultado es similar a este:

{
  "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata"
  }
}

Guarda el name valor como entrada para la operación operations.get cuando supervises el estado de tu operación de rastreo.

Supervisa el estado de tu operación de rastreo

El método recrawlUris, que usas para rastrear páginas web en un almacén de datos, es una operación de larga duración que se ejecuta hasta que se rastrean las páginas web especificadas o hasta que se agota el tiempo de espera después de 24 horas, lo que ocurra primero. Puedes supervisar el estado de esta operación de larga duración sondeando el operations.get método y especificando el name valor que muestra el recrawlUris método. Continúa sondeando hasta que la respuesta indique que (1) se rastrearon todas tus páginas web o (2) se agotó el tiempo de espera de la operación antes de que se rastrearan todas tus páginas web. Si se agota el tiempo de espera de recrawlUris, puedes volver a llamarlo y especificar los sitios web que no se rastrearon.

REST

Para usar la línea de comandos para supervisar el estado de una operación de rastreo, sigue estos pasos:

Busca el ID de tu almacén de datos. Si ya tienes el ID de tu almacén de datos, avanza al próximo paso.
1. En la consola de Google Cloud , ve a la página Aplicaciones basadas en IA y, en el menú de navegación, haz clic en Almacenes de datos.
  
  Ir a la página Almacenes de datos.
2. Haz clic en el nombre de tu almacén de datos.
3. En la página Datos de tu almacén de datos, obtén el ID del almacén de datos.
Sondea el operations.get método.
```
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/OPERATION_NAME"
```
Reemplaza lo siguiente:
- PROJECT_ID: Es el ID de tu Google Cloud proyecto.
- OPERATION_NAME: Es el nombre de la operación, que se encuentra en el campo name que se muestra en tu llamada al método recrawlUris en Vuelve a rastrear las páginas web de tu almacén de datos. También puedes obtener el nombre de la operación enumerando las operaciones de larga duración.
Evalúa cada respuesta.
- Si una respuesta indica que hay URIs pendientes y que la operación de rastreo no se completó, significa que aún se están rastreando tus páginas web. Continúa sondeando.
  Ejemplo
  { "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata", "createTime": "2023-09-05T22:07:28.690950Z", "updateTime": "2023-09-05T22:22:10.978843Z", "validUrisCount": 4000, "successCount": 2215, "pendingCount": 1785 }, "done": false, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse", } }
  Los campos de respuesta se pueden describir de la siguiente manera:
  - createTime: Indica la hora en que se inició la operación de larga duración.
  - updateTime: Indica la última vez que se actualizaron los metadatos de la operación de larga duración. indica que los metadatos se actualizan cada cinco minutos hasta que se completa la operación.
  - validUrisCount: Indica que especificaste 4,000 URIs válidos en tu llamada al método recrawlUris.
  - successCount: Indica que se rastrearon correctamente 2,215 URIs.
  - pendingCount: Indica que aún no se rastrearon 1,785 URIs.
  - done: Un valor de false indica que la operación de rastreo aún está en curso.
- Si una respuesta indica que no hay URIs pendientes (no se muestra el campo pendingCount) y que la operación de rastreo se completó, significa que se rastrearon tus páginas web. Deja de sondear. Puedes salir de este procedimiento.
  Ejemplo
  { "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata", "createTime": "2023-09-05T22:07:28.690950Z", "updateTime": "2023-09-05T22:37:11.367998Z", "validUrisCount": 4000, "successCount": 4000 }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse" } }
  Los campos de respuesta se pueden describir de la siguiente manera:
  - createTime: Indica la hora en que se inició la operación de larga duración.
  - updateTime: Indica la última vez que se actualizaron los metadatos de la operación de larga duración. indica que los metadatos se actualizan cada cinco minutos hasta que se completa la operación.
  - validUrisCount: Indica que especificaste 4,000 URIs válidos en tu llamada al método recrawlUris.
  - successCount: Indica que se rastrearon correctamente 4,000 URIs.
  - done: Un valor de true indica que la operación de rastreo se completó.

Si una respuesta indica que hay URIs pendientes y que la operación de rastreo se completó, significa que se agotó el tiempo de espera de la operación de rastreo (después de 24 horas) antes de que se rastrearan todas tus páginas web. Vuelve a comenzar en Vuelve a rastrear las páginas web de tu almacén de datos. Usa los valores failedUris en la respuesta operations.get para los valores del campo uris en tu nueva llamada al método recrawlUris.

Ejemplo.

{
  "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-8765432109876543210",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata",
    "createTime": "2023-09-05T22:07:28.690950Z",
    "updateTime": "2023-09-06T22:09:10.613751Z",
    "validUrisCount": 10000,
    "successCount": 9988,
    "pendingCount": 12
  },
  "done": true,
  "response": {
    "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse",
    "failedUris": [
      "https://example.com/page-9989",
      "https://example.com/page-9990",
      "https://example.com/page-9991",
      "https://example.com/page-9992",
      "https://example.com/page-9993",
      "https://example.com/page-9994",
      "https://example.com/page-9995",
      "https://example.com/page-9996",
      "https://example.com/page-9997",
      "https://example.com/page-9998",
      "https://example.com/page-9999",
      "https://example.com/page-10000"
    ],
    "failureSamples": [
      {
        "uri": "https://example.com/page-9989",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9990",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9991",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9992",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9993",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9994",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9995",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9996",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9997",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9998",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      }
    ]
  }
}

Aquí hay algunas descripciones de los campos de respuesta:

createTime: Es la hora en que se inició la operación de larga duración.
updateTime: Es la última vez que se actualizaron los metadatos de la operación de larga duración. Los metadatos se actualizan cada cinco minutos hasta que se completa la operación.
validUrisCount: Indica que especificaste 10,000 URIs válidos en tu llamada al método recrawlUris.
successCount: Indica que se rastrearon correctamente 9,988 URIs.
pendingCount: Indica que aún no se rastrearon 12 URIs.
done: Un valor de true indica que la operación de rastreo se completó.
failedUris: Es una lista de URIs que no se rastrearon antes de que se agotara el tiempo de espera de la operación de rastreo.
failureInfo: Es información sobre los URIs que no se pudieron rastrear. Como máximo, se muestran diez valores de array failureInfo, incluso si no se pudieron rastrear más de diez URIs.
errorMessage: Es el motivo por el que no se pudo rastrear un URI, por corpusType. Para obtener más información, consulta Mensajes de error.

Actualización oportuna

Google recomienda que realices una actualización manual en tus páginas nuevas y actualizadas para asegurarte de tener el índice más reciente.

Mensajes de error

Cuando supervisas el estado de tu operación de rastreo, si se agota el tiempo de espera de la operación de rastreo mientras sondeas el método operations.get, operations.get muestra mensajes de error para las páginas web que no se rastrearon. En la siguiente tabla, se enumeran los mensajes de error, si el error es transitorio (un error temporal que se resuelve por sí solo) y las acciones que puedes realizar antes de volver a intentar el método recrawlUris. Puedes volver a intentar todos los errores transitorios de inmediato. Todos los errores no transitorios se pueden volver a intentar después de implementar la solución.

Mensaje de error	¿Es un error transitorio?	Acción antes de volver a intentar el rastreo
Google rastreó la página, pero la búsqueda del agente no la indexó en un plazo de 24 horas	Sí	Usa los valores `failedUris` en la respuesta `operations.get` para los valores del campo `uris` cuando llames al método `recrawlUris`.
El sitio bloqueó el rastreo de `robots.txt`	No	Desbloquea el URI en el archivo `robots.txt` de tu sitio web, asegúrate de que el usuario-agente Googlebot tenga permiso para rastrear el sitio web, y vuelve a intentar el rastreo. Para obtener más información, consulta Cómo escribir y enviar un archivo robots.txt. Si no puedes acceder al archivo `robots.txt`, comunícate con el propietario del dominio.
La página es inaccesible	No	Verifica el URI que especificaste cuando llamaste al método `recrawlUris`. Asegúrate de proporcionar el URI literal y no un patrón de URI.
Se agotó el tiempo de espera del rastreo	Sí	Usa los valores `failedUris` en la respuesta `operations.get` para los valores del campo `uris` cuando llames al método `recrawlUris`.
El rastreador de Google rechazó la página	Sí	Usa los valores `failedUris` en la respuesta `operations.get` para los valores del campo `uris` cuando llames al método `recrawlUris`.
El rastreador de Google no pudo seguir la URL	No	Si hay varios redireccionamientos, usa el URI del último redireccionamiento y vuelve a intentarlo.
No se encontró la página (404)	No	Verifica el URI que especificaste cuando llamaste al método `recrawlUris`. Asegúrate de proporcionar el URI literal y no un patrón de URI. Cualquier página que responda con un código de error `4xx` se quita del índice.
La página requiere autenticación	No	La indexación avanzada de sitios web no admite el rastreo de páginas web que requieren autenticación.

Cómo se manejan las páginas borradas

Cuando se borra una página, Google recomienda que actualices manualmente las URLs borradas.

Cuando se rastrea el almacén de datos de tu sitio web durante una actualización automática o manual, si una página web responde con un código de error del cliente 4xxo un código de error del servidor 5xx, la página web que no responde se quita del índice.

Actualiza páginas web con la actualización automática y manual Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Antes de comenzar

Actualización automática

Actualización manual

Límites de rastreo

Vuelve a rastrear las páginas web de tu almacén de datos

REST

Supervisa el estado de tu operación de rastreo

REST

Actualización oportuna

Mensajes de error

Cómo se manejan las páginas borradas

Actualiza páginas web con la actualización automática y manual