La indexación avanzada de sitios web genera cargos mensuales de almacenamiento de datos
según el tamaño de los datos web que importas a tu almacén de datos. Para obtener una estimación del tamaño de tus datos web antes de importarlos, puedes llamar al método estimateDataSize y especificar las páginas web que deseas importar. El método estimateDataSize es una operación
de larga duración que se ejecuta hasta que se completa el proceso para estimar
el tamaño de los datos. Esto puede tardar desde unos minutos hasta más de una hora, según la cantidad de páginas web que especifiques. Después de tener una
estimación del tamaño de tus datos web, puedes obtener una estimación de tus costos mensuales de
almacenamiento de datos con la página de precios de Agent Search (consulta la sección Precios del índice de datos) o la calculadora de precios de Google Cloud (busca Agent Search).
Antes de comenzar
Determina los patrones de URL de los sitios web que deseas incluir (y, de manera opcional, excluir) cuando importes datos web a tu almacén de datos. Especificas estos patrones de URL cuando llamas al método estimateDataSize.
Procedimiento
Para obtener una estimación del tamaño de tus datos web, sigue estos pasos:
Llama al método
estimateDataSize.curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'Reemplaza lo siguiente:
PROJECT_ID: el ID de tu proyecto.URI_PATTERN_TO_INCLUDE: los patrones de URL de los sitios web que deseas incluir en tu estimación del tamaño de los datos.URI_PATTERN_TO_EXCLUDE: (opcional) los patrones de URL de los sitios web que deseas excluir de tu estimación del tamaño de los datos.Para
URI_PATTERN_TO_INCLUDEyURI_PATTERN_TO_EXCLUDE, puedes usar patrones similares a los siguientes:- Sitio web completo:
www.mysite.com - Partes de un sitio web:
www.mysite.com/faq - Dominio completo:
mysite.como*.mysite.com
- Sitio web completo:
EXCLUSIVE_BOOLEAN: (opcional) Si estrue, el patrón de URI proporcionado representa páginas web que se excluyen de tu estimación del tamaño de los datos. El valor predeterminado esfalse, lo que significa que el patrón de URI proporcionado representa páginas web que se incluyen en tu estimación del tamaño de los datos.EXACT_MATCH_BOOLEAN: (opcional) Si estrue, el patrón de URI proporcionado representa una sola página web, en lugar de la página web y todos sus elementos secundarios. El valor predeterminado esfalse, lo que significa que el patrón de URI proporcionado representa la página web y todos sus elementos secundarios.
El resultado es similar a este:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }En este resultado, se incluye el campo
name, que es el nombre de la operación de larga duración. Guarda el valornamepara usarlo en el siguiente paso.Sondea el
operations.getmétodo.curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"Reemplaza
OPERATION_NAMEpor el valornameque guardaste en el paso anterior. También puedes obtener el nombre de la operación si enumeras las operaciones de larga duración.Evalúa cada respuesta.
Si una respuesta no contiene
"done": true, el proceso para estimar el tamaño de los datos no se completó. Continúa sondeando.El resultado es similar a este:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2025-10-29T21:59:59.976752Z" } }Si una respuesta contiene
"done": true, el proceso para estimar el tamaño de los datos se completó. Guarda el valorDATA_SIZE_BYTESde la respuesta para usarlo en el siguiente paso.El resultado es similar a este:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2025-10-29T21:59:59.976752Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }En esta salida, se incluyen los siguientes valores:
DATA_SIZE_BYTES: el tamaño estimado de tus datos web, en bytesDOCUMENT_COUNT: la cantidad estimada de páginas web en tus datos web
Divide el valor
DATA_SIZE_BYTESdel paso anterior por 1,000,000,000 para obtener gigabytes. Guarda este valor para el siguiente paso.Para obtener una estimación de tus costos mensuales de almacenamiento de datos, haz lo siguiente:
Haz clic en Agregar a la estimación.
Busca
Agent Searchy, luego, haz clic en el cuadro Agent Search.En el cuadro Índice de datos, ingresa el tamaño estimado de tus datos web, en gigabytes, del paso anterior.
Consulta el cuadro Costo estimado para ver el costo estimado de almacenamiento de datos.