La forma en que preparas los datos depende del tipo de datos que importas y de la forma en que eliges importarlos. Comienza con el tipo de datos que planeas importar:
- Datos de sitio web
- Datos no estructurados
- Datos estructurados
- Datos de medios estructurados
- Datos de FHIR de servicios de salud
Datos de sitio web
Cuando creas un almacén de datos para los datos del sitio web, proporcionas las URLs de las páginas web que Google debe rastrear e indexar para la búsqueda o las recomendaciones.
Antes de indexar los datos de tu sitio web, haz lo siguiente:
Decide qué patrones de URL incluir en la indexación y cuáles excluir.
Excluye los patrones de las URLs dinámicas. Las URLs dinámicas son URLs que cambian en el momento de la publicación según la solicitud.
Por ejemplo, los patrones de URL de las páginas web que publican los resultados de la búsqueda, como
www.example.com/search/*. Supongamos que un usuario busca la fraseNobel prize. La URL de búsqueda dinámica podría ser una URL única:www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Si no se excluye el patrón de URLwww.example.com/search/*, se indexarán todas las URLs de búsqueda dinámicas y únicas que sigan este patrón. Esto genera un índice inflado y una calidad de búsqueda diluida.Elimina las URLs duplicadas con patrones de URL canónicos. Esto proporciona una sola URL canónica para la Búsqueda de Google cuando rastrea el sitio web y elimina la ambigüedad. Para ver ejemplos de canonicalización y obtener más información, consulta ¿Qué es la canonicalización de URLs? y Cómo especificar una URL canónica con rel="canonical" y otros métodos.
Puedes incluir patrones de URL del mismo dominio o de dominios diferentes que deban indexarse y excluir los patrones que no deben indexarse. La cantidad de patrones de URL que puedes incluir y excluir difiere de la siguiente manera:
Tipo de indexación Sitios incluidos Sitios excluidos Búsqueda básica en sitios web Máximo de 50 patrones de URL Máximo de 50 patrones de URL Indexación avanzada de sitios web Máximo de 500 patrones de URL Máximo de 500 patrones de URL Si usas el archivo
robots.txten tu sitio web, haz lo siguiente:Asegúrate de que Google-CloudVertexBot pueda acceder a tu contenido. El bot de Agent Search debe rastrear e indexar tu información, incluido el contenido con muro de pago.
En la siguiente tabla, se muestra la cadena de usuario-agente tal como aparece en las solicitudes HTTP y el token de usuario-agente en
robots.txtpara Google-CloudVertexBot.Usuario-agente en solicitudes HTTP Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.7559.132 Mobile Safari/537.36 (compatible; Google-CloudVertexBot; +https://cloud.google.com/enterprise-search)
robots.txt Token de usuario-agente en robots.txtGoogle-CloudVertexBotEjemplo de grupo robots.txtuser-agent: Google-CloudVertexBot allow: /Es necesario que el bot de Agent Search rastree e indexe tu información, incluido el contenido con muro de pago. Para obtener más información sobre cómo rastrear e indexar tu contenido, incluido el contenido de paga, consulta lo siguiente:
- Datos estructurados de suscripciones y contenido con muro de pago
Soluciona problemas de JavaScript relacionados con la Búsqueda
Verifica que las páginas web que planeas agregar a tu almacén de datos no bloqueen la indexación.
Para obtener más información, consulta Introducción a robots.txt y Cómo escribir y enviar un archivo robots.txt.
Además de permitir el rastreador en tu archivo
robots.txt, tu organización debe permitir las solicitudes de búsqueda a través de todos los servidores proxy ascendentes que puedan encontrar tus usuarios.Si planeas usar la indexación avanzada de sitios web, debes poder verificar los dominios de los patrones de URL en tu almacén de datos.
Agrega datos estructurados en forma de
metaetiquetas y PageMaps al esquema de tu almacén de datos para enriquecer la indexación, como se explica en Usa datos estructurados para la indexación avanzada de sitios web.
Datos no estructurados
Agent Search admite búsquedas en documentos que están en formatos TXT, JSON, Markdown, PDF, HTML, DOCX, PPTX, XLSX y XLSM.
El tamaño máximo de un archivo es de 200 MB, y puedes importar hasta 100,000 archivos a la vez.
Importas tus documentos desde un bucket de
Cloud Storage. Puedes importar con la Google Cloud consola, con el
ImportDocumentsmétodo, o con la transferencia de transmisión
a través de métodos CRUD.
Para obtener información de referencia de la API, consulta DocumentService
y documents.
Si planeas incluir embeddings en tus datos no estructurados, consulta
Usa embeddings personalizados.
Si tienes archivos PDF que no se pueden buscar (PDF escaneados o PDF con texto dentro de imágenes, como infografías), te recomendamos que actives el analizador de diseño durante la creación del almacén de datos. Esto permite que Agent Search extraiga elementos como bloques de texto y tablas. Si tienes archivos PDF que se pueden buscar y que se componen principalmente de texto legible por máquinas y contienen muchas tablas, puedes considerar activar el procesamiento de OCR con la opción de texto legible por máquinas habilitada para mejorar la detección y el análisis. Para obtener más información, consulta Analiza y divide documentos.
Si deseas usar Agent Search para la generación mejorada por recuperación (RAG), activa la división de documentos cuando crees tu almacén de datos. Para obtener más información, consulta Analiza y divide documentos.
Puedes importar datos no estructurados desde las siguientes fuentes:
Cloud Storage
Puedes importar datos de Cloud Storage con o sin metadatos.
La importación de datos es recursiva. Es decir, si hay carpetas dentro del bucket o la carpeta que especificas, se importan los archivos que se encuentran en esas carpetas.
Si planeas importar documentos de Cloud Storage sin metadatos, coloca tus documentos directamente en un bucket de Cloud Storage. El ID del documento es un ejemplo de metadatos.
Para realizar pruebas, puedes usar las siguientes carpetas de Cloud Storage disponibles públicamente, que contienen archivos PDF:
gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfsgs://cloud-samples-data/gen-app-builder/search/CUAD_v1gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveysgs://cloud-samples-data/gen-app-builder/search/stanford-cs-224
Si planeas importar datos de Cloud Storage con metadatos, coloca un archivo JSON que contenga los metadatos en un bucket de Cloud Storage cuya ubicación proporciones durante la importación.
Tus documentos no estructurados pueden estar en el mismo bucket de Cloud Storage que tus metadatos o en uno diferente.
El archivo de metadatos debe ser un archivo JSON Lines o NDJSON. El ID del documento es un ejemplo de metadatos. Cada fila del archivo de metadatos debe seguir uno de los siguientes formatos JSON:
- Usa
jsonData:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
- Usa
structData:{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Usa el campo uri en cada fila para dirigir a la ubicación de Cloud Storage del documento.
Este es un ejemplo de un archivo de metadatos NDJSON para un documento no estructurado. En este ejemplo, cada línea del archivo de metadatos apunta a un documento PDF y contiene los metadatos de ese documento. Las dos primeras líneas usan jsonData, y las dos segundas usan structData. Con structData, no es necesario escapar las comillas que aparecen dentro de las comillas.
{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"uri\":\"https://test_doc_0.html\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"uri\":\"https://test_doc_1.html\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","uri":"https://test_doc_2.html", "description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","uri":"https://test_doc_3.html","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}
Para crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda.
BigQuery
Si planeas importar metadatos de BigQuery, crea una tabla de BigQuery que contenga metadatos. El ID del documento es un ejemplo de metadatos.
Coloca tus documentos no estructurados en un bucket de Cloud Storage.
Usa el siguiente esquema de BigQuery. Usa el campo uri en cada registro para dirigir a la ubicación de Cloud Storage del documento.
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"type": "STRING",
"fields": []
},
{
"name": "content",
"type": "RECORD",
"mode": "NULLABLE",
"fields": [
{
"name": "mimeType",
"type": "STRING",
"mode": "NULLABLE"
},
{
"name": "uri",
"type": "STRING",
"mode": "NULLABLE"
}
]
}
]
Para obtener más información, consulta Crea y usa tablas en la documentación de BigQuery.
Para crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda.
Google Drive
La sincronización de datos de Google Drive es compatible con la búsqueda personalizada.
Si planeas importar datos de Google Drive, debes configurar Google Identity como tu proveedor de identidad en Agent Search. Para obtener información sobre cómo configurar el control de acceso, consulta Usa el control de acceso a la fuente de datos.
Para crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda.
Datos estructurados
Prepara tus datos según el método de importación que planeas usar. Si planeas transferir datos de medios, consulta también Datos de medios estructurados.
Puedes importar datos estructurados desde las siguientes fuentes:
Cuando importas datos estructurados de BigQuery o de Cloud Storage, tienes la opción de importar los datos con metadatos. (Los datos estructurados con metadatos también se conocen como datos estructurados mejorados).
BigQuery
Puedes importar datos estructurados de conjuntos de datos de BigQuery.
Tu esquema se detecta automáticamente. Después de la importación, Google recomienda que edites el esquema detectado automáticamente para asignar propiedades clave, como títulos. Si importas con la API en lugar de la Google Cloud consola, tienes la opción de proporcionar tu propio esquema como un objeto JSON. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.
Para ver ejemplos de datos estructurados disponibles públicamente, consulta los conjuntos de datos públicos de BigQuery.
Si planeas incluir embeddings en tus datos estructurados, consulta Usa embeddings personalizados.
Si seleccionas importar datos estructurados con metadatos, incluye dos campos en tus tablas de BigQuery:
Un campo
idpara identificar el documento. Si importas datos estructurados sin metadatos, se genera elidpor ti. Incluir metadatos te permite especificar el valor deid.Un campo
jsonDataque contiene los datos. Para ver ejemplos de cadenasjsonData, consulta la sección anterior Cloud Storage.
Usa el siguiente esquema de BigQuery para datos estructurados con importaciones de metadatos:
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
}
]
Para obtener instrucciones sobre cómo crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda o Crea un almacén de datos de recomendaciones.
Cloud Storage
Los datos estructurados en Cloud Storage deben estar en formato JSON Lines o NDJSON. Cada archivo debe tener menos de 2 GB, y cada fila del archivo debe tener menos de 1 MB. Puedes importar hasta 1,000 archivos en una sola solicitud de importación.
Para ver ejemplos de datos estructurados disponibles públicamente, consulta las siguientes carpetas en Cloud Storage, que contienen archivos NDJSON:
gs://cloud-samples-data/gen-app-builder/search/kaggle_moviesgs://cloud-samples-data/gen-app-builder/search/austin_311
Si planeas incluir embeddings en tus datos estructurados, consulta Usa embeddings personalizados.
Este es un ejemplo de un archivo de metadatos NDJSON de datos estructurados. Cada línea del archivo representa un documento y se compone de un conjunto de campos.
{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}
Para crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda o Crea un almacén de datos de recomendaciones.
Datos JSON locales
Puedes subir directamente un documento o un objeto JSON con la API.
Google recomienda proporcionar tu propio esquema como un objeto JSON para obtener mejores resultados. Si no proporcionas tu propio esquema, se detecta automáticamente. Después de la importación, te recomendamos que edites el esquema detectado automáticamente para asignar propiedades clave, como títulos. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.
Si planeas incluir embeddings en tus datos estructurados, consulta Usa embeddings personalizados.
Para crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda o Crea un almacén de datos de recomendaciones.
Datos de medios estructurados
Si planeas transferir datos de medios estructurados, como videos, noticias o música, revisa lo siguiente:
- Información sobre tu método de importación (BigQuery o Cloud Storage): Datos estructurados
- Esquemas y campos obligatorios para documentos y almacenes de datos de medios: Acerca de los documentos y almacenes de datos de medios
- Requisitos y esquemas de eventos del usuario: Acerca de los eventos del usuario de medios
- Información sobre los tipos de recomendaciones de medios: Acerca de los tipos de recomendaciones de medios
Datos de FHIR de servicios de salud
Si planeas transferir datos de FHIR de la API de Cloud Healthcare, asegúrate de lo siguiente:
- Ubicación: El almacén de FHIR de origen debe estar en un conjunto de datos de la API de Cloud Healthcare que se encuentre
en la ubicación
us-central1,usoeu. Para obtener más información, consulta Crea y administra conjuntos de datos en la API de Cloud Healthcare. - Tipo de almacén de FHIR: El almacén de FHIR de origen debe ser un almacén de datos R4. Puedes verificar las versiones de tus almacenes de FHIR si enumeras los almacenes de FHIR en tu conjunto de datos. Para crear un almacén de FHIR R4, consulta Crea almacenes de FHIR.
- Cuota de importación: El almacén de FHIR de origen debe tener menos de 1 millón de recursos de FHIR. Si hay más de 1 millón de recursos de FHIR, el proceso de importación se detiene después de que se alcanza este límite. Para obtener más información, consulta Cuotas y límites.
- Revisa la lista de recursos de FHIR R4 que admite Agent Search. Para obtener más información, consulta Referencia del esquema de datos de FHIR R4 de servicios de salud.
Referencias de recursos: Asegúrate de que las referencias de recursos relativos estén en el formato
Resource/resourceId. Por ejemplo,subject.referencedebe tener su valor comoPatient/034AB16. Para obtener más información sobre cómo la API de Cloud Healthcare admite las referencias de recursos de FHIR, consulta Referencias de recursos de FHIR.Los archivos a los que se hace referencia en un
DocumentReferencerecurso deben ser archivos PDF, RTF o de imagen que se almacenen en Cloud Storage. El vínculo a los archivos a los que se hace referencia debe estar en el campocontent[].attachment.urldel recurso en el formato de ruta de acceso estándar de Cloud Storage:gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE.En la siguiente tabla, se enumeran los límites de tamaño de archivo de cada tipo de archivo con diferentes configuraciones (para obtener más información, consulta Analiza y divide documentos). Puedes importar hasta 100,000 archivos a la vez.