Prepara los datos para la transferencia

La forma en que preparas los datos depende del tipo de datos que importas y de la forma en que eliges importarlos. Comienza con el tipo de datos que planeas importar:

Para obtener información sobre la búsqueda combinada, en la que se pueden conectar varios almacenes de datos a una sola app de búsqueda personalizada, consulta Información sobre cómo conectar varios almacenes de datos.

Datos de sitio web

Cuando creas un almacén de datos para los datos del sitio web, proporcionas las URLs de las páginas web que Google debe rastrear e indexar para la búsqueda o las recomendaciones.

Antes de indexar los datos de tu sitio web, haz lo siguiente:

  • Decide qué patrones de URL incluir en la indexación y cuáles excluir.

    • Excluye los patrones de las URLs dinámicas. Las URLs dinámicas son URLs que cambian en el momento de la publicación según la solicitud.

      Por ejemplo, los patrones de URL de las páginas web que publican los resultados de la búsqueda, como www.example.com/search/*. Supongamos que un usuario busca la frase Nobel prize. La URL de búsqueda dinámica podría ser una URL única: www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Si no se excluye el patrón de URL www.example.com/search/*, se indexarán todas las URLs de búsqueda dinámicas y únicas que sigan este patrón. Esto genera un índice inflado y una calidad de búsqueda diluida.

    • Elimina las URLs duplicadas con patrones de URL canónicos. Esto proporciona una sola URL canónica para la Búsqueda de Google cuando rastrea el sitio web y elimina la ambigüedad. Para ver ejemplos de canonicalización y obtener más información, consulta ¿Qué es la canonicalización de URLs? y Cómo especificar una URL canónica con rel="canonical" y otros métodos.

  • Puedes incluir patrones de URL del mismo dominio o de dominios diferentes que deban indexarse y excluir los patrones que no deben indexarse. La cantidad de patrones de URL que puedes incluir y excluir difiere de la siguiente manera:

    Tipo de indexación Sitios incluidos Sitios excluidos
    Búsqueda básica en sitios web Máximo de 50 patrones de URL Máximo de 50 patrones de URL
    Indexación avanzada de sitios web Máximo de 500 patrones de URL Máximo de 500 patrones de URL

  • Si usas el archivo robots.txt en tu sitio web, haz lo siguiente:

    En la siguiente tabla, se muestra la cadena de usuario-agente tal como aparece en las solicitudes HTTP y el token de usuario-agente en robots.txt para Google-CloudVertexBot.

    Usuario-agente en solicitudes HTTP
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.7559.132 Mobile Safari/537.36 (compatible; Google-CloudVertexBot; +https://cloud.google.com/enterprise-search)
    robots.txt
    Token de usuario-agente en robots.txt Google-CloudVertexBot
    Ejemplo de grupo robots.txt
                  user-agent: Google-CloudVertexBot
                  allow: /
                  

    Es necesario que el bot de Agent Search rastree e indexe tu información, incluido el contenido con muro de pago. Para obtener más información sobre cómo rastrear e indexar tu contenido, incluido el contenido de paga, consulta lo siguiente:

    Para obtener más información, consulta Introducción a robots.txt y Cómo escribir y enviar un archivo robots.txt.

  • Además de permitir el rastreador en tu archivo robots.txt, tu organización debe permitir las solicitudes de búsqueda a través de todos los servidores proxy ascendentes que puedan encontrar tus usuarios.

  • Si planeas usar la indexación avanzada de sitios web, debes poder verificar los dominios de los patrones de URL en tu almacén de datos.

  • Agrega datos estructurados en forma de meta etiquetas y PageMaps al esquema de tu almacén de datos para enriquecer la indexación, como se explica en Usa datos estructurados para la indexación avanzada de sitios web.

Datos no estructurados

Agent Search admite búsquedas en documentos que están en formatos TXT, JSON, Markdown, PDF, HTML, DOCX, PPTX, XLSX y XLSM.

El tamaño máximo de un archivo es de 200 MB, y puedes importar hasta 100,000 archivos a la vez.

Importas tus documentos desde un bucket de Cloud Storage. Puedes importar con la Google Cloud consola, con el ImportDocumentsmétodo, o con la transferencia de transmisión a través de métodos CRUD. Para obtener información de referencia de la API, consulta DocumentService y documents. Si planeas incluir embeddings en tus datos no estructurados, consulta Usa embeddings personalizados.

Si tienes archivos PDF que no se pueden buscar (PDF escaneados o PDF con texto dentro de imágenes, como infografías), te recomendamos que actives el analizador de diseño durante la creación del almacén de datos. Esto permite que Agent Search extraiga elementos como bloques de texto y tablas. Si tienes archivos PDF que se pueden buscar y que se componen principalmente de texto legible por máquinas y contienen muchas tablas, puedes considerar activar el procesamiento de OCR con la opción de texto legible por máquinas habilitada para mejorar la detección y el análisis. Para obtener más información, consulta Analiza y divide documentos.

Si deseas usar Agent Search para la generación mejorada por recuperación (RAG), activa la división de documentos cuando crees tu almacén de datos. Para obtener más información, consulta Analiza y divide documentos.

Puedes importar datos no estructurados desde las siguientes fuentes:

Cloud Storage

Puedes importar datos de Cloud Storage con o sin metadatos.

La importación de datos es recursiva. Es decir, si hay carpetas dentro del bucket o la carpeta que especificas, se importan los archivos que se encuentran en esas carpetas.

Si planeas importar documentos de Cloud Storage sin metadatos, coloca tus documentos directamente en un bucket de Cloud Storage. El ID del documento es un ejemplo de metadatos.

Para realizar pruebas, puedes usar las siguientes carpetas de Cloud Storage disponibles públicamente, que contienen archivos PDF:

  • gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
  • gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
  • gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
  • gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Si planeas importar datos de Cloud Storage con metadatos, coloca un archivo JSON que contenga los metadatos en un bucket de Cloud Storage cuya ubicación proporciones durante la importación.

Tus documentos no estructurados pueden estar en el mismo bucket de Cloud Storage que tus metadatos o en uno diferente.

El archivo de metadatos debe ser un archivo JSON Lines o NDJSON. El ID del documento es un ejemplo de metadatos. Cada fila del archivo de metadatos debe seguir uno de los siguientes formatos JSON:

  • Usa jsonData:
    • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
  • Usa structData:
    • { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Usa el campo uri en cada fila para dirigir a la ubicación de Cloud Storage del documento.

Este es un ejemplo de un archivo de metadatos NDJSON para un documento no estructurado. En este ejemplo, cada línea del archivo de metadatos apunta a un documento PDF y contiene los metadatos de ese documento. Las dos primeras líneas usan jsonData, y las dos segundas usan structData. Con structData, no es necesario escapar las comillas que aparecen dentro de las comillas.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"uri\":\"https://test_doc_0.html\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"uri\":\"https://test_doc_1.html\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","uri":"https://test_doc_2.html", "description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","uri":"https://test_doc_3.html","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Para crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda.

BigQuery

Si planeas importar metadatos de BigQuery, crea una tabla de BigQuery que contenga metadatos. El ID del documento es un ejemplo de metadatos.

Coloca tus documentos no estructurados en un bucket de Cloud Storage.

Usa el siguiente esquema de BigQuery. Usa el campo uri en cada registro para dirigir a la ubicación de Cloud Storage del documento.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Para obtener más información, consulta Crea y usa tablas en la documentación de BigQuery.

Para crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda.

Google Drive

La sincronización de datos de Google Drive es compatible con la búsqueda personalizada.

Si planeas importar datos de Google Drive, debes configurar Google Identity como tu proveedor de identidad en Agent Search. Para obtener información sobre cómo configurar el control de acceso, consulta Usa el control de acceso a la fuente de datos.

Para crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda.

Datos estructurados

Prepara tus datos según el método de importación que planeas usar. Si planeas transferir datos de medios, consulta también Datos de medios estructurados.

Puedes importar datos estructurados desde las siguientes fuentes:

Cuando importas datos estructurados de BigQuery o de Cloud Storage, tienes la opción de importar los datos con metadatos. (Los datos estructurados con metadatos también se conocen como datos estructurados mejorados).

BigQuery

Puedes importar datos estructurados de conjuntos de datos de BigQuery.

Tu esquema se detecta automáticamente. Después de la importación, Google recomienda que edites el esquema detectado automáticamente para asignar propiedades clave, como títulos. Si importas con la API en lugar de la Google Cloud consola, tienes la opción de proporcionar tu propio esquema como un objeto JSON. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta los conjuntos de datos públicos de BigQuery.

Si planeas incluir embeddings en tus datos estructurados, consulta Usa embeddings personalizados.

Si seleccionas importar datos estructurados con metadatos, incluye dos campos en tus tablas de BigQuery:

  • Un campo id para identificar el documento. Si importas datos estructurados sin metadatos, se genera el id por ti. Incluir metadatos te permite especificar el valor de id.

  • Un campo jsonData que contiene los datos. Para ver ejemplos de cadenas jsonData, consulta la sección anterior Cloud Storage.

Usa el siguiente esquema de BigQuery para datos estructurados con importaciones de metadatos:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Para obtener instrucciones sobre cómo crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda o Crea un almacén de datos de recomendaciones.

Cloud Storage

Los datos estructurados en Cloud Storage deben estar en formato JSON Lines o NDJSON. Cada archivo debe tener menos de 2 GB, y cada fila del archivo debe tener menos de 1 MB. Puedes importar hasta 1,000 archivos en una sola solicitud de importación.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta las siguientes carpetas en Cloud Storage, que contienen archivos NDJSON:

  • gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
  • gs://cloud-samples-data/gen-app-builder/search/austin_311

Si planeas incluir embeddings en tus datos estructurados, consulta Usa embeddings personalizados.

Este es un ejemplo de un archivo de metadatos NDJSON de datos estructurados. Cada línea del archivo representa un documento y se compone de un conjunto de campos.

{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Para crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda o Crea un almacén de datos de recomendaciones.

Datos JSON locales

Puedes subir directamente un documento o un objeto JSON con la API.

Google recomienda proporcionar tu propio esquema como un objeto JSON para obtener mejores resultados. Si no proporcionas tu propio esquema, se detecta automáticamente. Después de la importación, te recomendamos que edites el esquema detectado automáticamente para asignar propiedades clave, como títulos. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.

Si planeas incluir embeddings en tus datos estructurados, consulta Usa embeddings personalizados.

Para crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda o Crea un almacén de datos de recomendaciones.

Datos de medios estructurados

Si planeas transferir datos de medios estructurados, como videos, noticias o música, revisa lo siguiente:

Datos de FHIR de servicios de salud

Si planeas transferir datos de FHIR de la API de Cloud Healthcare, asegúrate de lo siguiente:

  • Ubicación: El almacén de FHIR de origen debe estar en un conjunto de datos de la API de Cloud Healthcare que se encuentre en la ubicación us-central1, us o eu. Para obtener más información, consulta Crea y administra conjuntos de datos en la API de Cloud Healthcare.
  • Tipo de almacén de FHIR: El almacén de FHIR de origen debe ser un almacén de datos R4. Puedes verificar las versiones de tus almacenes de FHIR si enumeras los almacenes de FHIR en tu conjunto de datos. Para crear un almacén de FHIR R4, consulta Crea almacenes de FHIR.
  • Cuota de importación: El almacén de FHIR de origen debe tener menos de 1 millón de recursos de FHIR. Si hay más de 1 millón de recursos de FHIR, el proceso de importación se detiene después de que se alcanza este límite. Para obtener más información, consulta Cuotas y límites.
  • Revisa la lista de recursos de FHIR R4 que admite Agent Search. Para obtener más información, consulta Referencia del esquema de datos de FHIR R4 de servicios de salud.
  • Referencias de recursos: Asegúrate de que las referencias de recursos relativos estén en el formato Resource/resourceId. Por ejemplo, subject.reference debe tener su valor como Patient/034AB16. Para obtener más información sobre cómo la API de Cloud Healthcare admite las referencias de recursos de FHIR, consulta Referencias de recursos de FHIR.

  • Los archivos a los que se hace referencia en un DocumentReference recurso deben ser archivos PDF, RTF o de imagen que se almacenen en Cloud Storage. El vínculo a los archivos a los que se hace referencia debe estar en el campo content[].attachment.urldel recurso en el formato de ruta de acceso estándar de Cloud Storage: gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE.

    En la siguiente tabla, se enumeran los límites de tamaño de archivo de cada tipo de archivo con diferentes configuraciones (para obtener más información, consulta Analiza y divide documentos). Puedes importar hasta 100,000 archivos a la vez.