Acerca de las apps y los almacenes de datos

En esta página, se describen las apps y los almacenes de datos de Agent Search.

Con Agent Search, puedes crear una app de búsqueda o recomendaciones y conectarla a un almacén de datos. Un Google Cloud proyecto puede contener varias apps.

Relación entre las apps y los almacenes de datos

La relación entre las apps y los almacenes de datos depende del tipo de app:

  • Las apps de búsqueda personalizadas tienen una relación de varios a varios con los almacenes de datos. Cuando se conectan varios almacenes de datos a una sola app de búsqueda personalizada, se denomina búsqueda combinada. Para obtener información sobre las limitaciones de conectar una app de búsqueda a más de un almacén de datos, consulta Acerca de la búsqueda combinada.

  • Una app de recomendaciones personalizada tiene una conexión uno a uno con su almacén de datos.

  • Una app de medios tiene una relación de varios a uno con su almacén de datos. Una app solo puede conectarse a un almacén de datos, mientras que un almacén de datos puede conectarse a varias apps. Por ejemplo, una app de búsqueda de contenido multimedia y una app de recomendaciones de contenido multimedia pueden compartir un almacén de datos.

  • Una app de búsqueda de atención médica tiene una relación de varios a uno con su almacén de datos. Una app solo puede conectarse a un almacén de datos, mientras que un almacén de datos puede conectarse a varias apps. Por ejemplo, una app orientada al paciente y una app orientada al proveedor pueden conectarse al mismo almacén de datos.

    Para una importación de datos por lotes de datos de atención médica, los datos se importan a un almacén de datos que se encuentra dentro de una app. Para la importación de datos de transmisión (versión preliminar) de datos de atención médica, los datos se importan a una entidad, que es un tipo de almacén de datos que se encuentra dentro de un conector de datos. Un conector de datos también es un tipo de almacén de datos que se encuentra dentro de una app.

Después de que un almacén de datos se conecta a una app, no se puede desconectar.

Método de creación de apps y transferencia de datos

La forma en que creas una app y transfieres datos depende del tipo de datos que tengas:

  • Para los datos del sitio web, puedes usar la Google Cloud consola o la API. Para usar los datos del sitio web creados con la API, debes adjuntarlos a una app con las funciones de Enterprise habilitadas en la Google Cloud consola.

  • Para los datos estructurados o no estructurados, puedes usar la Google Cloud consola o la API.

  • Para los datos de atención médica, puedes usar la Google Cloud consola o la API.

Documentos

Cada almacén de datos tiene uno o más registros de datos, llamados documentos. Lo que un documento representa varía según el tipo de datos en el almacén de datos:

  • Sitio web : Un documento es una página web.

  • Datos estructurados : Un documento es una fila en una tabla o un registro JSON que sigue un esquema en particular. Puedes especificar este esquema tú mismo o dejar que Agent Search defina el esquema a partir de los datos transferidos.

  • Datos estructurados para contenido multimedia : Un documento es una fila en una tabla o un registro JSON que sigue un esquema específico para el contenido multimedia. Los documentos son registros relacionados con contenido multimedia, como videos, artículos de noticias, archivos de música y podcasts. Un documento contiene información que describe el elemento multimedia, como mínimo: título, URI de la ubicación del contenido, categorías, duración y fecha disponible.

  • Datos no estructurados : Un documento es un archivo en cualquiera de los siguientes formatos: TXT, PDF, HTML, DOCX, PPTX, XLSX y XLSM.

  • Datos de FHIR de atención médica : Un documento es un recurso R4 de FHIR compatible. Para obtener una lista de los recursos R4 de FHIR que admite Agent Search, consulta la referencia del esquema de datos de FHIR R4 de atención médica.

Almacenes de datos y apps

En Agent Search, existen varios tipos de almacenes de datos. Un almacén de datos solo puede contener un tipo de datos.

Datos de sitio web

Un almacén de datos con datos de sitios web usa datos indexados de sitios web públicos. Puedes proporcionar un conjunto de patrones de URL que deseas incluir en tu almacén de datos. Las páginas web que se ajustan a los patrones de URL se denominan páginas web incluidas. Luego, puedes configurar la búsqueda en los datos rastreados de las páginas web incluidas.

Por ejemplo, puedes proporcionar patrones de URL como example.com/faq/* y example.com/events/*, y habilitar la búsqueda en los datos rastreados de estas páginas web que se ajustan al patrón. Estos datos incluyen texto, imágenes etiquetadas con metadatos y otros datos estructurados, como etiquetas meta, atributos de PageMap y datos de schema.org.

También puedes proporcionar patrones de URL para las partes de los sitios web que deseas excluir, por ejemplo, example.com/events/members-only/* o example.com/events/past-*. Las URLs excluidas tienen prioridad sobre las incluidas.

Existen dos tipos de almacenes de datos de sitios web:

  • Búsqueda básica de sitios web:

    • Proporciona capacidades de búsqueda en el índice de la Búsqueda de Google existente para los sitios web incluidos.
    • No requiere la verificación del dominio.
  • Indexación avanzada de sitios web:

    • Proporciona capacidades de búsqueda avanzada en un índice que se genera en función de cualquiera de las siguientes opciones:
      • Los propietarios de la app de Agent Search pueden controlar qué páginas web se indexan enviando mapas del sitio y manteniéndolos. Para obtener más información, consulta Indexa y actualiza páginas web con mapas del sitio. Este proceso mantiene el índice actualizado sin intervención manual.
      • Los propietarios de la app de Agent Search pueden realizar una indexación inicial que refleje el índice de la Búsqueda de Google y, luego, expandir la cobertura del índice volviendo a rastrear los sitios web cuando sea necesario, lo que lo mantiene actualizado. Para obtener más información, consulta Actualiza páginas web. Las capacidades avanzadas de la indexación avanzada de sitios web se enumeran en Indexación avanzada de sitios web.
    • Requiere que los propietarios de los almacenes de datos de Agent Search verifiquen los dominios a los que pertenecen los sitios web incluidos. Para obtener más información, consulta Verifica dominios de sitios web.
    • Proporciona la capacidad de agregar datos estructurados al esquema del almacén de datos. Un sitio web contiene datos no estructurados, pero puedes agregar datos estructurados en forma de etiquetas meta, atributos de PageMaps y datos de schema.org a tus páginas web. Luego, puedes usar estos datos estructurados para editar el esquema del almacén de datos como se explica en Usa datos estructurados para la indexación avanzada de sitios web.

¿Qué sigue?

Para la búsqueda de sitios web:

Datos estructurados

Un almacén de datos con datos estructurados permite la búsqueda semántica o las recomendaciones sobre datos estructurados. Puedes importar datos desde BigQuery o Cloud Storage. También puedes subir datos JSON estructurados de forma manual a través de la API.

Por ejemplo, puedes habilitar la búsqueda o las recomendaciones en un catálogo de productos para tu experiencia de comercio electrónico o un directorio de médicos para la búsqueda o las recomendaciones de proveedores.

Agent Search detecta automáticamente el esquema de los datos que importas. De manera opcional, puedes proporcionar un esquema para tus datos. Proporcionar un esquema para tus datos suele mejorar la calidad de los resultados.

¿Qué sigue?

Para la búsqueda personalizada:

Para las recomendaciones personalizadas:

Datos estructurados para contenido multimedia

Las apps de medios solo se pueden conectar a almacenes de datos de contenido multimedia. Los almacenes de datos de contenido multimedia son almacenes de datos estructurados con un esquema definido por Google o con tu propio esquema personalizado que contiene un conjunto específico de cinco campos relacionados con el contenido multimedia. Para obtener más información sobre el esquema, consulta Acerca de los documentos y los almacenes de datos de contenido multimedia.

Por ejemplo, puedes habilitar las recomendaciones creando una app de recomendaciones de contenido multimedia para un catálogo de películas o un sitio de noticias, de modo que tus usuarios tengan sugerencias adecuadas y personalizadas.

Además de los documentos de contenido multimedia, los almacenes de datos de contenido multimedia también contienen la información de eventos del usuario que permite que Agent Search personalice las recomendaciones y la búsqueda para tus usuarios. Se requieren eventos de usuario para las apps de medios. Para obtener información sobre los eventos de usuario, consulta Registra eventos de usuarios en tiempo real.

¿Qué sigue?

Datos no estructurados

Un almacén de datos no estructurados permite la búsqueda semántica en datos como documentos e imágenes.

Los almacenes de datos no estructurados admiten documentos en formatos TXT, PDF, HTML, DOCX, PPTX, XLSX y XLSM.

La búsqueda proporciona resultados en forma de 10 URLs y respuestas resumidas para consultas en lenguaje natural. Los documentos se deben subir a un bucket de Cloud Storage con los permisos de acceso adecuados. Por ejemplo, una institución financiera puede habilitar la búsqueda en su corpus privado de publicaciones de investigación financiera, o una empresa de biotecnología puede habilitar la búsqueda o las recomendaciones en su repositorio privado de investigación médica.

¿Qué sigue?

Para la búsqueda:

Datos de FHIR de atención médica

Una app de búsqueda de atención médica usa datos de FHIR R4 importados de un almacén de FHIR de la API de Cloud Healthcare. Para obtener una lista de los recursos R4 de FHIR que Agent Search admite, consulta la referencia del esquema de datos de FHIR R4 de atención médica. Un almacén de datos de FHIR R4 debe cumplir con algunos requisitos antes de que pueda utilizarse como fuente de datos para el almacén de datos de Agent Search. Para obtener más información, consulta cómo preparar datos de FHIR de atención médica para la transferencia.

¿Qué sigue?

Acerca de la búsqueda combinada

Puedes crear una app de búsqueda combinada, en la que se pueden conectar varios almacenes de datos a una sola app de búsqueda personalizada. Esta función te permite usar una app para buscar en varias fuentes y tipos de datos.

Para crear una app de búsqueda combinada, selecciona varios almacenes de datos cuando crees una nueva app de búsqueda personalizada. Si no seleccionas varios almacenes de datos durante la creación, no podrás agregar almacenes de datos adicionales más adelante.

Cuando obtengas resultados de la búsqueda, puedes buscar en todos los almacenes de datos o filtrar los resultados de un solo almacén de datos.

Se aplica la siguiente limitación:

  • Agregar y quitar almacenes de datos:
    • Para activar la búsqueda combinada en una app, debes conectarle al menos dos almacenes de datos durante la creación de la app.
    • Puedes agregar o quitar almacenes de datos de una app de búsqueda combinada, pero la app no puede tener menos de dos almacenes de datos conectados en ningún momento.
    • Si conectas un solo almacén de datos a una app de búsqueda durante la creación de la app, no podrás agregar ni quitar ese almacén de datos.
  • Los almacenes de datos de sitios web deben tener activada la indexación avanzada de sitios web para poder usarse en la búsqueda combinada. Para obtener más información, consulta Indexación avanzada de sitios web.
  • No se admiten los almacenes de datos que contienen datos no estructurados importados con BigQuery.
  • No se admite la búsqueda con imágenes (con el params campo con searchType: 1).
  • La búsqueda combinada permite los siguientes campos en las solicitudes de búsqueda:
    • boostSpec
    • contentSearchSpec
    • dataStoreSpecs
    • facetSpecs
    • filter
    • languageCode
    • offset
    • oneBoxPageSize
    • orderBy
    • query
    • pageSize
    • pageToken
    • relevanceScoreSpec
    • relevanceThreshold
    • session
    • sessionSpec
    • spellCorrectionSpec
    • userInfo
    • userPseudoId
  • La búsqueda combinada permite los siguientes campos en DataStoreSpec:
    • dataStore
    • boostSpec: Si se especifican especificaciones de aumento para SearchRequest y dataStoreSpecs, ambas especificaciones de aumento se aplican a los resultados de la búsqueda.
    • filter: Si se especifican filtros para SearchRequest y dataStoreSpecs, ambos filtros se aplican a los resultados de la búsqueda.
  • Se admiten las operaciones de creación, lectura, actualización y eliminación (CRUD) en las configuraciones de publicación para las apps combinadas. Solo se pueden agregar o actualizar los siguientes campos en una configuración de publicación:
    • boostControlIds
    • displayName
    • filterControlIds
    • genericConfig:
      • contentSearchSpec
    • name
    • solutionType
    • synonymsControlIds
  • Se admiten las operaciones CRUD en los siguientes controles para las apps de búsqueda combinada:
    • boostAction
    • synonymAction
    • filterAction
  • Hay un límite de 50 almacenes de datos por app de búsqueda.
  • Si un almacén de datos usa una configuración de CMEK, todos los demás almacenes de datos también deben usar la misma configuración de CMEK.