Almacenes de datos

Los almacenes de datos se usan con herramientas de almacenes de datos para encontrar respuestas a las preguntas de los usuarios finales a partir de tus datos. Los almacenes de datos son un conjunto de sitios web, documentos o datos en sistemas de terceros, cada uno de los cuales hace referencia a tus datos.

Cuando un usuario final le hace una pregunta al agente, este busca una respuesta en el contenido de la fuente determinado y resume los hallazgos en una respuesta coherente. También se proporcionan vínculos de respaldo a las fuentes de la respuesta para que el usuario final pueda obtener más información. El agente puede proporcionar hasta cinco fragmentos de respuesta para una pregunta determinada.

Fuentes de almacén de datos

Puedes usar diferentes fuentes para tus datos:

Fuentes de almacén de datos con acceso restringido

Google ofrece muchas fuentes de almacén de datos adicionales de origen y de terceros como una función de acceso restringido. Para ver las fuentes disponibles y solicitar acceso, consulta Fuentes de almacén de datos adicionales.

Contenido de sitios web

Cuando agregas contenido de sitios web como fuente, puedes agregar y excluir varios sitios. Cuando especificas un sitio, puedes usar páginas individuales o * como comodín para un patrón. Se procesará todo el contenido HTML y PDF.

Debes verificar tu dominio cuando uses contenido de sitios web como fuente.

Limitaciones:

  • Para que los archivos de las URLs públicas existan en el índice de búsqueda, el indexador de Búsqueda de Google debe haberlos rastreado. Puedes verificar esto con el Google Search Console.
  • Se indexan hasta 200,000 páginas. Si el almacén de datos contiene más páginas, la indexación falla en ese punto, pero se conserva el contenido ya indexado.

Importar datos

Puedes importar datos de BigQuery o Cloud Storage. Estos datos pueden estar en formato de preguntas frecuentes o no estructurados, y pueden tener metadatos o no.

Las siguientes opciones de importación de datos están disponibles:

  • Agregar o actualizar datos: Agrega los documentos proporcionados al almacén de datos. Si un documento nuevo tiene el mismo ID que un documento existente, el documento nuevo reemplaza al anterior.
  • Anular datos existentes: Borra todos los datos existentes y sube datos nuevos. Esta acción es irreversible.

Almacén de datos de preguntas frecuentes

Los almacenes de datos pueden contener respuestas a preguntas frecuentes. Cuando las preguntas de los usuarios coinciden con un alto nivel de confianza con una pregunta subida, el agente muestra la respuesta a esa pregunta sin modificaciones. Puedes proporcionar un título y una URL para cada par de pregunta y respuesta que muestra el agente.

Sube datos al almacén de datos en formato CSV. Cada archivo debe incluir una fila de encabezado que describa las columnas.

Por ejemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Puedes omitir las columnas title y url:

"answer","question"
"42","What is the meaning of life?"

Durante el proceso de carga, puedes seleccionar una carpeta en la que cada archivo se procese como un archivo CSV, independientemente de la extensión del archivo.

Limitaciones:

  • Un carácter de espacio adicional después de , provoca un error.
  • Las líneas en blanco (incluso al final del archivo) provocan un error.

Almacén de datos no estructurados

Los almacenes de datos no estructurados pueden contener contenido en los siguientes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

Puedes importar archivos desde el bucket de Cloud Storage de otro proyecto. Para ello, otorga acceso explícito al proceso de importación. Sigue las instrucciones del mensaje de error, que contendrá el nombre del usuario que necesita acceso de lectura al bucket para realizar la importación.

Limitaciones:

  • El tamaño máximo del archivo es de 2.5 MB para los formatos basados en texto y de 100 MB para otros formatos.

Almacén de datos con metadatos

Puedes proporcionar un título y una URL como metadatos. Durante una conversación, el agente puede proporcionar esta información para ayudar a los usuarios a vincularse rápidamente a páginas web internas a las que no puede acceder el indexador de Búsqueda de Google.

Para importar contenido con metadatos, debes proporcionar uno o más archivos de líneas JSON. Cada línea de este archivo describe un documento. No subes directamente los documentos reales; se proporcionan URIs que se vinculan a las rutas de acceso de Cloud Storage en el archivo de líneas JSON.

Para proporcionar tus archivos de líneas JSON, proporciona una carpeta de Cloud Storage que contenga estos archivos. No coloques ningún otro archivo en esta carpeta.

Descripciones de los campos:

Campo Tipo Descripción
id string Es el identificador único del documento.
content.mimeType string Es el tipo de MIME del documento. Se admiten "application/pdf" y "text/html".
content.uri string Es el URI del documento en Cloud Storage.
structData string Es un objeto JSON de una sola línea con campos title y url opcionales.

Por ejemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Almacén de datos sin metadatos

Este tipo de contenido no tiene metadatos. En cambio, proporcionas vínculos de URI a los documentos individuales. El tipo de contenido se determina según la extensión del archivo.

Configuración de análisis y fragmentación

Según la fuente de datos, puedes configurar los parámetros de análisis y fragmentación según lo define la Búsqueda de agentes.

Usa Cloud Storage para un documento de almacén de datos

Si el contenido no es público, se recomienda almacenarlo en Cloud Storage. Cuando creas documentos de almacén de datos, proporcionas las URLs para tus objetos de Cloud Storage en el siguiente formato: gs://bucket-name/folder-name. Cada documento de la carpeta se agrega al almacén de datos.

Haz lo siguiente cuando crees un bucket de Cloud Storage:

Sigue la guía de inicio rápido de Cloud Storage para crear un bucket y subir archivos.

Idiomas

Para obtener información sobre los idiomas admitidos, consulta la columna de almacén de datos en la referencia de idiomas.

Para obtener el mejor rendimiento, crea almacenes de datos en un solo idioma.

Después de crear un almacén de datos, puedes especificar el idioma del almacén de datos de forma opcional. Si configuras el idioma del almacén de datos, puedes conectar el almacén de datos a un agente configurado para un idioma diferente. Por ejemplo, puedes crear un almacén de datos en francés que esté conectado a un agente en inglés.

Regiones admitidas

Para obtener información sobre las regiones admitidas, consulta la referencia de regiones.

(Acceso restringido) Fuentes de almacén de datos adicionales

En la siguiente tabla, se enumeran los tipos de almacén de datos adicionales. Están disponibles como funciones de acceso restringido. Puedes completar el formulario de solicitud de acceso para solicitar acceso. Una vez que se apruebe, podrás ver estas opciones cuando crees un almacén de datos en Vertex AI Agent Builder.

Fuentes de almacén de datos de terceros

Fuente de almacén de datos Descripción
Box Importa datos desde el sitio de Box de tu organización.
Confluence Cloud Importa datos desde tu espacio de trabajo de Confluence Cloud.
Dropbox Importa datos desde tu almacenamiento de Dropbox.
EntraID Importa datos desde el sistema EntraID de tu organización.
Jira Cloud Importa datos desde tu sistema de administración de tareas de Jira.
OneDrive Importa datos desde el almacenamiento de OneDrive de tu organización.
Microsoft Outlook Importa datos de Microsoft Outlook.
Salesforce Importa datos de Salesforce.
ServiceNow Importa datos de ServiceNow.
SharePoint Importa datos desde el sistema SharePoint de tu organización.
Slack Importa datos de Slack.
Microsoft Teams Importa datos de Microsoft Teams.

Configura un almacén de datos de terceros con un conector

En esta sección, se describe el proceso para configurar un almacén de datos con datos de terceros. Para obtener instrucciones específicas para cada fuente de datos de terceros, consulta la documentación de Generative AI App Builder.

Proveedores de identidades

Los proveedores de identidades te permiten administrar usuarios, grupos y autenticación. Cuando configuras un almacén de datos de terceros, puedes usar un proveedor de identidad de Google o un proveedor de identidad de terceros.

Proveedor de identidad de Google:

  • Los usuarios del agente acceden con sus credenciales de Google. Esta es cualquier dirección de correo electrónico @gmail.com o cualquier cuenta que use Google como proveedor de identidad (por ejemplo, Google Workspace). Se omite este paso si los usuarios hablan con el agente mediante Google Cloud directamente, ya que la identidad de Google se compila automáticamente en el sistema.
  • Puedes asignar acceso a las Cuentas de Google con Identity and Access Management (IAM).

Proveedor de identidad de terceros:

  • Los usuarios del agente acceden con credenciales que no son de Google, por ejemplo, una dirección de correo electrónico de Microsoft.
  • Debes crear un grupo de trabajadores con Google Cloud que contenga los proveedores de identidad que no son de Google. Luego, puedes usar IAM para otorgar acceso a todo el grupo o a usuarios individuales dentro de ese grupo.
  • Este método no se puede usar con ningún Google Cloud proyecto configurado en la @google.com organización.

Conectores

Los almacenes de datos de terceros se implementan con un conector. Cada conector puede contener varios almacenes de datos, que se almacenan como entidades en el sistema de Dialogflow CX.

  • Antes de crear un almacén de datos, debes configurar cada región con un solo proveedor de identidad en Google Cloud > Agent Builder > Configuración. Todos los almacenes de datos de esa región usan el mismo proveedor de identidad. Puedes elegir una identidad de Google o una identidad de terceros en un grupo de trabajadores. La misma credencial de Google se considera una identidad diferente si está en un grupo de trabajadores. Por ejemplo, test@gmail.com se considera una identidad diferente de workforcePools/test-pool/subject/test@gmail.com.
    • Crea un grupo de trabajadores (si es necesario).
    • Ve a Agent Builder Configuración y selecciona Identidad de Google o Identidad de terceros. Haz clic en Guardar para guardar la identidad en la región.
    • Ahora puedes crear un almacén de datos en la región.
  • Cada almacén de datos guarda los datos de la lista de control de acceso (ACL) con cada documento. Este registro hace un seguimiento de qué usuarios o grupos tienen acceso de lectura a qué entidades. Durante el tiempo de ejecución, un usuario o miembro del grupo recibe respuestas del agente solo si las respuestas provienen de entidades a las que tienen acceso de lectura. Si un usuario no tiene acceso de lectura a ninguna entidad en el almacén de datos, el agente muestra una respuesta vacía.
  • Debido a que los datos del almacén de datos son una copia de la instancia de terceros, deben actualizarse periódicamente. Puedes configurar los intervalos de actualización en una escala de tiempo de horas o días.
  • Después de configurar tu almacén de datos y hacer clic en Crear, es posible que el almacén de datos tarde hasta una hora en aparecer en tu lista de almacenes de datos.

Seguimiento del almacén de datos

Esta función incluye dos partes:

  1. Muestra los seguimientos de ejecución internos del almacén de datos y las latencias de los pasos en el simulador de agentes.
  2. Exporta los seguimientos de ejecución internos del almacén de datos y las latencias de los pasos a Cloud Logging y BigQuery.

Visualiza los datos en el simulador

Para mostrar los datos de seguimiento y ejecución en el simulador de agentes, expande los detalles sobre un turno de conversación haciendo clic en la flecha de expansión a la derecha de la respuesta del agente.

En la pestaña Ejecución , se muestran los seguimientos de ejecución internos del almacén de datos, incluidos los siguientes:

  • La entrada original del usuario
  • La consulta tal como la reescribe el motor del almacén de datos
  • Indicadores de calidad de los pasos de ejecución, como el estado de la verificación de seguridad, el estado de la verificación de estabilidad, el resultado de la verificación de fundamentación y el estado de la verificación de seguridad
  • Fragmentos de búsqueda de la búsqueda del almacén de datos
  • La lista de documentos de respaldo para los fragmentos

En la pestaña Latencia , se muestra un gráfico de tiempo para varios pasos de ejecución del almacén de datos. La lista de pasos varía según la configuración del almacén de datos y el flujo de ejecución. Los datos que se muestran pueden incluir lo siguiente:

  • Coincidencia de preguntas frecuentes: Realiza un paso de coincidencia de preguntas frecuentes.
  • Reescritura de consultas: Vuelve a escribir la consulta original del usuario.
  • Búsqueda: Realiza la búsqueda de fragmentos.
  • Resumen: Resume la respuesta.
  • Verificaciones de seguridad: Realiza pasos de verificación de seguridad.

Visualiza los datos de seguimiento en otras ubicaciones

¿Qué sigue?

Para obtener información sobre cómo crear y usar un almacén de datos con un agente, consulta la documentación de las herramientas de almacenes de datos.