Almacenes de datos

Los almacenes de datos se usan con herramientas de almacenes de datos para encontrar respuestas a las preguntas de los usuarios finales a partir de tus datos. Los almacenes de datos son un conjunto de sitios web, documentos o datos en sistemas de terceros, cada uno de los cuales hace referencia a tus datos.

Cuando un usuario final le hace una pregunta al agente, este busca una respuesta en el contenido de la fuente determinado y resume los hallazgos en una respuesta coherente. También se proporcionan vínculos de respaldo a las fuentes de la respuesta para que el usuario final pueda obtener más información. El agente puede proporcionar hasta cinco fragmentos de respuesta para una pregunta determinada.

Fuentes de almacén de datos

Existen diferentes fuentes que puedes proporcionar para tus datos:

  • URLs de sitios web: Rastrea automáticamente el contenido de sitios web desde una lista de dominios o páginas web.
  • BigQuery: Importar datos desde tu tabla de BigQuery.
  • Cloud Storage: Importar datos desde tu bucket de Cloud Storage.
  • AlloyDB: Importa datos desde tu clúster de AlloyDB.
  • Bigtable: Importa datos desde una tabla de Bigtable.
  • Firestore: Importa datos desde tu colección de Firestore.
  • Cloud SQL: Importa datos desde una tabla de Cloud SQL.
  • Spanner: Importa datos desde una tabla de Spanner.

Fuentes de almacén de datos con acceso restringido

Google ofrece muchas fuentes de almacén de datos adicionales de origen y de terceros como una función de acceso restringido. Para ver una lista de las fuentes disponibles y solicitar acceso, consulta la sección Fuentes de almacén de datos adicionales en esta página.

Contenido de sitios web

Cuando agregas contenido de sitios web como fuente, puedes agregar y excluir varios sitios. Cuando especificas un sitio, puedes usar páginas individuales o * como comodín para un patrón. Se procesará todo el contenido HTML y PDF.

Debes verificar tu dominio cuando uses contenido de sitios web como fuente.

Limitaciones:

  • Para que los archivos de las URLs públicas existan en el índice de búsqueda, el indexador de Búsqueda de Google debe haberlos rastreado. Puedes verificar esto con el Google Search Console.
  • Se indexa un máximo de 200,000 páginas. Si el almacén de datos contiene más páginas, la indexación fallará en ese punto. Se conservará todo el contenido ya indexado.

Importar datos

Puedes importar tus datos desde BigQuery o Cloud Storage. Estos datos pueden estar en formato de preguntas frecuentes o no estructurados, y pueden tener metadatos o no.

Las siguientes Opciones de importación de datos están disponibles:

  • Agregar o actualizar datos: Los documentos proporcionados se agregan al almacén de datos. Si un documento nuevo tiene el mismo ID que un documento anterior, el nuevo reemplaza al anterior.
  • Anular datos existentes: Se borran todos los datos anteriores y, luego, se suben los datos nuevos. Esta acción es irreversible.

Almacén de datos de preguntas frecuentes

Los almacenes de datos de preguntas frecuentes pueden contener respuestas a preguntas frecuentes. Cuando las preguntas de los usuarios coinciden con un alto nivel de confianza con una pregunta subida, el agente muestra la respuesta a esa pregunta sin ninguna modificación. Puedes proporcionar un título y una URL para cada par de pregunta y respuesta que muestra el agente.

Los datos deben subirse al almacén de datos en formato CSV. Cada archivo debe tener una fila de encabezado que describa las columnas.

Por ejemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Las columnas title y url son opcionales y se pueden omitir:

"answer","question"
"42","What is the meaning of life?"

Durante el proceso de carga, puedes seleccionar una carpeta en la que cada archivo se trate como un archivo CSV, independientemente de la extensión.

Limitaciones:

  • Un carácter de espacio adicional después de , provoca un error.
  • Las líneas en blanco (incluso al final del archivo) provocan un error.

Almacén de datos no estructurados

Los almacenes de datos no estructurados pueden contener contenido en los siguientes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

Es posible (aunque poco común) importar archivos desde el bucket de Cloud Storage de otro proyecto. Para ello, debes otorgar acceso explícito al proceso de importación. Sigue las instrucciones del mensaje de error, que contendrá el nombre del usuario que necesita acceso de lectura al bucket para realizar la importación.

Limitaciones:

  • El tamaño máximo del archivo es de 2.5 MB para los formatos basados en texto y de 100 MB para otros formatos.

Almacén de datos con metadatos

Se puede proporcionar un título y una URL como metadatos. Cuando el agente está en una conversación con un usuario, puede proporcionarle esta información. Esto puede ayudar a los usuarios a vincularse rápidamente a páginas web internas a las que no puede acceder el indexador de Búsqueda de Google.

Para importar contenido con metadatos, debes proporcionar uno o más archivos de líneas JSON. Cada línea de este archivo describe un documento. No subes directamente los documentos reales; se proporcionan URIs que se vinculan a las rutas de Cloud Storage en el archivo de líneas JSON.

Para proporcionar tus archivos de líneas JSON, debes proporcionar una carpeta de Cloud Storage que contenga estos archivos. No coloques ningún otro archivo en esta carpeta.

Descripciones de los campos:

Campo Tipo Descripción
id string Identificador único del documento
content.mimeType string Tipo de MIME del documento Se admiten "application/pdf" y "text/html".
content.uri string URI del documento en Cloud Storage
structData string Objeto JSON de una sola línea con campos title y url opcionales

Por ejemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Almacén de datos sin metadatos

Este tipo de contenido no tiene metadatos. En cambio, proporcionas vínculos de URI a los documentos individuales. El tipo de contenido se determina según la extensión del archivo.

Configuración de análisis y fragmentación

Según la fuente de datos, es posible que puedas configurar los parámetros de análisis y fragmentación según lo define Vertex AI Search.

Usa Cloud Storage para un documento de almacén de datos

Si el contenido no es público, se recomienda almacenarlo en Cloud Storage. Cuando creas documentos de almacén de datos, proporcionas las URLs para tus objetos de Cloud Storage en el siguiente formato: gs://bucket-name/folder-name. Cada documento dentro de la carpeta se agrega al almacén de datos.

Haz lo siguiente cuando crees un bucket de Cloud Storage:

Sigue las instrucciones de la guía de inicio rápido de Cloud Storage para crear un bucket y subir archivos.

Idiomas

Para obtener información sobre los idiomas admitidos, consulta la columna del almacén de datos en la referencia de idiomas.

Para obtener el mejor rendimiento, se recomienda que los almacenes de datos se creen en un solo idioma.

Después de crear un almacén de datos, puedes especificar el idioma del almacén de datos de forma opcional. Si configuras el idioma del almacén de datos, puedes conectarlo a un agente configurado para un idioma diferente. Por ejemplo, puedes crear un almacén de datos en francés que esté conectado a un agente en inglés.

Regiones admitidas

Para obtener información sobre las regiones admitidas, consulta la referencia de regiones.

(Acceso restringido) Fuentes de almacén de datos adicionales

En la siguiente tabla, se enumeran los tipos de almacén de datos adicionales. Están disponibles como funciones de acceso restringido. Puedes completar el formulario de inclusión en la lista de entidades permitidas para solicitar acceso. Una vez que se apruebe, podrás ver estas opciones cuando crees un almacén de datos nuevo en Vertex AI Agent Builder.

Fuentes de almacén de datos de terceros

Fuente del almacén de datos Descripción
Box Importa datos desde el sitio de Box de tu organización.
Confluence Cloud Importa datos desde tu espacio de trabajo de Confluence Cloud.
Dropbox Importa datos desde tu almacenamiento de Dropbox.
EntraID Importa datos desde el sistema EntraID de tu organización.
Jira Cloud Importa datos desde tu sistema de administración de tareas de Jira.
OneDrive Importa datos desde el almacenamiento de OneDrive de tu organización.
Microsoft Outlook Importa datos desde Microsoft Outlook.
Salesforce Importa datos desde Salesforce.
ServiceNow Importa datos desde ServiceNow.
SharePoint Importa datos desde el sistema SharePoint de tu organización.
Slack Importa datos desde Slack.
Microsoft Teams Importa datos desde Microsoft Teams.

Configura un almacén de datos de terceros con un conector

En esta sección, se describe el proceso para configurar un almacén de datos con datos de terceros. Las instrucciones específicas para cada fuente de datos de terceros se pueden encontrar en la documentación de IA generativa.

Proveedores de identidades

Los proveedores de identidades te permiten administrar usuarios, grupos y autenticación. Cuando configuras un almacén de datos de terceros, tienes la opción de usar un proveedor de identidad de Google o un proveedor de identidad de terceros.

Proveedor de identidad de Google:

  • Todos los usuarios del agente deben acceder con sus credenciales de Google. Puede ser cualquier dirección de correo electrónico @gmail.com o cualquier cuenta que use Google como proveedor de identidad (por ejemplo, Google Workspace). Se omite este paso si los usuarios hablan con el agente directamente, ya que la identidad de Google se compila automáticamente en el sistema. Google Cloud
  • Puedes asignar acceso a las cuentas de Google con IAM.

Proveedor de identidad de terceros:

  • Los usuarios del agente acceden con credenciales que no son de Google, por ejemplo, una dirección de correo electrónico de Microsoft.
  • Debes crear un grupo de trabajadores con Google Cloud que contenga los proveedores de identidad que no son de Google. Luego, puedes usar IAM para otorgar acceso a todo el grupo o a usuarios individuales dentro de ese grupo.
  • Este método no se puede usar con ningún Google Cloud proyecto configurado en la @google.com organización.

Conectores

Los almacenes de datos de terceros se implementan con un conector. Cada conector puede contener varios almacenes de datos, que se almacenan como entidades en el sistema Dialogflow CX.

Nota: Solo admitimos cuentas de usuario para la autenticación; las cuentas de servicio no son compatibles con los conectores.

  • Antes de crear un almacén de datos, debes configurar cada región con un solo proveedor de identidad en Google Cloud -> Agent Builder -> Configuración. Todos los almacenes de datos de esa región usarán el mismo proveedor de identidad. Puedes elegir una identidad de Google o una identidad de terceros en un grupo de trabajadores. La misma credencial de Google se considera una identidad diferente si está en un grupo de trabajadores. Por ejemplo, test@gmail.com se considera una identidad diferente de workforcePools/test-pool/subject/test@gmail.com.

    • Crea un grupo de trabajadores (si es necesario).
    • Ve a Agent Builder Configuración y selecciona Identidad de Google o Identidad de terceros. Haz clic en GUARDAR para guardar la identidad en la región.
    • Ahora puedes crear un almacén de datos en la región.
  • Cada almacén de datos guarda los datos de la lista de control de acceso (ACL) con cada documento. Este es un registro de qué usuarios o grupos tienen acceso de lectura a qué entidades. Durante el tiempo de ejecución, un usuario o miembro del grupo solo recibirá respuestas del agente que provengan de entidades a las que tenga acceso de lectura. Si un usuario no tiene acceso de lectura a ninguna entidad en el almacén de datos, el agente mostrará una respuesta vacía.

  • Debido a que los datos del almacén de datos son una copia de la instancia de terceros, deben actualizarse periódicamente. Puedes configurar los intervalos de actualización en una escala de tiempo de horas o días.

  • Después de configurar tu almacén de datos y hacer clic en Crear, es posible que tarde hasta una hora en aparecer en la lista de almacenes de datos.

Seguimiento del almacén de datos

Esta función incluye dos partes:

  1. Visualización de los seguimientos de ejecución internos del almacén de datos y las latencias de los pasos en el simulador de agentes
  2. Exportación de datos de seguimiento y latencia a Cloud Logging y BigQuery

Visualiza datos en el simulador

Para mostrar los datos de seguimiento y ejecución en los datos del agente, expande los detalles sobre un turno de conversación haciendo clic en el signo de expansión a la derecha de la respuesta del agente.

En la pestaña Ejecución , se muestran los seguimientos de ejecución internos del almacén de datos, incluida la siguiente información:

  • La entrada original del usuario
  • La consulta tal como la reescribió el motor del almacén de datos
  • Los indicadores de calidad durante varios pasos de ejecución, incluido el estado de la verificación de seguridad, el estado de la verificación de estabilidad, el resultado de la verificación de fundamentación y el estado de la verificación de seguridad
  • Fragmentos de búsqueda de la búsqueda del almacén de datos
  • La lista de documentos de respaldo de los que se obtuvieron los fragmentos

En la pestaña Latencia , se muestra un gráfico de tiempo para varios pasos de ejecución del almacén de datos. La lista de pasos puede variar según la configuración del almacén de datos y el flujo de ejecución. Los datos que se muestran pueden incluir lo siguiente:

  • Coincidencia de preguntas frecuentes: El almacén de datos realizó un paso de coincidencia de preguntas frecuentes.
  • Reescritura de consultas: El almacén de datos reescribió la consulta original del usuario.
  • Búsqueda: El almacén de datos realizó una búsqueda de fragmentos.
  • Resumen: El almacén de datos resumió la respuesta.
  • Verificaciones de seguridad: El almacén de datos realizó pasos de verificación de seguridad.

Visualiza datos de seguimiento en otras ubicaciones

¿Qué sigue?

Para obtener instrucciones sobre cómo crear un almacén de datos y usarlo con un agente, consulta la documentación de las herramientas de almacenes de datos.