Herramienta de almacén de datos de Cloud Storage

Esta herramienta se usa para buscar y recuperar información de documentos no estructurados o contenido de preguntas frecuentes conectándose a un almacén de datos que se completa con tus propios archivos.

Cuando creas la herramienta por primera vez, debes proporcionar lo siguiente:

  • Nombre: Es un nombre descriptivo que ayuda a la IA a comprender la tarea de la herramienta. Los nombres deben comenzar con un verbo (por ejemplo, search_internal_docs o query_product_manuals).
  • Descripción: (Opcional) Es una explicación de lo que hace la herramienta y cuándo la IA debería usarla. Esto ayuda al modelo a decidir si este almacén de datos específico contiene la respuesta a la instrucción del usuario.
  • Respuesta de herramienta simulada: Es un parámetro de configuración opcional que se usa para simular el resultado de la herramienta con fines de prueba antes de que los datos se indexen por completo.
  • Ubicación: Es la región en la que se aloja el almacén de datos (por ejemplo, global).
  • Tipo de datos: Es el formato del contenido que importas:

    • Datos no estructurados: Son ideales para documentos como archivos PDF, archivos HTML o archivos de texto.
    • Preguntas frecuentes: Es la mejor opción para pares de preguntas y respuestas estructurados.
  • Selecciona una carpeta o un archivo: Es la ruta de acceso a tus datos en Google Cloud Storage (gs://*). Puedes importar un solo Archivo o una Carpeta completa.

  • Frecuencia de sincronización: Indica con qué frecuencia la herramienta busca actualizaciones en tus archivos fuente.

    • Única: Es una sola importación de los datos actuales.
    • Periódico: Actualiza automáticamente el almacén de datos cuando cambian los archivos fuente (este parámetro de configuración no se puede cambiar después de la creación).

Almacén de datos de preguntas frecuentes

Los almacenes de datos de preguntas frecuentes pueden contener respuestas a preguntas frecuentes. Cuando las preguntas de los usuarios coinciden con un alto nivel de confianza con una pregunta subida, el agente devuelve la respuesta a esa pregunta sin ninguna modificación. Puedes proporcionar un título y una URL para cada par de preguntas y respuestas que muestre el agente.

Los datos se deben subir al almacén de datos en formato CSV. Cada archivo debe tener una fila de encabezado que describa las columnas.

Por ejemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Las columnas title y url son opcionales y se pueden omitir:

"answer","question"
"42","What is the meaning of life?"

Durante el proceso de carga, puedes seleccionar una carpeta en la que cada archivo se trate como un archivo CSV, independientemente de la extensión.

Limitaciones:

  • Un carácter de espacio adicional después de , causa un error.
  • Las líneas en blanco (incluso al final del archivo) provocan un error.

Almacén de datos no estructurados

Los almacenes de datos no estructurados pueden contener contenido en los siguientes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

Es posible (aunque poco común) importar archivos desde el bucket de Cloud Storage de otro proyecto. Para ello, debes otorgar acceso explícito al proceso de importación. Sigue las instrucciones del mensaje de error, que contendrá el nombre del usuario que necesita acceso de lectura al bucket para realizar la importación.

Limitaciones:

  • El tamaño máximo del archivo es de 2.5 MB para los formatos basados en texto y de 100 MB para otros formatos.

También consulta Importar desde Cloud Storage.