Herramientas de almacén de datos de sitios web

Esta herramienta se usa para buscar y recuperar información de sitios web específicos conectándose a un almacén de datos.

Cuando creas la herramienta por primera vez, debes proporcionar lo siguiente:

  • Nombre: Es un nombre descriptivo que ayuda a la IA a comprender la tarea de la herramienta. Los nombres deben comenzar con un verbo (por ejemplo, search_knowledge_base).

  • Descripción: (Opcional) Es una explicación de lo que hace la herramienta y cuándo la IA debería usarla.

  • Ubicación: Es la región en la que se aloja el almacén de datos (por ejemplo, global).

  • Respuesta de herramienta simulada: Es un parámetro de configuración opcional que se usa para simular el resultado de la herramienta con fines de prueba antes de que los datos se indexen por completo.

  • Sitios para incluir: Es una lista de URLs para indexar. Usa yoursite.com/* para indexar un sitio completo o yoursite.com/page/* para indexar una página específica.

  • Sitios para excluir: Son URLs o patrones específicos que la herramienta debe ignorar.

Limitaciones:

  • Debes verificar tu dominio cuando uses contenido del sitio web como fuente.
  • Para que los archivos de las URLs públicas existan en el índice de búsqueda, el indexador de la Búsqueda de Google debe haberlos rastreado. Puedes verificar esto con Google Search Console.
  • Se indexa un máximo de 200,000 páginas. Si el almacén de datos contiene más páginas, la indexación fallará en ese punto. Se conservará el contenido que ya se haya indexado.

Consulta también Crea un almacén de datos con contenido de sitios web.