Ferramenta de repositório de dados do Cloud Storage

Essa ferramenta é usada para pesquisar e recuperar informações de documentos não estruturados ou conteúdo de perguntas frequentes conectando-se a um repositório de dados preenchido com seus próprios arquivos.

Ao criar a ferramenta, você informa:

  • Nome: um nome descritivo que ajuda a IA a entender a função da ferramenta. Os nomes precisam começar com um verbo (por exemplo, search_internal_docs ou query_product_manuals).
  • Descrição: (opcional) uma explicação sobre o que a ferramenta faz e quando a IA deve usá-la. Isso ajuda o modelo a decidir se esse repositório de dados específico contém a resposta para um comando do usuário.
  • Resposta da ferramenta de simulação: uma configuração opcional usada para simular a saída da ferramenta para fins de teste antes que os dados sejam totalmente indexados.
  • Local: a região em que o repositório de dados está hospedado (por exemplo, global).
  • Tipo de dados: o formato do conteúdo que você está importando:

    • Dados não estruturados: ideal para documentos como PDFs, arquivos HTML ou arquivos de texto.
    • Perguntas frequentes: ideal para pares de perguntas e respostas estruturadas.
  • Selecionar uma pasta ou um arquivo: o caminho para seus dados no Google Cloud Storage (gs://*). Você pode importar um único Arquivo ou uma Pasta inteira.

  • Frequência de sincronização: com que frequência a ferramenta verifica se há atualizações nos seus arquivos de origem.

    • Única: uma única importação dos dados atuais.
    • Periódica: atualiza automaticamente o repositório de dados quando os arquivos de origem mudam. Essa configuração não pode ser alterada após a criação.

Repositório de dados de perguntas frequentes

Os repositórios de dados de perguntas frequentes podem conter respostas para perguntas frequentes. Quando as perguntas do usuário são correspondidas com alta confiança a uma pergunta enviada, o agente retorna a resposta sem modificação. Você pode fornecer um título e um URL para cada par de pergunta e resposta que é exibido pelo agente.

Os dados precisam ser enviados para o repositório de dados no formato CSV. Cada arquivo precisa ter uma linha de cabeçalho descrevendo as colunas.

Exemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

As colunas title e url são opcionais e podem ser omitidas:

"answer","question"
"42","What is the meaning of life?"

Durante o processo de upload, você pode selecionar uma pasta em que cada arquivo é tratado como um arquivo CSV, independente da extensão.

Limitações:

  • Um caractere de espaço extra após , causa um erro.
  • Linhas em branco (mesmo no final do arquivo) causam um erro.

Repositório de dados não estruturados

Os repositórios de dados não estruturados podem conter conteúdo nos seguintes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

É possível (mas incomum) importar arquivos do bucket do Cloud Storage de outro projeto. Para isso, conceda acesso explícito ao processo de importação. Siga as instruções na mensagem de erro, que vai conter o nome do usuário que precisa de acesso de leitura ao bucket para realizar a importação.

Limitações:

  • O tamanho máximo do arquivo é de 2,5 MB para formatos baseados em texto e 100 MB para outros formatos.

Consulte também Importar do Cloud Storage.