Os repositórios de dados são usados por ferramentas de repositório de dados para encontrar respostas para perguntas do usuário final com base nos seus dados. Os repositórios de dados são uma coleção de sites, documentos ou dados em sistemas de terceiros, cada um deles referenciando seus dados.
Quando um usuário final faz uma pergunta ao agente, ele procura uma resposta no conteúdo da fonte e resume as descobertas em uma resposta coerente. Além disso, disponibiliza links de apoio das fontes da resposta para que o usuário final saiba mais. O agente pode fornecer até cinco snippets de resposta para uma determinada pergunta.
Fontes de repositório de dados
É possível usar diferentes fontes para seus dados:
- URLs de sites:rastreie automaticamente o conteúdo de sites de uma lista de domínios ou páginas da Web.
- BigQuery:importe dados da sua tabela do BigQuery.
- Cloud Storage: Importar dados do seu bucket do Cloud Storage.
- AlloyDB: importe dados do seu AlloyDB para PostgreSQL cluster.
- Bigtable:importe dados de uma tabela do Bigtable.
- Firestore:importe dados da sua coleção do Firestore.
- Cloud SQL:importe dados de uma tabela do Cloud SQL.
- Spanner:importe dados de uma tabela do Spanner.
Fontes de repositório de dados de acesso restrito
O Google oferece muitas outras fontes de repositório de dados próprias e de terceiros como um recurso de acesso restrito. Para conferir as fontes disponíveis e solicitar acesso, consulte Outras fontes de repositório de dados.
Conteúdo do site
Ao adicionar conteúdo do site como uma fonte, é possível incluir e excluir vários sites.
Ao especificar um site, você pode usar páginas individuais ou * como um caractere curinga para um padrão. Todo o conteúdo HTML e PDF será processado.
É necessário verificar seu domínio ao usar o conteúdo do site como uma fonte.
Limitações:
- Os arquivos de URLs públicos precisam ter sido rastreados pelo indexador da Pesquisa Google para aparecerem no índice de pesquisa. Verifique isso com o Google Search Console.
- Até 200.000 páginas são indexadas. Se o repositório de dados contiver mais páginas, a indexação falhará nesse ponto, mas qualquer conteúdo já indexado permanecerá.
Importar dados
É possível importar dados do BigQuery ou do Cloud Storage. Esses dados podem estar no formato de perguntas frequentes ou não estruturados, e podem ter metadados ou não ter metadados.
As seguintes Opções de importação de dados estão disponíveis:
- Adicionar/atualizar dados:adiciona os documentos fornecidos ao repositório de dados. Se um novo documento tiver o mesmo ID de um documento atual, o novo documento substituirá o antigo.
- Substituir dados atuais:exclui todos os dados atuais e faz o upload de novos dados. Essa ação é irreversível.
Repositório de dados de perguntas frequentes
Os repositórios de dados podem conter respostas para perguntas frequentes. Quando as perguntas do usuário são correspondidas com alta confiança a uma pergunta enviada, o agente retorna a resposta a essa pergunta sem modificação. É possível fornecer um título e um URL para cada par de perguntas e respostas que o agente exibe.
Faça o upload dos dados para o repositório de dados no formato CSV. Cada arquivo precisa incluir uma linha de cabeçalho que descreva as colunas.
Exemplo:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
É possível omitir as colunas title e url:
"answer","question"
"42","What is the meaning of life?"
Durante o processo de upload, é possível selecionar uma pasta em que cada arquivo é processado como um arquivo CSV, independentemente da extensão do arquivo.
Limitações:
- Um caractere de espaço extra após
,causa um erro. - Linhas em branco (mesmo no final do arquivo) causam um erro.
Repositório de dados não estruturados
Os repositórios de dados não estruturados podem conter conteúdo nos seguintes formatos:
HTMLPDFTXTCSV
É possível importar arquivos do bucket do Cloud Storage de outro projeto. Para fazer isso, conceda acesso explícito ao processo de importação. Siga as instruções na mensagem de erro, que vai conter o nome do usuário que precisa de acesso de leitura ao bucket para realizar a importação.
Limitações:
- O tamanho máximo do arquivo é de 2,5 MB para formatos baseados em texto e de 100 MB para outros formatos.
Repositório de dados com metadados
É possível fornecer um título e URL como metadados. Durante uma conversa, o agente pode fornecer essas informações para ajudar os usuários a criar links rapidamente para páginas da Web internas que não são acessíveis pelo indexador da Pesquisa Google.
Para importar conteúdo com metadados, é necessário fornecer um ou mais
arquivos JSON Lines. Cada linha desse arquivo descreve um documento. Não é possível fazer o upload dos documentos reais diretamente. Os URIs que se vinculam aos caminhos do Cloud Storage são fornecidos no arquivo JSON Lines.
Para fornecer seus arquivos JSON Lines, forneça uma pasta do Cloud Storage que contenha esses arquivos. Não coloque outros arquivos nessa pasta.
Descrições de campo:
| Campo | Tipo | Descrição |
|---|---|---|
| ID | string | Identificador exclusivo do documento. |
| content.mimeType | string | Tipo MIME do documento. "application/pdf" e "text/html" são aceitos. |
| content.uri | string | URI do documento no Cloud Storage. |
| structData | string | Objeto JSON de linha única com campos title e url opcionais. |
Exemplo:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Repositório de dados sem metadados
Esse tipo de conteúdo não tem metadados. Em vez disso, você fornece links de URI para os documentos individuais. O tipo de conteúdo é determinado pela extensão do arquivo.
Configuração de análise e divisão
Dependendo da fonte de dados, é possível configurar as definições de análise e divisão conforme definido pela Pesquisa do agente.
Usar o Cloud Storage para um documento de repositório de dados
Se seu conteúdo não for público, armazená-lo no Cloud Storage
é a opção recomendada. Ao criar documentos de repositório de dados, você deve fornecer os URLs dos seus objetos do Cloud Storage no formato: gs://bucket-name/folder-name. Cada documento na pasta é adicionado ao repositório de dados.
Ao criar o bucket do Cloud Storage:
- Selecione o projeto que você usa para o agente.
- Use a classe de armazenamento padrão.
- Defina o local do bucket como o mesmo local que seu agente.
Siga o guia de início rápido do Cloud Storage para criar um bucket e fazer o upload de arquivos.
Idiomas
Para conferir os idiomas aceitos, consulte a coluna do repositório de dados na referência de idiomas.
Para melhor desempenho, crie repositórios de dados em um único idioma.
Depois de criar um repositório de dados, é possível especificar o idioma dele. Se você definir o idioma do repositório de dados, poderá conectar o repositório a um agente configurado para um idioma diferente. Por exemplo, é possível criar um repositório de dados em francês conectado a um agente em inglês.
Regiões compatíveis
Para informações sobre regiões com suporte, consulte a referência de regiões.
(Acesso restrito) Outras fontes de repositório de dados
Outros tipos de repositório de dados estão listados na tabela a seguir. Eles estão disponíveis como recursos de acesso restrito. Preencha o formulário de solicitação de acesso para solicitar acesso. Depois de aprovado, você poderá conferir essas opções ao criar um repositório de dados no Vertex AI Agent Builder.
Fontes de repositório de dados de terceiros
| Fonte do repositório de dados | Descrição |
|---|---|
| Box | Importe dados do site do Box da sua organização. |
| Confluence Cloud | Importe dados do seu espaço de trabalho do Confluence Cloud. |
| Dropbox | Importe dados do seu armazenamento do Dropbox. |
| EntraID | Importe dados do sistema EntraID da sua organização. |
| Jira Cloud | Importe dados do seu sistema de gerenciamento de tarefas do Jira. |
| OneDrive | Importe dados do armazenamento do OneDrive da sua organização. |
| Microsoft Outlook | Importe dados do Microsoft Outlook. |
| Salesforce | Importe dados do Salesforce. |
| ServiceNow | Importe dados do ServiceNow. |
| SharePoint | Importe dados do sistema SharePoint da sua organização. |
| Slack | Importe dados do Slack. |
| Microsoft Teams | Importe dados do Microsoft Teams. |
Configurar um repositório de dados de terceiros usando um conector
Esta seção descreve o processo de configuração de um repositório de dados usando dados de terceiros. Para instruções específicas de cada fonte de dados de terceiros, consulte a documentação do Criador de aplicativos de IA generativa.
Provedores de identidade
Os provedores de identidade permitem gerenciar usuários, grupos e autenticação. Ao configurar um repositório de dados de terceiros, é possível usar um provedor de identidade do Google ou um provedor de identidade de terceiros.
Provedor de identidade do Google :
- Os usuários do agente fazem login usando as credenciais do Google. Esse é qualquer endereço de e-mail
@gmail.comou qualquer conta que use o Google como provedor de identidade (por exemplo, o Google Workspace). Essa etapa é ignorada se os usuários conversarem com o agente usando Google Cloud diretamente, porque a identidade do Google é criada automaticamente no sistema. - É possível atribuir acesso a contas do Google usando o Identity and Access Management (IAM).
Provedor de identidade de terceiros :
- Os usuários do agente fazem login usando credenciais que não são do Google, por exemplo, um endereço de e-mail da Microsoft.
- É necessário criar um pool de força de trabalho usando Google Cloud os provedores de identidade que não são do Google. Em seguida, é possível usar IAM para conceder acesso a todo o pool ou a usuários individuais dentro desse pool.
- Esse método não pode ser usado com nenhum Google Cloud projeto configurado na
organização
@google.com.
Conectores
Os repositórios de dados de terceiros são implementados usando um conector. Cada conector pode conter vários repositórios de dados, que são armazenados como entidades no sistema do Dialogflow CX.
- Antes de criar um repositório de dados, é necessário configurar cada região com um único
provedor de identidade em Google Cloud > Agent Builder > Configurações. Todos os repositórios de dados nessa região usam o mesmo provedor de identidade. É possível escolher uma identidade do Google ou uma identidade de terceiros em um pool de força de trabalho. A mesma credencial do Google é considerada uma identidade diferente se estiver em um pool de força de trabalho.
Por exemplo,
test@gmail.comé considerada uma identidade diferente deworkforcePools/test-pool/subject/test@gmail.com.- Crie um pool de força de trabalho (se necessário).
- Acesse as Configurações do Agent Builder e selecione Identidade do Google ou Identidade de terceiros. Clique em Salvar para salvar a identidade na região.
- Agora é possível criar um repositório de dados na região.
- Cada repositório de dados salva os dados da lista de controle de acesso (ACL) com cada documento. Esse registro acompanha quais usuários ou grupos têm acesso de leitura a quais entidades. Durante a execução, um usuário ou membro do grupo recebe respostas do agente somente se as respostas forem de entidades às quais ele tem acesso de leitura. Se um usuário não tiver acesso de leitura a nenhuma entidade no repositório de dados, o agente retornará uma resposta vazia.
- Como os dados no repositório de dados são uma cópia da instância de terceiros, eles precisam ser atualizados periodicamente. É possível configurar os intervalos de atualização em uma escala de tempo de horas ou dias.
- Depois de configurar o repositório de dados e clicar em Criar, pode levar até uma hora para que o repositório de dados apareça na lista de repositórios de dados.
Rastreamento de repositório de dados
Esse recurso inclui duas partes:
- Exibição dos rastreamentos de execução interna do repositório de dados e latências de etapas no simulador de agente.
- Exportação dos rastreamentos de execução interna do repositório de dados e latências de etapas para o Cloud Logging e o BigQuery.
Conferir dados no simulador
Para exibir dados de rastreamento e execução no simulador de agente, expanda os detalhes sobre uma conversa clicando na seta do expansor à direita da resposta do agente.
A guia execução mostra os rastros de execução do repositório de dados interno, incluindo:
- A entrada original do usuário.
- A consulta reescrita pelo mecanismo do repositório de dados.
- Indicadores de qualidade das etapas de execução, como status de verificação de segurança, status de verificação de estabilidade, resultado da verificação de ancoragem e status de verificação de segurança.
- Snippets de pesquisa da pesquisa do repositório de dados.
- A lista de documentos de apoio para os snippets.
A guia latência mostra um gráfico de tempo para várias etapas de execução do repositório de dados. A lista de etapas varia dependendo de como o repositório de dados está configurado e do fluxo de execução. Os dados exibidos podem incluir o seguinte:
- Correspondência de perguntas frequentes:executa uma etapa de correspondência de perguntas frequentes.
- Reescrita de consulta:reescreve a consulta original do usuário.
- Pesquisa:executa a pesquisa de snippets.
- Resumo:resume a resposta.
- Verificações de segurança:executa etapas de verificação de segurança.
Conferir dados de rastreamento em outros locais
- Se você configurar o agente de conversação com o registro do histórico de conversas, poderá conferir o rastreamento do repositório de dados em Histórico de conversas.
- Se você configurar o agente de conversação com o Logging, poderá conferir rastreamentos e latências na Análise de registros.
- Se você configurar o agente de conversação com a exportação do BigQuery, você poderá conferir rastreamentos e latências em uma tabela exportada do BigQuery.
A seguir
Para saber como criar e usar um repositório de dados com um agente, consulte a documentação das ferramentas de repositório de dados.