Alguns produtos e recursos estão sendo renomeados. Os recursos de playbook generativo e de fluxo também estão sendo migrados para um único console consolidado. Confira os detalhes.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Repositórios de dados

Os repositórios de dados são usados por ferramentas de repositório de dados para encontrar respostas para perguntas do usuário final com base nos seus dados. Os repositórios de dados são uma coleção de sites, documentos ou dados em sistemas de terceiros, cada um deles referenciando seus dados.

Quando um usuário final faz uma pergunta ao agente, ele procura uma resposta no conteúdo da fonte e resume as descobertas em uma resposta coerente. Além disso, disponibiliza links de apoio das fontes da resposta para que o usuário final saiba mais. O agente pode fornecer até cinco snippets de resposta para uma determinada pergunta.

Fontes de repositório de dados

É possível usar diferentes fontes para seus dados:

URLs de sites:rastreie automaticamente o conteúdo de sites de uma lista de domínios ou páginas da Web.
BigQuery:importe dados da sua tabela do BigQuery.
Cloud Storage: Importar dados do seu bucket do Cloud Storage.
AlloyDB: importe dados do seu AlloyDB para PostgreSQL cluster.
Bigtable:importe dados de uma tabela do Bigtable.
Firestore:importe dados da sua coleção do Firestore.
Cloud SQL:importe dados de uma tabela do Cloud SQL.
Spanner:importe dados de uma tabela do Spanner.

Fontes de repositório de dados de acesso restrito

O Google oferece muitas outras fontes de repositório de dados próprias e de terceiros como um recurso de acesso restrito. Para conferir as fontes disponíveis e solicitar acesso, consulte Outras fontes de repositório de dados.

Conteúdo do site

Ao adicionar conteúdo do site como uma fonte, é possível incluir e excluir vários sites. Ao especificar um site, você pode usar páginas individuais ou * como um caractere curinga para um padrão. Todo o conteúdo HTML e PDF será processado.

É necessário verificar seu domínio ao usar o conteúdo do site como uma fonte.

Limitações:

Os arquivos de URLs públicos precisam ter sido rastreados pelo indexador da Pesquisa Google para aparecerem no índice de pesquisa. Verifique isso com o Google Search Console.
Até 200.000 páginas são indexadas. Se o repositório de dados contiver mais páginas, a indexação falhará nesse ponto, mas qualquer conteúdo já indexado permanecerá.

Importar dados

É possível importar dados do BigQuery ou do Cloud Storage. Esses dados podem estar no formato de perguntas frequentes ou não estruturados, e podem ter metadados ou não ter metadados.

As seguintes Opções de importação de dados estão disponíveis:

Adicionar/atualizar dados:adiciona os documentos fornecidos ao repositório de dados. Se um novo documento tiver o mesmo ID de um documento atual, o novo documento substituirá o antigo.
Substituir dados atuais:exclui todos os dados atuais e faz o upload de novos dados. Essa ação é irreversível.

Repositório de dados de perguntas frequentes

Os repositórios de dados podem conter respostas para perguntas frequentes. Quando as perguntas do usuário são correspondidas com alta confiança a uma pergunta enviada, o agente retorna a resposta a essa pergunta sem modificação. É possível fornecer um título e um URL para cada par de perguntas e respostas que o agente exibe.

Faça o upload dos dados para o repositório de dados no formato CSV. Cada arquivo precisa incluir uma linha de cabeçalho que descreva as colunas.

Exemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

É possível omitir as colunas title e url:

"answer","question"
"42","What is the meaning of life?"

Durante o processo de upload, é possível selecionar uma pasta em que cada arquivo é processado como um arquivo CSV, independentemente da extensão do arquivo.

Limitações:

Um caractere de espaço extra após , causa um erro.
Linhas em branco (mesmo no final do arquivo) causam um erro.

Repositório de dados não estruturados

Os repositórios de dados não estruturados podem conter conteúdo nos seguintes formatos:

HTML
PDF
TXT
CSV

É possível importar arquivos do bucket do Cloud Storage de outro projeto. Para fazer isso, conceda acesso explícito ao processo de importação. Siga as instruções na mensagem de erro, que vai conter o nome do usuário que precisa de acesso de leitura ao bucket para realizar a importação.

Limitações:

O tamanho máximo do arquivo é de 2,5 MB para formatos baseados em texto e de 100 MB para outros formatos.

Repositório de dados com metadados

É possível fornecer um título e URL como metadados. Durante uma conversa, o agente pode fornecer essas informações para ajudar os usuários a criar links rapidamente para páginas da Web internas que não são acessíveis pelo indexador da Pesquisa Google.

Para importar conteúdo com metadados, é necessário fornecer um ou mais arquivos JSON Lines. Cada linha desse arquivo descreve um documento. Não é possível fazer o upload dos documentos reais diretamente. Os URIs que se vinculam aos caminhos do Cloud Storage são fornecidos no arquivo JSON Lines.

Para fornecer seus arquivos JSON Lines, forneça uma pasta do Cloud Storage que contenha esses arquivos. Não coloque outros arquivos nessa pasta.

Descrições de campo:

Campo	Tipo	Descrição
ID	string	Identificador exclusivo do documento.
content.mimeType	string	Tipo MIME do documento. "application/pdf" e "text/html" são aceitos.
content.uri	string	URI do documento no Cloud Storage.
structData	string	Objeto JSON de linha única com campos `title` e `url` opcionais.

Exemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Repositório de dados sem metadados

Esse tipo de conteúdo não tem metadados. Em vez disso, você fornece links de URI para os documentos individuais. O tipo de conteúdo é determinado pela extensão do arquivo.

Configuração de análise e divisão

Dependendo da fonte de dados, é possível configurar as definições de análise e divisão conforme definido pela Pesquisa do agente.

Usar o Cloud Storage para um documento de repositório de dados

Se seu conteúdo não for público, armazená-lo no Cloud Storage é a opção recomendada. Ao criar documentos de repositório de dados, você deve fornecer os URLs dos seus objetos do Cloud Storage no formato: gs://bucket-name/folder-name. Cada documento na pasta é adicionado ao repositório de dados.

Ao criar o bucket do Cloud Storage:

Selecione o projeto que você usa para o agente.
Use a classe de armazenamento padrão.
Defina o local do bucket como o mesmo local que seu agente.

Siga o guia de início rápido do Cloud Storage para criar um bucket e fazer o upload de arquivos.

Idiomas

Para conferir os idiomas aceitos, consulte a coluna do repositório de dados na referência de idiomas.

Para melhor desempenho, crie repositórios de dados em um único idioma.

Depois de criar um repositório de dados, é possível especificar o idioma dele. Se você definir o idioma do repositório de dados, poderá conectar o repositório a um agente configurado para um idioma diferente. Por exemplo, é possível criar um repositório de dados em francês conectado a um agente em inglês.

Regiões compatíveis

Para informações sobre regiões com suporte, consulte a referência de regiões.

(Acesso restrito) Outras fontes de repositório de dados

Outros tipos de repositório de dados estão listados na tabela a seguir. Eles estão disponíveis como recursos de acesso restrito. Preencha o formulário de solicitação de acesso para solicitar acesso. Depois de aprovado, você poderá conferir essas opções ao criar um repositório de dados no Vertex AI Agent Builder.

Fontes de repositório de dados de terceiros

Fonte do repositório de dados	Descrição
Box	Importe dados do site do Box da sua organização.
Confluence Cloud	Importe dados do seu espaço de trabalho do Confluence Cloud.
Dropbox	Importe dados do seu armazenamento do Dropbox.
EntraID	Importe dados do sistema EntraID da sua organização.
Jira Cloud	Importe dados do seu sistema de gerenciamento de tarefas do Jira.
OneDrive	Importe dados do armazenamento do OneDrive da sua organização.
Microsoft Outlook	Importe dados do Microsoft Outlook.
Salesforce	Importe dados do Salesforce.
ServiceNow	Importe dados do ServiceNow.
SharePoint	Importe dados do sistema SharePoint da sua organização.
Slack	Importe dados do Slack.
Microsoft Teams	Importe dados do Microsoft Teams.

Configurar um repositório de dados de terceiros usando um conector

Esta seção descreve o processo de configuração de um repositório de dados usando dados de terceiros. Para instruções específicas de cada fonte de dados de terceiros, consulte a documentação do Criador de aplicativos de IA generativa.

Provedores de identidade

Os provedores de identidade permitem gerenciar usuários, grupos e autenticação. Ao configurar um repositório de dados de terceiros, é possível usar um provedor de identidade do Google ou um provedor de identidade de terceiros.

Provedor de identidade do Google :

Os usuários do agente fazem login usando as credenciais do Google. Esse é qualquer endereço de e-mail @gmail.com ou qualquer conta que use o Google como provedor de identidade (por exemplo, o Google Workspace). Essa etapa é ignorada se os usuários conversarem com o agente usando Google Cloud diretamente, porque a identidade do Google é criada automaticamente no sistema.
É possível atribuir acesso a contas do Google usando o Identity and Access Management (IAM).

Provedor de identidade de terceiros :

Os usuários do agente fazem login usando credenciais que não são do Google, por exemplo, um endereço de e-mail da Microsoft.
É necessário criar um pool de força de trabalho usando Google Cloud os provedores de identidade que não são do Google. Em seguida, é possível usar IAM para conceder acesso a todo o pool ou a usuários individuais dentro desse pool.
Esse método não pode ser usado com nenhum Google Cloud projeto configurado na organização @google.com.

Conectores

Os repositórios de dados de terceiros são implementados usando um conector. Cada conector pode conter vários repositórios de dados, que são armazenados como entidades no sistema do Dialogflow CX.

Antes de criar um repositório de dados, é necessário configurar cada região com um único provedor de identidade em Google Cloud > Agent Builder > Configurações. Todos os repositórios de dados nessa região usam o mesmo provedor de identidade. É possível escolher uma identidade do Google ou uma identidade de terceiros em um pool de força de trabalho. A mesma credencial do Google é considerada uma identidade diferente se estiver em um pool de força de trabalho. Por exemplo, test@gmail.com é considerada uma identidade diferente de workforcePools/test-pool/subject/test@gmail.com.
- Crie um pool de força de trabalho (se necessário).
- Acesse as Configurações do Agent Builder e selecione Identidade do Google ou Identidade de terceiros. Clique em Salvar para salvar a identidade na região.
- Agora é possível criar um repositório de dados na região.
Cada repositório de dados salva os dados da lista de controle de acesso (ACL) com cada documento. Esse registro acompanha quais usuários ou grupos têm acesso de leitura a quais entidades. Durante a execução, um usuário ou membro do grupo recebe respostas do agente somente se as respostas forem de entidades às quais ele tem acesso de leitura. Se um usuário não tiver acesso de leitura a nenhuma entidade no repositório de dados, o agente retornará uma resposta vazia.
Como os dados no repositório de dados são uma cópia da instância de terceiros, eles precisam ser atualizados periodicamente. É possível configurar os intervalos de atualização em uma escala de tempo de horas ou dias.
Depois de configurar o repositório de dados e clicar em Criar, pode levar até uma hora para que o repositório de dados apareça na lista de repositórios de dados.

Rastreamento de repositório de dados

Esse recurso inclui duas partes:

Exibição dos rastreamentos de execução interna do repositório de dados e latências de etapas no simulador de agente.
Exportação dos rastreamentos de execução interna do repositório de dados e latências de etapas para o Cloud Logging e o BigQuery.

Conferir dados no simulador

Para exibir dados de rastreamento e execução no simulador de agente, expanda os detalhes sobre uma conversa clicando na seta do expansor à direita da resposta do agente.

A guia execução mostra os rastros de execução do repositório de dados interno, incluindo:

A entrada original do usuário.
A consulta reescrita pelo mecanismo do repositório de dados.
Indicadores de qualidade das etapas de execução, como status de verificação de segurança, status de verificação de estabilidade, resultado da verificação de ancoragem e status de verificação de segurança.
Snippets de pesquisa da pesquisa do repositório de dados.
A lista de documentos de apoio para os snippets.

A guia latência mostra um gráfico de tempo para várias etapas de execução do repositório de dados. A lista de etapas varia dependendo de como o repositório de dados está configurado e do fluxo de execução. Os dados exibidos podem incluir o seguinte:

Correspondência de perguntas frequentes:executa uma etapa de correspondência de perguntas frequentes.
Reescrita de consulta:reescreve a consulta original do usuário.
Pesquisa:executa a pesquisa de snippets.
Resumo:resume a resposta.
Verificações de segurança:executa etapas de verificação de segurança.

Conferir dados de rastreamento em outros locais

Se você configurar o agente de conversação com o registro do histórico de conversas, poderá conferir o rastreamento do repositório de dados em Histórico de conversas.
Se você configurar o agente de conversação com o Logging, poderá conferir rastreamentos e latências na Análise de registros.
Se você configurar o agente de conversação com a exportação do BigQuery, você poderá conferir rastreamentos e latências em uma tabela exportada do BigQuery.

A seguir

Para saber como criar e usar um repositório de dados com um agente, consulte a documentação das ferramentas de repositório de dados.

Avaliações do playbook

Avançar

Ferramentas de repositório de dados

Repositórios de dados Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Fontes de repositório de dados

Fontes de repositório de dados de acesso restrito

Conteúdo do site

Importar dados

Repositório de dados de perguntas frequentes

Repositório de dados não estruturados

Repositório de dados com metadados

Repositório de dados sem metadados

Configuração de análise e divisão

Usar o Cloud Storage para um documento de repositório de dados

Idiomas

Regiões compatíveis

(Acesso restrito) Outras fontes de repositório de dados

Fontes de repositório de dados de terceiros

Configurar um repositório de dados de terceiros usando um conector

Provedores de identidade

Conectores

Rastreamento de repositório de dados

Conferir dados no simulador

Conferir dados de rastreamento em outros locais

A seguir

Repositórios de dados