Visão geral conceitual
O Document AI Warehouse é uma plataforma integrada baseada na nuvem para armazenar, pesquisar, organizar, controlar e analisar documentos e os metadados estruturados deles (chamados de propriedades). Os documentos incluem dados estruturados (por exemplo, formulários, faturas) e não estruturados (por exemplo, contratos, artigos de pesquisa), e as propriedades deles (metadados) incluem dados extraídos por IA de documentos e tags atribuídas manualmente ou por IA (por exemplo, número da conta, ID do empréstimo, tipo de documento).
Principais benefícios e recursos
O Document AI Warehouse oferece várias vantagens em relação aos repositórios legados. Confira alguns recursos e benefícios:
- API em primeiro lugar: uma única API integrada para gerenciar documentos e as propriedades deles (metadados extraídos ou marcados), que se integra aos seus fluxos de trabalho e aplicativos.
- Gerenciamento de metadados: para gerenciar metadados extraídos e marcados.
- Governança: integrada ao IAM e aos diretórios corporativos
- O controle de acesso refinado (permissões) no nível do documento e da pasta pode ser atribuído a usuários e grupos para visualização, edição, gerenciamento (compartilhamento, exclusão) de documentos.
- O Document AI Warehouse está integrado ao IAM (Cloud Identity) para que usuários e grupos possam ser provisionados no Cloud Identity.
- Usuários/grupos também podem ser federados/sincronizados no Cloud Identity de um provedor de identidade / LDAP corporativo, como o Azure AD, o Active Directory e o Keycloak.
- Pesquisa: o produto oferece suporte à pesquisa semântica avançada, incluindo os seguintes recursos:
- Pesquisa de texto completo
- Filtrar resultados da pesquisa por propriedades (data, numérica, enumeração, texto).
Os filtros podem ser combinados com os operadores
ANDeOR. - Pesquisa semântica: compatibilidade com sinônimos e erros ortográficos comuns, radicais. As aspas (" ") podem ser usadas na consulta para especificar palavras-chave de correspondência exata.
- Sinônimos personalizados: termos específicos do setor ou da empresa, por exemplo.
- Pesquisar em uma hierarquia de pastas raiz
- Operadores para palavras-chave de pesquisa:
""correspondência exata,|ou,+e,-exclusão
- Organização: gerenciamento flexível de pastas
- Os documentos podem ser catalogados em uma ou mais pastas com base no aplicativo (por exemplo, um cartão de ID é colocado em uma pasta KYC, pasta de empréstimo ou pasta de conta bancária), sem a replicação do documento.
- Essas pastas têm propriedades e controle de acesso próprios, independentes das propriedades e do controle de acesso do documento.
- As pastas podem ser aninhadas em uma ou mais hierarquias [por exemplo, AllLoans->State->Branch->Loans ou LoanTypes->Loans].
- Os usuários podem pesquisar documentos em uma hierarquia de pastas, por exemplo, pesquisar em AllLoans->State
- UI*: o produto inclui uma interface acessível pela Web com os seguintes recursos:
- Explorador de documentos: pesquise documentos, filtre os resultados da pesquisa e selecione documentos para atualizar ou excluir propriedades em massa
- Visualizador de documentos: ver documentos, ver/atualizar propriedades,atribuir ACLs, adicionar a pastas
- Fazer upload: envie documentos e execute um extrator do DocAI** (OCR ou um analisador especializado compatível, como o Invoice DocAI).
- Explorador de pastas: adicione documentos a uma ou mais pastas e explore a hierarquia de pastas.
- Interface incorporável: os componentes do Doc Explorer e do Doc Viewer (para PDFs) podem ser integrados aos aplicativos do cliente.
- Conectores*** para repositórios comuns locais e na nuvem: oferecemos um conector do Cloud Storage para o Document AI Warehouse (como um modelo separado baseado no Google Workflows) que pode ser personalizado/estendido para outros repositórios. Também trabalhamos com parceiros para fornecer conectores prontos para uso a repositórios como SharePoint, Amazon S3, IBM FileNet e outros, para ingerir e indexar documentos.
- Flexibilidade de migração x federação: o produto é compatível com uma arquitetura flexível para que o conteúdo do documento possa ser migrado para o Document AI Warehouse ou permanecer no local se houver restrições na migração de conteúdo. Basta indexar o conteúdo e os metadados.
- Integração com fluxos de trabalho de documentos: integra-se ao Google
Workflows e a outros fluxos de trabalho de processamento de documentos com suporte a:
- Propriedades: representam o estado de um documento em um fluxo de trabalho e APIs que os fluxos de trabalho podem usar para atualizar o estado dos documentos.
- Interface do Document Explorer: para acompanhar o andamento de documentos em um pipeline de fluxo de trabalho, permitindo que uma pessoa inspecione, gerencie falhas e documentos parados no pipeline de fluxo de trabalho.
- Notificações condicionais: documentos que atendem a determinadas condições podem acionar/notificar um fluxo de trabalho por um tópico do Pub/Sub ou uma chamada de API da Web. Por exemplo, acionador: OnUpdate; condição: (DocType=Invoice and TotalAmount>$1000) -> enviar notificação do Pub/Sub
- Gerenciamento de políticas e aplicação da conformidade: as notificações condicionais e programadas podem ser usadas para acionar fluxos de trabalho que aplicam políticas (por exemplo, gerenciamento de registros, retenção e descarte, suspensões judiciais) em documentos específicos no Document AI Warehouse.
- Arquivos compatíveis: PDFs de texto, imagens (PDFs digitalizados, arquivos TIFF, arquivos JPEG), arquivos do Office (DOCX, PPTX, XLSX) executados por OCR e indexados.
- Observação: embora o foco do produto seja documentos, ele também é usado para gerenciar imagens associadas (por exemplo, em segmentos como seguros, engenharia, construção, pesquisa etc.).
Integração com a DocAI: o Document AI Warehouse é integrado aos processadores da Document AI em vários níveis:
- Processamento da Document AI na interface: a interface do Document AI Warehouse permite que os usuários façam upload de PDFs/TIFFs digitalizados ou de tipos especiais de documentos, ambos extraídos automaticamente pelo OCR da Document AI ou por processadores especializados, respectivamente, antes que o documento seja indexado no Document AI Warehouse.
- Gerenciar pipelines da Document AI em lote***: o Document AI Warehouse se integra ao Workflows para fornecer modelos que processam pipelines em lote de documentos por meio da extração e classificação da Document AI. Isso não é trivial porque envolve operações de longa duração (LRO) e chamadas de API assíncronas que precisam ser gerenciadas para falhas e novas tentativas. O modelo do Workflows orquestra esses pipelines. A interface do Document AI Warehouse pode ser usada para pesquisar e rastrear o fluxo de documentos por esses pipelines, visualizar a saída da Document AI para falhas em cada etapa do pipeline e tomar medidas em documentos parados/com falha.
*A interface está em prévia e deve ser lançada em breve.
**O OCR e outros extratores de documentos estão disponíveis nos produtos da Document AI, mas não estão incluídos no Document AI Warehouse.
***Esses recursos não fazem parte do Document AI Warehouse. Esses recursos são ativados por componentes e scripts de código aberto externos que os clientes podem implantar ou personalizar e não são implementados no Document AI Warehouse.
Exonerações de responsabilidade e limitações conhecidas
Para mais informações sobre avisos legais e limitações conhecidas, consulte Avisos legais e limitações conhecidas
Terminologia
A seguir, estão os termos usados no Document AI Warehouse.
| Termos e conceitos | Definição e exemplos |
| Documento | Um registro no Document AI Warehouse que os usuários podem pesquisar, gerenciar e aplicar controle de acesso. Ele inclui o documento bruto e alguns metadados associados.
[As imagens armazenadas no Document AI Warehouse também são chamadas de "Documentos"] |
| Documento bruto [Conteúdo] | O arquivo de conteúdo bruto (pdf/imagem/binário/blob) do documento. |
| Esquema [Tipo de documento] | Cada documento é de um determinado tipo e é especificado por um esquema. Por exemplo, uma fatura contém o seguinte esquema: nome do fornecedor, nome do vendedor, valor da fatura etc. |
| Propriedade [metadados] | Campos do esquema de documento que podem ser extraídos do documento ou enriquecidos (rotulados) pelos usuários. No momento, os metadados incluem os seguintes tipos: valores de texto livre, enumeração, numérico, data, mapa (uma hierarquia JSON de pares de chave-valor). Planejamos oferecer suporte a booleano, dinheiro e outros tipos no futuro. |
| Extratores de documentos (DocAI e outros) | Os documentos podem ser extraídos por um pipeline de IA para que as extrações sejam ingeridas e gerenciadas no Document AI Warehouse (como metadados) junto com o documento bruto. A extração pode ser feita por
|
| Pastas | Uma pasta é uma coleção virtual de documentos (virtual porque o mesmo documento pode estar em uma ou mais pastas). Ele tem um "Tipo de documento/esquema" e contém metadados e listas de controle de acesso, assim como documentos.
Um usuário precisa de permissão de edição para a pasta e de leitura para o documento para adicionar um documento a uma pasta. |
| Links | Os links são usados para adicionar documentos a pastas ou vincular documentos relacionados. Os links não têm um "Tipo de link" |
| Documentos relacionados | Os documentos podem ser relacionados por links direcionais de um para outro. |
| Permissões de vinculação | Um usuário precisa de permissão de edição para o objeto de origem do link (por exemplo, pasta) e permissão de visualização para o objeto de destino do link (por exemplo, documento) para adicionar um documento a uma pasta. |
| Política | Uma política avaliada quando um documento/pasta é criado/atualizado e usada para validar ou atualizar metadados de documentos, ACLs ou adicionar/mover/remover documentos de pastas. Uma política inclui:
|
| Política de notificações | É um tipo especial de política em que a ação é publicar uma mensagem em um tópico do Pub/Sub quando uma determinada condição é atendida. Os aplicativos / fluxos de trabalho consumidores podem consumir a mensagem para acionar ações nos documentos ou em outras partes de um fluxo de trabalho comercial. |
| Mecanismo de políticas, APIs de políticas | Mecanismo: o servidor que avalia políticas e realiza ações
API: API Admin usada para criar/atualizar/ler/excluir políticas. |
| Pesquisa facetada | Um atributo é um filtro de metadados usado em uma consulta de pesquisa. Por exemplo, uma pesquisa por extratos bancários com os filtros "Mês = março de 2021" e "Estado da agência = CA" filtra os resultados da pesquisa por essas duas facetas.
|
| Pesquisa semântica | A pesquisa semântica aceita sinônimos ou termos "semanticamente relacionados" na consulta de pesquisa. Por exemplo, "carteira de habilitação" retorna "permissão para dirigir". |
| Histograma de pesquisa | O histograma é um recurso da API Search que retorna a distribuição (contagens) dos resultados da pesquisa por atributo. Por exemplo, os resultados da pesquisa para "Carteira de motorista" retornam o histograma "CA 500, NV 150, …" |
| Acesso universal x controle de acesso no nível do documento | Dois modos de acesso são compatíveis com o Document AI Warehouse para cada projeto
|