Visão geral do Document AI Warehouse

Visão geral conceitual

O Document AI Warehouse é uma plataforma integrada baseada na nuvem para armazenar, pesquisar, organizar, controlar e analisar documentos e os metadados estruturados deles (chamados de propriedades). Os documentos incluem dados estruturados (por exemplo, formulários, faturas) e não estruturados (por exemplo, contratos, artigos de pesquisa), e as propriedades deles (metadados) incluem dados extraídos por IA de documentos e tags atribuídas manualmente ou por IA (por exemplo, número da conta, ID do empréstimo, tipo de documento).

Principais benefícios e recursos

O Document AI Warehouse oferece várias vantagens em relação aos repositórios legados. Confira alguns recursos e benefícios:

  • API em primeiro lugar: uma única API integrada para gerenciar documentos e as propriedades deles (metadados extraídos ou marcados), que se integra aos seus fluxos de trabalho e aplicativos.
  • Gerenciamento de metadados: para gerenciar metadados extraídos e marcados.
  • Governança: integrada ao IAM e aos diretórios corporativos
    • O controle de acesso refinado (permissões) no nível do documento e da pasta pode ser atribuído a usuários e grupos para visualização, edição, gerenciamento (compartilhamento, exclusão) de documentos.
    • O Document AI Warehouse está integrado ao IAM (Cloud Identity) para que usuários e grupos possam ser provisionados no Cloud Identity.
    • Usuários/grupos também podem ser federados/sincronizados no Cloud Identity de um provedor de identidade / LDAP corporativo, como o Azure AD, o Active Directory e o Keycloak.
  • Pesquisa: o produto oferece suporte à pesquisa semântica avançada, incluindo os seguintes recursos:
    • Pesquisa de texto completo
    • Filtrar resultados da pesquisa por propriedades (data, numérica, enumeração, texto). Os filtros podem ser combinados com os operadores AND e OR.
    • Pesquisa semântica: compatibilidade com sinônimos e erros ortográficos comuns, radicais. As aspas (" ") podem ser usadas na consulta para especificar palavras-chave de correspondência exata.
    • Sinônimos personalizados: termos específicos do setor ou da empresa, por exemplo.
    • Pesquisar em uma hierarquia de pastas raiz
    • Operadores para palavras-chave de pesquisa: "" correspondência exata, | ou, + e, - exclusão
  • Organização: gerenciamento flexível de pastas
    • Os documentos podem ser catalogados em uma ou mais pastas com base no aplicativo (por exemplo, um cartão de ID é colocado em uma pasta KYC, pasta de empréstimo ou pasta de conta bancária), sem a replicação do documento.
    • Essas pastas têm propriedades e controle de acesso próprios, independentes das propriedades e do controle de acesso do documento.
    • As pastas podem ser aninhadas em uma ou mais hierarquias [por exemplo, AllLoans->State->Branch->Loans ou LoanTypes->Loans].
    • Os usuários podem pesquisar documentos em uma hierarquia de pastas, por exemplo, pesquisar em AllLoans->State
  • UI*: o produto inclui uma interface acessível pela Web com os seguintes recursos:
    • Explorador de documentos: pesquise documentos, filtre os resultados da pesquisa e selecione documentos para atualizar ou excluir propriedades em massa
    • Visualizador de documentos: ver documentos, ver/atualizar propriedades,atribuir ACLs, adicionar a pastas
    • Fazer upload: envie documentos e execute um extrator do DocAI** (OCR ou um analisador especializado compatível, como o Invoice DocAI).
    • Explorador de pastas: adicione documentos a uma ou mais pastas e explore a hierarquia de pastas.
    • Interface incorporável: os componentes do Doc Explorer e do Doc Viewer (para PDFs) podem ser integrados aos aplicativos do cliente.
  • Conectores*** para repositórios comuns locais e na nuvem: oferecemos um conector do Cloud Storage para o Document AI Warehouse (como um modelo separado baseado no Google Workflows) que pode ser personalizado/estendido para outros repositórios. Também trabalhamos com parceiros para fornecer conectores prontos para uso a repositórios como SharePoint, Amazon S3, IBM FileNet e outros, para ingerir e indexar documentos.
  • Flexibilidade de migração x federação: o produto é compatível com uma arquitetura flexível para que o conteúdo do documento possa ser migrado para o Document AI Warehouse ou permanecer no local se houver restrições na migração de conteúdo. Basta indexar o conteúdo e os metadados.
  • Integração com fluxos de trabalho de documentos: integra-se ao Google Workflows e a outros fluxos de trabalho de processamento de documentos com suporte a:
    • Propriedades: representam o estado de um documento em um fluxo de trabalho e APIs que os fluxos de trabalho podem usar para atualizar o estado dos documentos.
    • Interface do Document Explorer: para acompanhar o andamento de documentos em um pipeline de fluxo de trabalho, permitindo que uma pessoa inspecione, gerencie falhas e documentos parados no pipeline de fluxo de trabalho.
    • Notificações condicionais: documentos que atendem a determinadas condições podem acionar/notificar um fluxo de trabalho por um tópico do Pub/Sub ou uma chamada de API da Web. Por exemplo, acionador: OnUpdate; condição: (DocType=Invoice and TotalAmount>$1000) -> enviar notificação do Pub/Sub
  • Gerenciamento de políticas e aplicação da conformidade: as notificações condicionais e programadas podem ser usadas para acionar fluxos de trabalho que aplicam políticas (por exemplo, gerenciamento de registros, retenção e descarte, suspensões judiciais) em documentos específicos no Document AI Warehouse.
  • Arquivos compatíveis: PDFs de texto, imagens (PDFs digitalizados, arquivos TIFF, arquivos JPEG), arquivos do Office (DOCX, PPTX, XLSX) executados por OCR e indexados.
    • Observação: embora o foco do produto seja documentos, ele também é usado para gerenciar imagens associadas (por exemplo, em segmentos como seguros, engenharia, construção, pesquisa etc.).
  • Integração com a DocAI: o Document AI Warehouse é integrado aos processadores da Document AI em vários níveis:

    • Processamento da Document AI na interface: a interface do Document AI Warehouse permite que os usuários façam upload de PDFs/TIFFs digitalizados ou de tipos especiais de documentos, ambos extraídos automaticamente pelo OCR da Document AI ou por processadores especializados, respectivamente, antes que o documento seja indexado no Document AI Warehouse.
    • Gerenciar pipelines da Document AI em lote***: o Document AI Warehouse se integra ao Workflows para fornecer modelos que processam pipelines em lote de documentos por meio da extração e classificação da Document AI. Isso não é trivial porque envolve operações de longa duração (LRO) e chamadas de API assíncronas que precisam ser gerenciadas para falhas e novas tentativas. O modelo do Workflows orquestra esses pipelines. A interface do Document AI Warehouse pode ser usada para pesquisar e rastrear o fluxo de documentos por esses pipelines, visualizar a saída da Document AI para falhas em cada etapa do pipeline e tomar medidas em documentos parados/com falha.

*A interface está em prévia e deve ser lançada em breve.

**O OCR e outros extratores de documentos estão disponíveis nos produtos da Document AI, mas não estão incluídos no Document AI Warehouse.

***Esses recursos não fazem parte do Document AI Warehouse. Esses recursos são ativados por componentes e scripts de código aberto externos que os clientes podem implantar ou personalizar e não são implementados no Document AI Warehouse.

Exonerações de responsabilidade e limitações conhecidas

Para mais informações sobre avisos legais e limitações conhecidas, consulte Avisos legais e limitações conhecidas

Terminologia

A seguir, estão os termos usados no Document AI Warehouse.

Termos e conceitos Definição e exemplos
Documento Um registro no Document AI Warehouse que os usuários podem pesquisar, gerenciar e aplicar controle de acesso. Ele inclui o documento bruto e alguns metadados associados.

[As imagens armazenadas no Document AI Warehouse também são chamadas de "Documentos"]

Documento bruto [Conteúdo] O arquivo de conteúdo bruto (pdf/imagem/binário/blob) do documento.
Esquema [Tipo de documento] Cada documento é de um determinado tipo e é especificado por um esquema. Por exemplo, uma fatura contém o seguinte esquema: nome do fornecedor, nome do vendedor, valor da fatura etc.
Propriedade [metadados] Campos do esquema de documento que podem ser extraídos do documento ou enriquecidos (rotulados) pelos usuários. No momento, os metadados incluem os seguintes tipos: valores de texto livre, enumeração, numérico, data, mapa (uma hierarquia JSON de pares de chave-valor). Planejamos oferecer suporte a booleano, dinheiro e outros tipos no futuro.
Extratores de documentos (DocAI e outros) Os documentos podem ser extraídos por um pipeline de IA para que as extrações sejam ingeridas e gerenciadas no Document AI Warehouse (como metadados) junto com o documento bruto. A extração pode ser feita por
  • Analisadores especializados da Document AI (para formulários de compras, empréstimos e outros)
  • OCR, AutoML, analisador de formulários (para imagens como TIFF/PNG etc.)
  • Outros modelos personalizados
  • Ferramentas de extração de texto para formatos de documentos especializados, como PDFs, documentos do Office e outros.

    O Document AI Warehouse funciona com qualquer pipeline de extração que chama as APIs do Document AI Warehouse para ingerir/atualizar documentos.

Pastas Uma pasta é uma coleção virtual de documentos (virtual porque o mesmo documento pode estar em uma ou mais pastas). Ele tem um "Tipo de documento/esquema" e contém metadados e listas de controle de acesso, assim como documentos.

Um usuário precisa de permissão de edição para a pasta e de leitura para o documento para adicionar um documento a uma pasta.

Links Os links são usados para adicionar documentos a pastas ou vincular documentos relacionados. Os links não têm um "Tipo de link"
Documentos relacionados Os documentos podem ser relacionados por links direcionais de um para outro.
Permissões de vinculação Um usuário precisa de permissão de edição para o objeto de origem do link (por exemplo, pasta) e permissão de visualização para o objeto de destino do link (por exemplo, documento) para adicionar um documento a uma pasta.
Política Uma política avaliada quando um documento/pasta é criado/atualizado e usada para validar ou atualizar metadados de documentos, ACLs ou adicionar/mover/remover documentos de pastas. Uma política inclui:
  • Um gatilho, por exemplo, em DocUpdate/DocCreate
  • Condição, por exemplo, Invoice.Amount <$1000
  • Ação, por exemplo, "Atualizar metadados do documento", "Retornar avaliação da condição", "Adicionar documento à pasta" etc.

    Uma política geralmente está associada a um tipo de documento.

    Ela é expressa em uma Common Expression Language de baixo código (formato JSON, especificado mais adiante).

Política de notificações É um tipo especial de política em que a ação é publicar uma mensagem em um tópico do Pub/Sub quando uma determinada condição é atendida. Os aplicativos / fluxos de trabalho consumidores podem consumir a mensagem para acionar ações nos documentos ou em outras partes de um fluxo de trabalho comercial.
Mecanismo de políticas, APIs de políticas Mecanismo: o servidor que avalia políticas e realiza ações

API: API Admin usada para criar/atualizar/ler/excluir políticas.

Pesquisa facetada Um atributo é um filtro de metadados usado em uma consulta de pesquisa. Por exemplo, uma pesquisa por extratos bancários com os filtros "Mês = março de 2021" e "Estado da agência = CA" filtra os resultados da pesquisa por essas duas facetas.
  • Normalmente, o atributo é um campo enumerado. Vamos oferecer suporte a facetas de data e numéricas em versões futuras.
  • As facetas de um tipo de documento são especificadas no esquema de documento pelos administradores (via API Admin).
Pesquisa semântica A pesquisa semântica aceita sinônimos ou termos "semanticamente relacionados" na consulta de pesquisa. Por exemplo, "carteira de habilitação" retorna "permissão para dirigir".
Histograma de pesquisa O histograma é um recurso da API Search que retorna a distribuição (contagens) dos resultados da pesquisa por atributo. Por exemplo, os resultados da pesquisa para "Carteira de motorista" retornam o histograma "CA 500, NV 150, …"
Acesso universal x controle de acesso no nível do documento Dois modos de acesso são compatíveis com o Document AI Warehouse para cada projeto
  1. Acesso universal: qualquer usuário pode acessar qualquer documento no projeto. O acesso à API é controlado por contas de usuário ou de serviço, mas não há permissões no nível do documento.
  2. ACL no nível do documento: os usuários recebem permissões no nível do documento. Cada documento tem permissões de leitura/atualização/exclusão atribuídas a usuários/grupos.