Descripción general de Document AI Warehouse

Descripción general de conceptos

Document AI Warehouse es una plataforma integrada y basada en la nube para almacenar, buscar, organizar, administrar y analizar documentos y sus metadatos estructurados (llamados propiedades). Los documentos incluyen datos estructurados (p.ej., formularios, facturas) y no estructurados (p.ej., contratos, documentos de investigación), y sus propiedades (metadatos) incluyen datos extraídos por IA de los documentos y etiquetas asignadas de forma manual o por IA (por ejemplo, número de cuenta, ID de préstamo, tipo de documento).

Beneficios y funciones clave

Document AI Warehouse ofrece varias ventajas en comparación con los repositorios heredados. Estas son algunas de las funciones y los beneficios:

  • Centrada en la API: API integrada única para administrar documentos y sus propiedades (metadatos extraídos o etiquetados), que se integra en tus flujos de trabajo y aplicaciones.
  • Administración de metadatos: Para administrar los metadatos extraídos y etiquetados
  • Gobernanza: Integrado con IAM y directorios corporativos
    • El control de acceso detallado (permisos) a nivel de documento y carpeta se puede asignar a usuarios y grupos para ver, editar, administrar (compartir, borrar) documentos.
    • Document AI Warehouse se integra en IAM (Cloud Identity), de modo que los usuarios y los grupos se pueden aprovisionar en Cloud Identity.
    • Los usuarios o grupos también se pueden federar o sincronizar en Cloud Identity desde un proveedor de identidad o LDAP empresarial, como Azure AD, Active Directory o Keycloak.
  • Búsqueda: El producto admite la búsqueda semántica enriquecida, incluidas las siguientes funciones:
    • Búsqueda en el texto completo
    • Filtrar los resultados de la búsqueda por propiedades (fecha, número, enumeración, texto) Los filtros se pueden combinar con los operadores AND y OR.
    • Búsqueda semántica: Admite sinónimos, errores ortográficos y derivaciones comunes. Se pueden usar comillas (" ") en la búsqueda para especificar palabras clave de concordancia exacta.
    • Sinónimos personalizados: Términos específicos de la industria o la empresa, por ejemplo.
    • Cómo buscar en una jerarquía de carpetas raíz
    • Operadores para palabras clave de búsqueda: "" concordancia exacta, | o, + y, -excluir
  • Organización: Administración flexible de carpetas
    • Los documentos se pueden catalogar en una o más carpetas, según la aplicación (por ejemplo, una tarjeta de ID se coloca en una carpeta KYC, una carpeta de préstamos o una carpeta de cuenta bancaria), sin replicar el documento.
    • Estas carpetas tienen sus propias propiedades y control de acceso, independientes de las propiedades y el control de acceso del documento.
    • Las carpetas se pueden anidar en una o más jerarquías [por ejemplo, AllLoans->State->Branch->Loans o LoanTypes->Loans].
    • Los usuarios pueden buscar documentos dentro de una jerarquía de carpetas, p. ej., buscar en AllLoans->State.
  • IU*: El producto incluye una IU accesible desde la Web con las siguientes funciones:
    • Explorador de documentos: Busca documentos, filtra los resultados de la búsqueda y selecciona documentos para actualizar sus propiedades de forma masiva o borrarlos.
    • Visor de documentos: Ver documentos, ver o actualizar sus propiedades,asignar LCA, agregar a carpetas
    • Carga: Sube documentos y ejecútalos a través de un extractor de DocAI** (ya sea OCR o un analizador especializado compatible, como Invoice DocAI).
    • Explorador de carpetas: Agrega documentos a una o más carpetas y explora la jerarquía de carpetas.
    • IU integrada: Los componentes del Explorador de documentos y el Visor de documentos (para PDFs) se pueden integrar en las aplicaciones del cliente.
  • Conectores*** a repositorios locales y en la nube comunes: Proporcionamos un conector de Cloud Storage a Document AI Warehouse (como una plantilla independiente basada en Google Workflows) que se puede personalizar o extender a otros repositorios. También trabajamos con socios para proporcionar conectores listos para usar a repositorios como SharePoint, Amazon S3, IBM FileNet y otros, para ingerir e indexar documentos.
  • Flexibilidad de migración frente a federación: El producto admite una arquitectura flexible, de modo que el contenido de tus documentos se puede migrar a Document AI Warehouse o permanecer en su lugar si hay restricciones en la migración de contenido (simplemente indexamos el contenido y los metadatos).
  • Integración con flujos de trabajo de documentos: Se integra con Google Workflows y otros flujos de trabajo de procesamiento de documentos, ya que admite lo siguiente:
    • Propiedades que representan el estado de un documento en un flujo de trabajo y APIs que los flujos de trabajo pueden usar para actualizar el estado de los documentos
    • Interfaz del Explorador de Document: Para realizar un seguimiento del progreso de los documentos a través de una canalización de flujo de trabajo, lo que permite que una persona inspeccione y administre fallas y documentos detenidos en la canalización de flujo de trabajo.
    • Notificaciones condicionales: Los documentos que cumplen con ciertas condiciones pueden activar o notificar un flujo de trabajo a través de un tema de Pub/Sub o una llamada a la API web. Por ejemplo, Activador: OnUpdate; Condición: (DocType=Invoice y TotalAmount>$1000) -> enviar notificación de Pub/Sub
  • Administración de políticas y aplicación del cumplimiento: Las notificaciones condicionales y programadas se pueden usar para activar flujos de trabajo que apliquen políticas (por ejemplo, administración de registros, retención y disposición, suspensiones legales) en documentos específicos de Document AI Warehouse.
  • Archivos admitidos: Archivos PDF de texto, imágenes (archivos PDF escaneados, archivos TIFF, archivos JPEG) y archivos de Office (DOCX, PPTX, XLSX) que se ejecutan a través del OCR y se indexan.
    • Nota: Si bien el enfoque del producto son los documentos, también se usa para administrar imágenes asociadas (p.ej., en verticales como Seguros, Ingeniería, Construcción, Investigación, etcétera).
  • Integración con DocAI: Document AI Warehouse se integra con los procesadores de Document AI en varios niveles:

    • Procesamiento de Document AI en la IU: La IU de Document AI Warehouse permite a los usuarios subir archivos PDF o TIFF escaneados, o tipos de documentos especiales, que se extraen automáticamente mediante el OCR de Document AI o procesadores especializados, respectivamente, antes de que se indexe el documento en Document AI Warehouse.
    • Administra canalizaciones por lotes de Document AI***: Document AI Warehouse se integra en Workflows para proporcionar plantillas que procesan canalizaciones por lotes de documentos a través de la extracción y clasificación de Document AI. Esto no es trivial, ya que implica operaciones de larga duración (LRO) y llamadas a la API asíncronas que deben administrarse para los reintentos y las fallas. La plantilla de Workflows organiza esas canalizaciones. La IU de Document AI Warehouse se puede usar para buscar y hacer un seguimiento del flujo de documentos a través de esas canalizaciones, visualizar el resultado de Document AI para los errores en cada paso de la canalización y tomar medidas en relación con los documentos detenidos o con errores.

*La IU está en versión preliminar y se espera que pronto esté disponible de forma general.

**La OCR y otros extractores de documentos están disponibles en los productos de Document AI, pero no se incluyen en Document AI Warehouse.

***Estas funciones no forman parte de Document AI Warehouse. Estas funciones están habilitadas por componentes y secuencias de comandos externos de código abierto que los clientes pueden implementar o personalizar, y no se implementan en Document AI Warehouse.

Renuncias de responsabilidad y limitaciones conocidas

Para obtener más información sobre las renuncias de responsabilidad y las limitaciones conocidas, consulta Renuncias de responsabilidad y limitaciones conocidas.

Terminología

A continuación, se indican los términos que se usan en Document AI Warehouse.

Términos y conceptos Definición y ejemplos
Documento Es un registro en Document AI Warehouse en el que los usuarios pueden buscar, administrar y aplicar el control de acceso. Comprende el documento sin procesar y algunos metadatos asociados.

[Las imágenes almacenadas en Document AI Warehouse también se conocen como "Documentos"].

Documento sin procesar [Contenido] Es el archivo de contenido sin procesar (pdf/imagen/binario/blob) del documento.
Esquema [tipo de documento] Cada documento es de un tipo determinado y se especifica con un esquema. p.ej., una factura contiene el siguiente esquema: Nombre del proveedor, Nombre del vendedor, Importe de la factura, etcétera.
Propiedad [Metadatos] Son los campos del esquema del documento que los usuarios pueden extraer del documento o enriquecer (etiquetar). Actualmente, los metadatos incluyen los siguientes tipos: valores de texto libre, enumeración, numérico, fecha y mapa (una jerarquía JSON de pares clave-valor). Planeamos admitir tipos booleanos, de dinero y otros en el futuro.
Extractores de documentos (DocAI y otros) Los documentos se pueden extraer mediante una canalización de IA para que las extracciones se puedan transferir y administrar en Document AI Warehouse (como metadatos) junto con el documento sin procesar. La extracción se puede realizar de la siguiente manera:
  • Analizadores especializados de Document AI (para formularios de adquisición, formularios de préstamos y otros)
  • OCR, AutoML, analizador de formularios (para imágenes como TIFF, PNG, etcétera)
  • Otros modelos personalizados
  • Herramientas de extracción de texto para formatos de documentos especializados, como PDFs, documentos de Office y otros

    Ten en cuenta que Document AI Warehouse puede funcionar con cualquier canalización de extracción que llame a las APIs de Document AI Warehouse para transferir o actualizar documentos.

Carpetas Una carpeta es una colección virtual de documentos (virtual porque el mismo documento puede estar contenido en una o más carpetas). Tiene un "Tipo/Esquema de documento" y contiene metadatos y listas de control de acceso al igual que los documentos.

Un usuario necesita permiso de edición para la carpeta y permiso de visualización para el documento para agregar un documento a una carpeta.

Vínculos Los vínculos se usan para agregar documentos a carpetas o para vincular documentos relacionados. Los vínculos no tienen un "Tipo de vínculo".
Documentos relacionados Los documentos se pueden relacionar con vínculos direccionales de un documento a otro.
Permisos de vínculos Un usuario necesita permiso de edición para el objeto de vinculación (p. ej., carpeta) y permiso de visualización para el objeto vinculado (p. ej., documento) para agregar un documento a una carpeta.
Política Es una política que se evalúa cuando se crea o actualiza un documento o una carpeta, y se usa para validar o actualizar los metadatos del documento, las LCA o para agregar, mover o quitar documentos de las carpetas. Una política incluye lo siguiente:
  • Un activador, por ejemplo, en DocUpdate/DocCreate
  • Condición, por ejemplo, Invoice.Amount < USD 1,000
  • Acción, por ejemplo, Update Doc Metadata, Return Condition Evaluation, Add Doc to Folder, etcétera

    Por lo general, una política se asocia con un tipo de documento.

    Se expresa en Common Expression Language de bajo código (formato JSON, que se especifica más adelante).

Política de Notificaciones Es un tipo especial de política en la que la acción consiste en publicar un mensaje en un tema de Pub/Sub cuando se cumple una condición determinada. Las aplicaciones o los flujos de trabajo que consumen el mensaje pueden hacerlo para activar acciones en los documentos o en otras partes de un flujo de trabajo empresarial.
APIs de Policy Engine y de políticas Motor: Es el servidor que evalúa las políticas y toma medidas.

API: Es la API de Admin que se usa para crear, actualizar, leer o borrar políticas.

Búsqueda por facetas Una faceta es un filtro de metadatos que se usa en una búsqueda. Por ejemplo, si buscas estados de cuenta bancarios con los filtros "Mes = marzo de 2021" y "Estado de la sucursal = CA", se filtrarán los resultados de la búsqueda según estas 2 facetas.
  • Por lo general, la faceta es un campo enumerado. En versiones futuras, admitiremos las facetas de fecha y numéricas.
  • Los administradores especifican las facetas para un tipo de documento en el esquema del documento (a través de la API de Admin).
Búsqueda semántica La búsqueda semántica admite sinónimos o términos "relacionados semánticamente" en la búsqueda. Por ejemplo, "Licencia de conducir" devuelve "Permiso de conducir".
Histograma de búsqueda El histograma es una función de la API de búsqueda que muestra la distribución (recuentos) de los resultados de la búsqueda por faceta. Por ejemplo, los resultados de la búsqueda de "Licencia de conducir" muestran el histograma "CA 500, NV 150, …".
Acceso universal vs. Control de acceso a nivel de documento En Document AI Warehouse, se admiten dos modos de acceso para cada proyecto
  1. Acceso universal: Cualquier usuario puede acceder a cualquier documento del proyecto. La API tiene control de acceso a cuentas de usuario o cuentas de servicio, pero no tiene permisos a nivel del documento.
  2. ACL a nivel del documento: Se otorgan permisos a nivel del documento a los usuarios. Cada documento tiene permisos de R/U/D asignados a usuarios o grupos.