Document AI Warehouse 개요

개념 개요

Document AI Warehouse는 문서와 문서의 구조화된 메타데이터 (속성이라고 함)를 저장, 검색, 정리, 제어, 분석할 수 있는 통합된 클라우드 기반 플랫폼입니다. 문서에는 구조화된 문서 (예: 양식, 인보이스)와 구조화되지 않은 문서 (예: 계약서, 연구 논문)가 포함되며, 문서의 속성 (메타데이터)에는 문서에서 AI로 추출한 데이터와 수동 또는 AI로 할당된 태그 (예: 계정 번호, 대출 ID, 문서 유형)가 포함됩니다.

주요 이점 및 기능

Document AI Warehouse는 기존 저장소에 비해 여러 이점을 제공합니다. 다음은 몇 가지 기능과 이점입니다.

  • API 중심: 단일 통합 API를 사용하여 문서와 속성 (추출되거나 태그된 메타데이터)을 관리하고 워크플로 및 애플리케이션에 통합합니다.
  • 메타데이터 관리: 추출 및 태그된 메타데이터를 관리합니다.
  • 거버넌스: IAM 및 회사 디렉터리와 통합
    • 문서를 보고 수정, 관리 (공유, 삭제)할 사용자 및 그룹에 문서 및 폴더 수준에서 세분화된 액세스 제어 (권한)를 할당할 수 있습니다.
    • Document AI Warehouse는 IAM (Cloud ID)과 통합되어 사용자와 그룹을 Cloud ID에 프로비저닝할 수 있습니다.
    • 엔터프라이즈 LDAP/ID 공급업체(예: Azure AD, Active Directory, Keycloak)에서 사용자/그룹을 Cloud ID에 제휴 / 동기화할 수도 있습니다.
  • 검색: 제품이 다음 기능을 포함한 리치 시맨틱 검색을 지원합니다.
    • 전체 텍스트 검색
    • 속성 (날짜, 숫자, 열거형, 텍스트)별로 검색 결과를 필터링합니다. 필터를 ANDOR 연산자와 결합할 수 있습니다.
    • 시맨틱 검색 - 일반적인 동의어, 오타, 어간을 지원합니다. 따옴표 (" ")를 사용하여 쿼리에서 일치검색 키워드를 지정할 수 있습니다.
    • 맞춤 동의어(예: 업계별 또는 회사별 용어)
    • 루트 폴더 계층 구조 내에서 검색
    • 검색 키워드 연산자: "" 일치검색, | or, + and, - exclude
  • 조직: 유연한 폴더 관리
    • 문서를 복제할 필요 없이 애플리케이션별로 (예: 고객알기제도 폴더, 대출 폴더, 은행 계좌 폴더에 있는 신분증) 하나 이상의 폴더에 카탈로그화할 수 있습니다.
    • 이러한 폴더에는 문서 속성 및 액세스 제어와 독립적인 자체 속성 및 액세스 제어가 있습니다.
    • 폴더는 하나 이상의 계층 구조로 중첩될 수 있습니다[예: AllLoans->State->Branch->Loans 또는 LoanTypes->Loans].
    • 사용자는 폴더 계층 구조 내에서 문서를 검색할 수 있습니다(예: AllLoans->State 내에서 검색).
  • UI* - 제품에는 다음 기능이 있는 웹 액세스 가능 UI가 포함됩니다.
    • 문서 탐색기: 문서를 검색하고, 검색 결과를 필터링하고, 속성을 일괄 업데이트하거나 삭제할 문서를 선택합니다.
    • 문서 뷰어: 문서 보기, 속성 보기/업데이트,ACL 할당, 폴더에 추가
    • 업로드: 문서를 업로드하고 DocAI** 추출기(OCR 또는 지원되는 특수 파서(예: 인보이스 DocAI))를 통해 실행합니다.
    • 폴더 탐색기: 하나 이상의 폴더에 문서를 추가하고 폴더 계층 구조를 탐색합니다.
    • 삽입 가능한 UI: 문서 탐색기 및 문서 뷰어 (PDF용) 구성요소를 고객의 애플리케이션에 통합할 수 있습니다.
  • 일반적인 온프레미스 및 클라우드 저장소에 대한 커넥터***: Cloud Storage에서 Document AI Warehouse로 연결하는 커넥터 (Google 워크플로를 기반으로 하는 별도의 템플릿)가 제공되며, 이 커넥터는 다른 저장소로 맞춤설정/확장할 수 있습니다. 또한 Google은 파트너와 협력하여 Sharepoint, Amazon S3, IBM FileNet 등의 저장소에 기본 커넥터를 제공하여 문서를 수집하고 색인을 생성합니다.
  • 마이그레이션과 페더레이션 간 유연성: 이 제품은 유연한 아키텍처를 지원하여 문서 콘텐츠를 Document AI Warehouse로 마이그레이션하거나 콘텐츠 마이그레이션에 제약이 있는 경우 해당 위치에 그대로 유지할 수 있습니다 (Google에서 콘텐츠와 메타데이터의 색인 생성).
  • 문서 워크플로와 통합 - 다음을 지원하여 Google 워크플로 및 기타 문서 처리 워크플로와 통합됩니다.
    • 속성 - 워크플로에서 문서 상태를 나타내고 워크플로가 문서 상태를 업데이트하는 데 사용할 수 있는 API
    • 문서 탐색기 인터페이스 - 워크플로 파이프라인을 통해 문서 진행 상태를 추적하여 인간이 워크플로 파이프라인에서 오류 및 지연된 문서를 조사하고 관리할 수 있게 도와줍니다.
    • 조건부 알림 - 특정 조건을 충족하는 문서가 Pub/Sub 주제 또는 웹 API 호출을 통해 워크플로를 트리거/알릴 수 있습니다. 예를 들어 트리거: OnUpdate; 조건: (DocType=Invoice and TotalAmount>$1000) -> Pub/Sub 알림 전송
  • 정책 관리 및 규정 준수 시행: 조건부 알림 및 예약된 알림을 사용하여 Document AI Warehouse의 특정 문서에 정책 (예: 기록 관리, 보관 및 폐기, 법적 보류)을 적용하는 워크플로를 트리거할 수 있습니다.
  • 지원되는 파일 - 텍스트 PDF, 이미지 (스캔한 PDF, TIFF 파일, JPEG 파일), Office (DOCX, PPTX, XLSX) 파일은 OCR을 거쳐 색인이 생성됩니다.
    • 참고 - 제품의 초점은 문서이지만 연결된 이미지 (예: 보험, 엔지니어링, 건설, 연구 등의 업종)를 관리하는 데도 사용됩니다.
  • DocAI와 통합: Document AI Warehouse는 여러 수준에서 Document AI 프로세서와 통합됩니다.

    • UI의 Document AI 처리: Document AI Warehouse UI를 사용하면 스캔된 PDF/TIFF 또는 특수 문서 유형 중 하나를 업로드할 수 있습니다. 이 두 가지 모두 Document AI OCR이나 전문 프로세서에서 자동으로 추출됩니다.
    • 일괄 Document AI 파이프라인 관리***: Document AI Warehouse는 Workflows와 통합되어 Document AI 추출 및 분류를 통해 문서의 일괄 파이프라인을 처리하는 템플릿을 제공합니다. 실패 및 재시도를 위해 관리해야 하는 장기 실행(LRO) 작업과 비동기 API 호출이 수반되므로 간단하지 않습니다. Workflows 템플릿은 이러한 파이프라인을 조정합니다. Document AI Warehouse UI를 사용하여 이러한 파이프라인을 통해 문서 흐름을 검색하고 추적하며, 파이프라인의 각 단계에서 실패한 Document AI 출력을 시각화하고, 정체되거나 실패한 문서에 대해 조치를 취할 수 있습니다.

*UI는 미리보기 상태이며 곧 정식 버전으로 출시될 예정입니다.

**OCR과 기타 문서 추출기는 Document AI 제품에서 사용할 수 있지만 Document AI Warehouse에 포함되어 있지는 않습니다.

***이 기능은 Document AI Warehouse의 일부가 아닙니다. 이러한 기능은 고객이 배포하거나 맞춤설정할 수 있는 외부 오픈소스 구성요소 및 스크립트에 의해 사용 설정되며 Document AI Warehouse 내에서 구현되지 않습니다.

면책조항 및 알려진 제한사항

면책 조항 및 알려진 제한사항에 대한 자세한 내용은 면책 조항 및 알려진 제한사항을 참고하세요.

용어

다음은 Document AI Warehouse에서 사용되는 용어입니다.

용어, 개념 정의, 예
문서 사용자가 검색, 관리하고 액세스 제어를 적용할 수 있는 Document AI Warehouse의 레코드입니다. 원시 문서와 일부 관련 메타데이터로 구성됩니다.

[Document AI Warehouse에 저장된 이미지도 '문서'라고 합니다.]

원시 문서 [콘텐츠] 문서의 원시 콘텐츠 파일 (pdf/image/binary/blob)입니다.
스키마 [문서 유형] 각 문서는 특정 문서 유형에 속하며 스키마로 지정됩니다. 예를 들어 인보이스에는 공급업체 이름, 판매업체 이름, 인보이스 금액 등의 스키마가 포함됩니다.
속성[메타데이터] 문서에서 추출하거나 사용자가 보강 (라벨 지정)할 수 있는 문서 스키마의 필드입니다. 현재 메타데이터에는 자유 텍스트 값, 열거형, 숫자, 날짜, 맵 (키-값 쌍의 JSON 계층 구조) 유형이 포함됩니다. 앞으로 Boolean, Money, 기타 유형을 지원할 계획입니다.
문서 추출기 (DocAI 등) 문서는 AI 파이프라인에 의해 추출될 수 있으므로 추출된 문서는 원본 문서와 함께 Document AI Warehouse에서 메타데이터로 수집 및 관리될 수 있습니다. 추출은 다음을 통해 실행할 수 있습니다.
  • Document AI 전문 파서 (조달 양식, 대출 양식 등)
  • OCR, AutoML, 양식 파서 (TIFF/PNG 등의 이미지용)
  • 기타 맞춤 모델
  • PDF, Office 문서 등 전문 문서 형식의 텍스트 추출 도구

    Document AI Warehouse는 Document AI Warehouse API를 호출하여 문서를 수집/업데이트하는 모든 추출 파이프라인과 함께 작동할 수 있습니다.

폴더 폴더는 문서의 가상 모음입니다 (동일한 문서가 하나 이상의 폴더에 포함될 수 있으므로 가상임). '문서 유형/스키마'가 있으며 문서와 마찬가지로 메타데이터와 액세스 제어 목록이 포함되어 있습니다.

폴더에 문서를 추가하려면 사용자에게 폴더에 대한 수정 권한과 문서에 대한 보기 권한이 필요합니다.

링크 링크는 폴더에 문서를 추가하거나 관련 문서를 함께 연결하는 데 사용됩니다. 링크에 '링크 유형'이 없습니다.
관련 문서 문서는 한 문서에서 다른 문서로의 방향 링크를 통해 연결될 수 있습니다.
연결 권한 폴더에 문서를 추가하려면 링크 소스 객체 (예: 폴더)에 대한 수정 권한과 링크 대상 객체 (예: 문서)에 대한 보기 권한이 필요합니다.
정책 문서/폴더가 생성/업데이트될 때 평가되는 정책으로, 문서 메타데이터, ACL을 검증 또는 업데이트하거나 폴더에서 문서를 추가/이동/삭제하는 데 사용됩니다. 정책은 다음으로 구성됩니다.
  • 문서 업데이트/문서 생성 시 트리거
  • 조건(예: Invoice.Amount <$1000)
  • 작업(예: 문서 메타데이터 업데이트, 조건 평가 반환, 폴더에 문서 추가 등)

    정책은 일반적으로 문서 유형과 연결됩니다.

    로우코드 공통 표현식 언어 (JSON 형식, 나중에 지정됨)로 표현됩니다.

알림 정책 특정 조건이 충족될 때 작업이 Pub/Sub 주제에 메시지를 게시하는 특수한 유형의 정책입니다. 애플리케이션 / 워크플로를 사용하는 경우 메시지를 사용하여 문서 또는 비즈니스 워크플로의 다른 부분에서 작업을 트리거할 수 있습니다.
정책 엔진, 정책 API 엔진: 정책을 평가하고 작업을 실행하는 서버

API: 정책을 생성/업데이트/읽기/삭제하는 데 사용되는 Admin API입니다.

속성별 검색 패싯은 검색어에 사용되는 메타데이터 필터입니다. 예를 들어 'Month = March 2021' 및 'Branch State = CA'를 검색하면 검색 결과가 이 두 패싯으로 필터링됩니다.
  • 패싯은 일반적으로 열거형 필드입니다. 향후 출시에서는 날짜 및 숫자 패싯이 지원될 예정입니다.
  • 문서 유형의 패싯은 관리자가 문서 스키마에 지정합니다 (Admin API를 통해).
시맨틱 검색 시맨틱 검색은 검색어의 동의어나 '의미상 관련된' 용어를 지원합니다. 예를 들어 '운전면허증'을 입력하면 '운전 허가증'이 반환됩니다.
히스토그램 검색 히스토그램은 속성별 검색 결과 분포 (수)를 반환하는 검색 API 기능입니다. 예를 들어 운전면허증의 검색 결과는 'CA 500, NV 150, …' 히스토그램을 반환합니다.
범용 액세스와 문서 수준 액세스 제어 비교 Document AI Warehouse에서는 각 프로젝트에 대해 두 가지 액세스 모드가 지원됩니다.
  1. 범용 액세스 - 모든 사용자가 프로젝트의 모든 문서에 액세스할 수 있습니다. API는 사용자 계정 또는 서비스 계정에 대한 액세스 제어가 적용되지만 문서 수준 권한은 없습니다.
  2. 문서 수준 ACL - 사용자에게 문서 수준 권한이 부여됩니다. 각 문서에는 사용자/그룹에 할당된 R/U/D 권한이 있습니다.