In diesem Dokument wird beschrieben, wie Sie die Dokumente in Document AI Warehouse verwalten, einschließlich der Vorgänge zum Erstellen, Abrufen, Aktualisieren und Löschen.
Was sind Dokumente?
Ein Dokument ist das Datenmodell, das in Document AI Warehouse verwendet wird, um ein reales Dokument (z. B. PDF oder TXT) und die zugehörigen Eigenschaften zu organisieren. Sie interagieren mit Document AI Warehouse über Vorgänge für die Dokumente.
Unterstützte Dateitypen
Document AI Warehouse konzentriert sich zwar auf Dokumente, wird aber auch zum Verwalten zugehöriger Bilder verwendet (z. B. in Branchen wie Versicherungen, Ingenieurwesen, Bauwesen und Forschung).
- Die Ingest API unterstützt PDFs und TIFF-, JPEG- und PNG-Bilder sowie alle Eigenschaften oder vorab extrahierten Texte.
- Die Upload UI unterstützt die Extraktion von PDFs mit Document AI OCR und benutzerdefinierten Prozessoren.
- Die Viewer UI unterstützt das Rendering in PDF-, Text- und Microsoft Office-Dateien.
Hinweis
Führen Sie zuerst die Schritte auf der Schnellstart Seite aus.
Wenn sich Ihre Daten für die Dokumenterstellung in einem eigenen Cloud Storage-Bucket befinden, müssen Sie dem Document AI Warehouse-Dienstkonto die Berechtigung „Storage-Objekt-Betrachter“ gewähren, damit es Ihre Daten lesen kann.
Jedes Dokument wird durch ein Schema angegeben und gehört zu einem Dokumenttyp. Ein Dokumentschema definiert die Dokumentstruktur in Document AI Warehouse. Bevor Sie Dokumente erstellen können, müssen Sie ein Dokumentschema erstellen.
Dokument erstellen
Zum Erstellen eines Dokuments müssen Sie Document AI Warehouse Rohdokumentinhalte zur Verfügung stellen. Es gibt zwei Möglichkeiten, Rohdokument-Byteinhalte bereitzustellen: Sie können entweder Document.inline_raw_document oder Document.raw_document_path festlegen.
Es bestehen jedoch folgende Unterschiede:
Document.raw_document_path: Dies ist der bevorzugte Ansatz. Dabei wird der Cloud Storage-Pfad (gs://bucket/object) der aufzunehmenden Datei verwendet. Der Aufrufer muss die Leseberechtigung für dieses Objekt haben, damit der Aufruf erfolgreich ist.Document.inline_raw_document: Byte-/Textdarstellung der Datei, die direkt an den Endpunkt gesendet wird.
So erstellen Sie ein Dokument:
Dokument aus Cloud Storage hochladen
Sie müssen dem Document AI Warehouse-Dienstkonto Zugriff auf Ihren Cloud Storage-Bucket gewähren, wie im Abschnitt zu den Voraussetzungen beschrieben.
Sie müssen Ihre Datei gemäß der Anleitung in einen Cloud Storage-Bucket hochladen.
REST
Anfrage:
curl --location --request POST --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documents \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=utf-8" \
--data '{
"document": {
"display_name": "TestDoc3",
"document_schema_name": "projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas/DOCUMENT_SCHEMA_ID",
"raw_document_path": "gs://BUCKET_URI/FILE_URI",
"properties": [
{
"name": "supplier_name",
"text_values": {
"values": "Stanford Plumbing & Heating"
}
},
{
"name": "total_amount",
"float_values": {
"values": "1091.81"
}
},
]
},
"requestMetadata":{
"userInfo":{
"id": "user:USER_EMAIL_ID"
}
}
}'Vom lokalen Computer hochladen
REST
Anfrage:
curl --location --request POST --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documents/ \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=utf-8" \
--data '{
"document": {
"display_name": "TestDoc3",
"document_schema_name": "projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas/DOCUMENT_SCHEMA_ID",
"inline_raw_document": "<bytes>",
"properties": [
{
"name": "supplier_name",
"text_values": {
"values": "Stanford Plumbing & Heating"
}
},
{
"name": "total_amount",
"float_values": {
"values": "1091.81"
}
},
]
},
"requestMetadata": {
"userInfo": {
"id": "user:USER_EMAIL_ID"
}
}
}'Dokument abrufen
Nach document_id:
REST
curl --request POST \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=UTF-8" -d '{
"requestMetadata":{
"userInfo":{
"id": "user:USER_EMAIL"
}
}
}' \
"https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT_ID:get"Python
Weitere Informationen finden Sie in der Document AI Warehouse Python API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Document AI Warehouse Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Weitere Informationen finden Sie in der Document AI Warehouse Java API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Document AI Warehouse Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Weitere Informationen finden Sie in der Document AI Warehouse Node.js API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Document AI Warehouse Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Nach reference_id:
curl --request POST \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=UTF-8" -d '{
"requestMetadata":{
"userInfo":{
"id": "user:USER_EMAIL"
}
}
}' \
"https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documents/referenceId/REFERENCE_ID:get"Dokument aktualisieren
Nach document_id:
REST
posix-terminal
curl --location --request POST --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documents \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=utf-8" \
--data '{
"document": {
"display_name": "TestDoc3",
"document_schema_name": "projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas/DOCUMENT_SCHEMA_ID",
"raw_document_path": "gs://BUCKET_URI/FILE_URI",
"properties": [
{
"name": "supplier_name",
"text_values": {
"values": "Stanford Plumbing & Heating"
}
},
{
"name": "total_amount",
"float_values": {
"values": "1091.81"
}
},
{
"name": "invoice_id",
"text_values": {
"values": "invoiceid"
}
},
]
},
"requestMetadata": {
"userInfo": {
"id": "user:USER_EMAIL"
}
}
}'
Python
Weitere Informationen finden Sie in der Document AI Warehouse Python API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Document AI Warehouse Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Weitere Informationen finden Sie in der Document AI Warehouse Java API Referenzdokumentation.
Richten Sie zur Authentifizierung bei Document AI Warehouse Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Nach reference_id:
curl --location --request POST --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documents \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=utf-8" \
--data '{
"document": {
"display_name": "TestDoc3",
"document_schema_name": "projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas/referenceId/REFERENCE_ID",
"raw_document_path": "gs://BUCKET_URI/FILE_URI",
"properties": [
{
"name": "supplier_name",
"text_values": {
"values": "Stanford Plumbing & Heating"
}
},
{
"name": "total_amount",
"float_values": {
"values": "1091.81"
}
},
{
"name": "invoice_id",
"text_values": {
"values": "invoiceid"
}
},
]
},
"requestMetadata": {
"userInfo": {
"id": "user:USER_EMAIL"
}
}
}'Dokument löschen
REST
Nach document_id:
curl --request POST \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=UTF-8" -d '{
"requestMetadata":{
"userInfo":{
"id": "user:USER_EMAIL"
}
}
}' \
"https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT_ID:delete"Nach reference_id:
curl --request POST \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=UTF-8" -d '{
"requestMetadata":{
"userInfo":{
"id": "user:USER_EMAIL"
}
}
}' \
"https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documents/referenceId/REFERENCE_ID":delete"Nächste Schritte
- Unter Dokumente in Ordnern organisieren erfahren Sie, wie Sie Dokumente in Ordnern organisieren.