Este documento es una guía de los conceptos fundamentales para usar Document AI. Debes leer esta página antes de continuar con cualquier otra documentación o guía de inicio rápido.
Automatiza los flujos de trabajo de procesamiento de documentos
Las empresas de todo el mundo dependen en gran medida de los documentos para almacenar y transmitir información. A menudo, esta información debe digitalizarse para que sea útil. Sin embargo, esto suele lograrse a través de procesos manuales que requieren mucho tiempo.
Por ejemplo:
- Digitalizar libros para lectores electrónicos
- Procesar formularios de admisión médica en consultorios médicos
- Analizar recibos y facturas para la validación de informes de gastos
- Autenticar la identidad en función de las tarjetas de identificación
- Extraer información de ingresos de formularios de impuestos para aprobar préstamos
- Comprender los contratos para conocer los términos clave de los acuerdos comerciales
Cada uno de estos flujos de trabajo implica obtener el texto sin procesar de los documentos y, luego, extraer texto específico que corresponda a los datos necesarios (los campos o las entidades). Sin embargo, cada tipo de documento tiene una estructura y un diseño diferentes, y el patrón de los campos varía según el caso de uso específico.
Componentes de Document AI
Document AI es una plataforma de procesamiento y comprensión de documentos que toma datos no estructurados de documentos y los transforma en datos estructurados (campos específicos, adecuados para una base de datos), lo que facilita su comprensión, análisis y consumo.
Document AI se basa en productos de Vertex AI con IA generativa para ayudarte a crear aplicaciones de procesamiento de documentos escalables, de extremo a extremo y basadas en la nube sin experiencia especializada en aprendizaje automático.
Con Document AI, puedes hacer lo siguiente:
- Digitalizar documentos con OCR para obtener texto, diseño y varios complementos, como la detección de calidad de imagen (para la legibilidad) y la corrección de sesgo (completamente automática)
- Extraer texto y diseño de archivos de documentos y normalizar entidades
- Identificar pares clave-valor (kvp) en formularios estructurados y tablas regulares (por ejemplo,
Name: Jill Smithes un kvp) - Clasificar tipos de documentos para impulsar procesos posteriores, como la extracción y el almacenamiento
- Dividir y clasificar documentos por tipo (por ejemplo, un archivo PDF con varios documentos reales)
- Preparar conjuntos de datos para usarlos en el ajuste y las evaluaciones de modelos con funciones de etiquetado automático, administración de esquemas y administración de conjuntos de datos, como la revisión de documentos y predicciones
- Integrarlo con productos como Cloud Storage, BigQuery y Agent Search para ayudarte a almacenar, buscar, organizar, administrar y analizar documentos y metadatos
En este diagrama, se ilustran todos los pasos clave de procesamiento de documentos compatibles con Document AI y cómo se pueden conectar entre sí.

Procesador
Un procesador de Document AI se encuentra entre el archivo de documento y un modelo de aprendizaje automático que realiza acciones de procesamiento y comprensión de documentos. Se pueden usar para clasificar, dividir, analizar o analizar un documento.
Cada Google Cloud proyecto debe crear sus propias instancias de procesador.
Los procesadores se dividen en una de las siguientes categorías:
- Digitalizar: OCR.
- Extraer: Extractor personalizado, Form Parser, analizador de diseño y analizadores preentrenados
- Clasificar: Clasificador personalizado y divisor personalizado
Consulta la lista completa de procesadores y detalles para obtener información sobre todos los tipos de procesadores disponibles para Document AI.
¿Qué procesador debo usar?
Para decidir qué tipo de procesador usar para una aplicación específica, aquí tienes algunos lineamientos generales:
| Categoría | Caso práctico | Tipo de procesador |
|---|---|---|
| Digitalizar | Extrae texto y diseño de documentos. | Enterprise Document OCR |
| Analiza la calidad de imagen escaneada (legibilidad) de un documento. | Enterprise Document OCR con el análisis de calidad de imagen habilitado | |
| Extrae entidades de un documento personalizado que no cumple con los criterios del procesador personalizado. | ||
| Extraer | Extrae tablas o kvp de un formulario estructurado en un documento. | Form Parser |
| Extrae elementos como texto, tablas y listas en un documento y muestra fragmentos con contexto. | Layout Parser | |
| Extrae entidades de un documento personalizado que cumple con los criterios del procesador personalizado. | Crea un extractor personalizado | |
| Extrae entidades de un tipo de documento especializado. | Un procesador preentrenado (enriquece para mejorar la calidad) | |
| Clasificar | Clasifica documentos. | Crea un clasificador personalizado |
| Divide documentos. | Crea un separador personalizado |
Este diagrama ayuda a determinar qué procesador funciona mejor para cada caso de uso.

Usa procesadores de Document AI
Estos son los pasos principales para usar Document AI y comenzar a procesar documentos:
Elige un procesador que sea adecuado para tu caso de uso.
- Para obtener información completa sobre cada procesador, consulta la lista completa de procesadores y detalles.
Crea un procesador con la Google Cloud consola o la API de Document AI.
Document AI crea un extremo de predicción en el que puedes enviar tus documentos.
Para obtener instrucciones detalladas, consulta Crea un procesador.
Entrena un procesador con datos de entrenamiento y prueba desde cero, o enriquece una versión nueva (preentrenada) del procesador sobre una existente.
- Para obtener instrucciones detalladas, consulta Entrena el procesador.
Envía tus documentos para su procesamiento.
Document AI procesa los documentos y muestra uno o más
Documentobjetos, que contienen la información estructurada extraída.Para obtener instrucciones detalladas, consulta Envía una solicitud de procesamiento y Controla la respuesta de procesamiento.