Document AI te permite entrenar versiones nuevas del procesador con tus propios datos de entrenamiento y evaluar la calidad de la versión del procesador en comparación con tus propios datos de prueba.
Esto es útil cuando deseas usar un procesador personalizado. Hay un procesador de Document AI para tu tipo de documento, pero puedes entrenar una versión personalizada para satisfacer tus necesidades.
Por lo general, el entrenamiento y la evaluación se realizan en conjunto para iterar hacia una versión del procesador de alta calidad y utilizable.
Document AI
Document AI te permite crear tu propio extractor personalizado, que extrae entidades de documentos de un tipo en particular, por ejemplo, los elementos de un menú o el nombre y la información de contacto de un currículum.
A diferencia de otros procesadores, los procesadores personalizados no incluyen versiones de procesadores previamente entrenadas y, por lo tanto, no pueden procesar ningún documento hasta que entrenes una versión desde cero.
Para comenzar a usar Document AI, consulta Crea tu propio procesador personalizado.
Entrena un procesador
Puedes entrenar versiones nuevas del procesador para mejorar la precisión de tus datos, extraer campos personalizados adicionales de tus documentos y agregar compatibilidad con idiomas nuevos.
El entrenamiento funciona aplicando el aprendizaje por transferencia en las versiones de procesadores previamente entrenadas de Google y, por lo general, requiere menos datos que el entrenamiento desde cero.
Para comenzar, consulta Enriquece un procesador previamente entrenado.
Procesadores compatibles
No todos los procesadores especializados admiten el entrenamiento. Estos son los procesadores que admiten el entrenamiento.
Consideraciones y recomendaciones sobre los datos
La calidad y la cantidad de tus datos determinan la calidad del entrenamiento, el entrenamiento y la evaluación.
Obtener un conjunto de documentos representativos del mundo real y proporcionar suficientes etiquetas de alta calidad suele ser la parte más lenta y que requiere más recursos del proceso.
Cantidad de documentos
Si todos tus documentos tienen un formato similar (por ejemplo, un formulario fijo con muy poca variación), se requieren menos documentos para lograr la precisión. Cuanto mayor sea la variación, más documentos se requerirán.
En los siguientes gráficos, se proporciona una estimación aproximada de la cantidad de documentos que se requieren para que un extractor de documentos personalizado alcance una puntuación de calidad en particular.
| Poca variación | Grandes variaciones |
|---|---|
![]() |
![]() |
Etiquetado de datos
Considera tus opciones para etiquetar documentos y asegúrate de tener suficientes recursos para anotar los documentos de tu conjunto de datos.
Entrena modelos
Los procesadores de extractores personalizados pueden usar diferentes tipos de modelos según el caso de uso específico y los datos de entrenamiento disponibles.
- Modelo personalizado: Es un modelo que usa datos de entrenamiento etiquetados.
- Basado en plantillas: Son documentos con un diseño fijo.
- Basado en modelos: Son documentos con alguna variación de diseño.
- Modelo de IA generativa: Se basa en modelos de base previamente entrenados que requieren un entrenamiento adicional mínimo.
En la siguiente tabla, se ilustran los casos de uso que corresponden a cada tipo de modelo.
| Modelo personalizado | IA generativa | ||
|---|---|---|---|
| Basado en plantillas | Basado en modelos | ||
| Variación de diseño | Ninguno | De baja a media | Alta |
| Cantidad de texto de formato libre (por ejemplo, párrafos en un contrato) | Baja | Baja | Alta |
| Cantidad de datos de entrenamiento requeridos | Baja | Alta | Baja |
| Precisión con datos de entrenamiento limitados | Superior | Inferior | Superior |
Aprende a ajustar un procesador con descripciones de propiedades.
Cuándo usar otro procesador
Estas son algunas instancias en las que es posible que desees considerar opciones además de Document AI Workbench o adaptar tu flujo de trabajo.
- Document AI Workbench no admite ciertos formatos de entrada basados en texto (.txt, .html, .docx, .md, etcétera). Considera otras ofertas de procesamiento de lenguaje precompiladas o personalizadas en Google Cloud, como la API de Cloud Natural Language.
- El esquema del extractor de documentos personalizado admite hasta 150 etiquetas de entidad. Si tu lógica empresarial requiere más de 150 entidades en la definición del esquema, considera entrenar varios procesadores, cada uno orientado a un subconjunto de entidades.
Cómo entrenar un procesador
Si ya creaste un procesador que admite entrenamiento o entrenamiento y etiquetaste tu conjunto de datos, puedes entrenar una versión nueva del procesador desde cero. También puedes entrenar una versión nueva del procesador en función de una existente.
Entrena la versión del procesador
IU web
En la Google Cloud consola de, ve a la pestaña Entrenar del procesador.
Haz clic en Editar esquema para abrir la página Administrar etiquetas. Verifica las etiquetas del procesador.
Las etiquetas que están habilitadas en el momento del entrenamiento determinan las entidades que extrae la nueva versión del procesador. Si una etiqueta está inactiva en el esquema, la versión del procesador no extrae esa etiqueta, incluso si los documentos están etiquetados.
En la pestaña Entrenar, haz clic en Ver estadísticas de etiquetas y verifica tu conjunto de prueba y entrenamiento. Los documentos que están etiquetados automáticamente, sin etiquetar o sin asignar se excluyen del entrenamiento y la evaluación.
Haz clic en Entrenar una versión nueva.
El Nombre de la versión define el campo
namedeprocessorVersion.
Haz clic en Comenzar entrenamiento y espera a que se entrene y evalúe la nueva versión del procesador.
Puedes supervisar el progreso del entrenamiento en la pestaña Administrar versiones:

Haz clic en la pestaña Evalúa y prueba para ver el rendimiento de la nueva versión del procesador en el conjunto de pruebas. Para obtener más información, consulta Evalúa la versión del procesador.
Python
Para obtener más información, consulta la Document AI Python API documentación de referencia.
Para autenticarte en Document AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Implementa y usa la versión del procesador
Puedes implementar y administrar tus versiones de procesador como cualquier otra versión de procesador. Para obtener más información, consulta Administra versiones de procesadores.
Una vez implementado, puedes enviar una solicitud de procesamiento a tu procesador personalizado.
Inhabilita o borra un procesador
Si ya no quieres usar un procesador, puedes inhabilitarlo o borrarlo. Si inhabilitas un procesador, puedes volver a habilitarlo. Si borras un procesador, no podrás recuperarlo.
En el panel Document AI de la izquierda, haz clic en Mis procesadores.
Haz clic en los puntos verticales a la derecha del nombre del procesador. Haz clic en Inhabilitar procesador o Borrar procesador.
Para obtener más información, consulta Administra versiones de procesadores.
Actualiza una versión ajustada del procesador
Puedes actualizar las versiones ajustadas del procesador de extractores personalizados personalizados a una versión base más reciente. Se creará una versión del procesador con una versión base más reciente con configuraciones basadas en la anterior, usando los datos de entrenamiento que se encuentran en el original en el procesador.
En la consola de Google Google Cloud , ve a la pestaña Implementar y usar del procesador, y selecciona una casilla de verificación para una versión compatible del procesador para actualizar. Esta será la base de la configuración de la nueva versión del procesador.

Selecciona la opción Actualizar habilitada. Ingresa el nombre y la versión base de la nueva versión del procesador.

Haz clic en Actualizar y espera a que se entrene la nueva versión del procesador.
Encriptación de datos de entrenamiento
Los datos de entrenamiento de Document AI se guardan en Cloud Storage y se pueden encriptar con claves de encriptación administradas por el cliente si es necesario.
Eliminación de datos de entrenamiento
Una vez que se completa un trabajo de entrenamiento de Document AI, todos los datos de entrenamiento guardados en Cloud Storage vencen después de un período de retención de dos días. Las actividades posteriores de eliminación de datos respetan el proceso descrito en Eliminación de datos en Google Cloud.
Precios
No hay costo por el entrenamiento ni el entrenamiento. Pagas por el hosting y la predicción. Para obtener más información, consulta Precios de Document AI.

