Divisor personalizado

El separador personalizado se ha diseñado para dividir documentos compuestos (documentos formados por varias clases) en documentos de una sola clase identificando cada documento lógico. Por ejemplo, un paquete hipotecario contiene varias clases, como la solicitud, la verificación de ingresos y la identificación con foto. Los procesadores de división personalizados se pueden usar tal cual o se pueden entrenar desde cero con tus propios documentos y clases personalizadas.

Descripción y uso de Splitter

Puedes crear divisores personalizados que se adapten específicamente a tus documentos y que se entrenen y evalúen con tus datos, o bien desplegar modelos preentrenados con IA generativa. Estos procesadores identifican clases de documentos de un conjunto de clases definido por el usuario. Después, podrá usar estos procesadores en sus documentos. Normalmente, usarías un separador personalizado en archivos compuestos por diferentes tipos de documentos lógicos y, a continuación, usarías la identificación de clase de cada uno para enviar los documentos a un procesador de extracción adecuado y extraer las entidades.

Los modelos de aprendizaje automático no son perfectos y tienen un cierto margen de error. Además, los errores en la división suelen ser muy problemáticos (una división incorrecta hace que dos documentos sean incorrectos y provoca errores de extracción). Por eso, es recomendable que una persona revise el resultado de la predicción de la división antes de dividir el archivo. En función de los requisitos empresariales, hay alternativas a la revisión humana constante:

  • Usa las puntuaciones de confianza de la predicción para decidir si se debe omitir la revisión humana (si son lo suficientemente altas). El umbral de puntuación de confianza debe determinarse en función del historial de datos sobre las tasas de error con puntuaciones de confianza concretas. Esta decisión debe basarse en la tolerancia de los procesos empresariales a los errores y en el requisito de omitir la revisión humana.
  • En algunos casos prácticos, los documentos divididos se pueden dirigir directamente al extractor adecuado según la clase prevista. Después, si la extracción está incompleta o tiene puntuaciones de confianza bajas, aísla los documentos divididos y activa el documento compuesto original y la decisión de división para que se revisen. Esto tiene requisitos de flujo de trabajo bastante complejos.

Versiones de modelos de divisores personalizados

Los siguientes modelos están disponibles para el divisor personalizado. Para cambiar las versiones del modelo, consulta Gestionar versiones de procesadores.

La versión 1.5 admite puntuaciones de confianza.

Versión del modelo Descripción Canal de lanzamiento Fecha de lanzamiento
pretrained-splitter-v1.5-2025-07-14 Versión candidata basada en el LLM Gemini 2.5 Flash. Este modelo preentrenado se puede usar sin entrenamiento previo. Admite la división y la clasificación sin ejemplos. Versión candidata 14 de julio del 2025

Para enviar una solicitud de aumento de cuota (QIR) para la cuota predeterminada del procesador, sigue los pasos que se indican en Gestionar tu cuota.

Decidir qué versión de divisor personalizado usar

Cuando uses un separador personalizado, entrena con tus propios datos o usa una versión preentrenada con IA generativa, como pretrained-splitter-v1.5-2025-07-14.

El proceso de entrenamiento puede tardar varias horas, pero te permite ajustar el modelo a las características específicas de tus datos. Las versiones preentrenadas se basan en modelos de Gemini. Se pueden poner en producción en menos tiempo o usarse para iterar y probar rápidamente los esquemas de etiquetado. No requieren un conjunto de datos de entrenamiento.

Esta guía se aplica a ambas versiones y se indicarán los pasos diferentes para cada una cuando varíen.

Crear un divisor personalizado en la consola Google Cloud

En esta guía de inicio rápido se describe cómo usar Document AI para crear y entrenar un separador personalizado que divida y clasifique documentos de aprovisionamiento. La mayor parte de la preparación del documento ya está hecha, por lo que puedes centrarte en crear un divisor personalizado.

El flujo de trabajo habitual para crear y usar una versión base entrenada de un divisor personalizado es el siguiente:

  1. Crea un divisor personalizado en Document AI.
  2. Crea un conjunto de datos con un segmento de Cloud Storage vacío.
  3. Defina y cree el esquema del procesador (clases).
  4. Importa documentos.
  5. Asigna documentos a los conjuntos de entrenamiento y de prueba.
  6. Anota documentos manualmente en Document AI o con tareas de etiquetado.
  7. Entrena al procesador.
  8. Evalúa el procesador.
  9. Implementa el procesador.
  10. Prueba el procesador.
  11. Usar el procesador en tus documentos.

El flujo de trabajo habitual para crear y usar una versión preentrenada de un divisor personalizado es el siguiente:

  1. Crea un divisor personalizado en Document AI.
  2. Crea un conjunto de datos con un segmento de Cloud Storage vacío.
  3. Seleccionar una versión de un modelo preentrenado
  4. Defina y cree el esquema del procesador (clases).
  5. (Opcional) Importa documentos.
  6. (Opcional, si quieres evaluar su rendimiento) Asigna documentos a los conjuntos de pruebas.
  7. (Opcional) Evalúa el procesador.
  8. Prueba el procesador.
  9. Implementa el procesador.
  10. Usar el procesador en tus documentos.

Para seguir las instrucciones paso a paso de esta tarea directamente en la Google Cloud consola, haz clic en Ayúdame:

Guíame


Antes de empezar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Crear un procesador

    1. En la Google Cloud consola, en la sección Document AI, ve a la página Workbench.

      Espacio de trabajo

    2. En Divisor de documentos personalizado, seleccione Crear procesador. custom-splitter-1

    3. En el menú Crear procesador, escribe el nombre del procesador, como my-custom-document-splitter.

      custom-splitter-2

    4. Selecciona la región más cercana.

    5. Selecciona Crear. Aparecerá la pestaña Detalles del procesador.

    Configurar un conjunto de datos

    Para entrenar este nuevo procesador, debes crear un conjunto de datos con datos de entrenamiento y de prueba que ayuden al procesador a identificar los documentos que quieres dividir y clasificar.

    Este conjunto de datos requiere una nueva ubicación. Puede ser un segmento de Cloud Storage o una carpeta vacíos, o bien puedes permitir una ubicación gestionada por Google (interna).

    • Si quieres almacenamiento gestionado por Google, selecciona esa opción.
    • Si quieres usar tu propio almacenamiento para usar claves de cifrado gestionadas por el cliente (CMEK), selecciona Especificaré mi propia ubicación de almacenamiento y sigue el procedimiento que se indica más adelante.

    custom-splitter-3

    Crear un segmento de Cloud Storage para el conjunto de datos

    1. Ve a la pestaña Entrenar de tu procesador.

    2. Selecciona Definir ubicación del conjunto de datos. Se te pedirá que selecciones o crees un segmento o una carpeta de Cloud Storage vacíos.

      custom-splitter-4

    3. Selecciona Buscar para abrir Seleccionar carpeta.

    4. Selecciona el icono Crear un nuevo contenedor y sigue las instrucciones para crear un contenedor. Después de crear el segmento, aparecerá la página Seleccionar carpeta. Para obtener más información sobre cómo crear un segmento de Cloud Storage, consulta Segmentos de Cloud Storage.

    5. En la página Seleccionar carpeta de tu contenedor, elige el botón Seleccionar situado en la parte inferior del cuadro de diálogo.

      custom-splitter-5

    Comprueba que la ruta de destino se haya rellenado con el nombre del segmento que has seleccionado. Selecciona Crear conjunto de datos. El conjunto de datos puede tardar varios minutos en crearse.

    (Opcional) Selecciona una versión del modelo preentrenado

    Si has decidido usar un modelo preentrenado, primero debes seleccionarlo en la sección Implementar y usar. Puedes omitir las secciones posteriores a la siguiente, "Define el esquema del procesador".

    1. Ve a Implementar y usar.

      custom-splitter-15

    2. Haz clic en el desplegable Gestionar versiones.

    3. Seleccione la versión del procesador que haya elegido.

    Definir el esquema del procesador

    Puede crear el esquema del procesador antes o después de importar documentos en su conjunto de datos. El esquema proporciona etiquetas que se usan para anotar documentos.

    1. En la pestaña Compilación, selecciona Gestionar conjunto de datos. Se abrirá la página de gestión del conjunto de datos.

    2. Selecciona Editar esquema.

    3. Selecciona Crear etiqueta y escribe el nombre de la etiqueta. Selecciona Crear. Consulta Definir el esquema del procesador para obtener instrucciones detalladas sobre cómo crear y editar un esquema.

    4. Crea cada una de las siguientes etiquetas para el esquema del procesador.

      • bank_statement
      • form_1040
      • form_w2
      • form_w9
      • paystub
    5. Cuando haya terminado de añadir las etiquetas, seleccione Guardar.

      custom-splitter-6

    Importar un documento sin etiquetar a un conjunto de datos

    El siguiente paso es empezar a importar documentos sin etiquetar en tu conjunto de datos y etiquetarlos. Una alternativa recomendada es importar documentos organizados en carpetas por clase, si están disponibles.

    Si trabajas en tu propio proyecto, tú decides cómo etiquetar los datos. Consulta las opciones de etiquetado.

    Los procesadores personalizados de Document AI requieren un mínimo de 10 documentos en los conjuntos de entrenamiento y de prueba, así como 10 instancias de cada etiqueta en cada conjunto. Recomendamos que cada conjunto tenga al menos 50 documentos y que cada etiqueta tenga 50 instancias para obtener el mejor rendimiento posible. Por lo general, cuantos más datos de entrenamiento se utilicen, mayor será la precisión.

    1. En la pestaña Entrenar, selecciona Importar documentos.

      custom-splitter-7

    2. En este ejemplo, introduce esta ruta en Ruta de origen. Contiene un PDF de un documento.

      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-Unlabeled
      
    3. En Etiqueta del documento, selecciona Ninguna.

    4. En el menú desplegable División del conjunto de datos, selecciona Sin asignar.

      De forma predeterminada, el documento de esta carpeta no tiene ninguna etiqueta ni se asigna al conjunto de prueba o de entrenamiento.

    5. Selecciona Importar. Document AI lee los documentos del segmento y los añade al conjunto de datos. No modifica el contenedor de importación ni lee del contenedor una vez que se ha completado la importación.

    Cuando importas documentos, puedes asignarlos al conjunto Entrenamiento o Prueba durante la importación, o bien esperar a asignarlos más adelante.

    Si quieres eliminar uno o varios documentos que has importado, selecciónalos en la pestaña Entrenar y, a continuación, selecciona Eliminar.

    Para obtener más información sobre cómo preparar los datos para la importación, consulta la guía de preparación de datos.

    Opcional: Etiquetar documentos por lotes al importarlos

    Puedes etiquetar todos los documentos que se encuentren en un directorio concreto al importarlos para ahorrar tiempo. Si tienes tus documentos de entrenamiento organizados por clase en carpetas, puedes usar el campo Etiqueta de documento para especificar la clase de esos documentos y evitar tener que etiquetar cada documento manualmente.

    custom-splitter-8

    En la imagen, se muestran las etiquetas definidas Extractos_bancarios y Factura (clases de documentos) que puedes seleccionar. También puedes usar CREATE LABEL y definir una nueva clase.

    1. Haz clic en Importar documentos.
    2. Introduce la siguiente ruta en Ruta de origen. Este contenedor contiene documentos sin etiquetar en formato PDF.

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel

    3. En la lista División de datos, seleccione División automática. De esta forma, los documentos se dividen automáticamente en un 80% para el conjunto de entrenamiento y un 20% para el conjunto de prueba.

    4. En la sección Aplicar etiquetas, selecciona Elegir etiqueta.

    5. En el caso de estos documentos de muestra, selecciona Otro.

    6. Haz clic en Importar y espera a que se importen los documentos. Puedes salir de esta página y volver más tarde.

    Etiquetar un documento

    El proceso de aplicar etiquetas a un documento se conoce como anotación.

    1. Vuelve a la pestaña Entrenar y selecciona un documento para abrir la consola Gestión de etiquetas.

    2. Este documento contiene varios grupos de páginas que deben identificarse y etiquetarse. Primero, debes identificar los puntos de división. Mueve el ratón entre las páginas 1 y 2 de la vista de imagen y selecciona el símbolo +.

      custom-splitter-9

    3. Crea puntos de división antes de los siguientes números de página: 2, 3, 4 y 5.

      Cuando haya terminado, la consola debería tener este aspecto. custom-splitter-10

    4. En el menú desplegable Tipo de documento, seleccione la etiqueta adecuada para cada grupo de páginas.

      Página(s) Tipo de documento
      1 paystub
      2 form_w9
      3 bank_statement
      4 form_w2
      5 y 6 form_1040

      El documento etiquetado debería tener este aspecto cuando esté completo: custom-splitter-11

    5. Selecciona Marcar como etiquetado cuando hayas terminado de anotar el documento.

      En la pestaña Entrenamiento, el panel de la izquierda muestra que se ha etiquetado un documento.

    Asignar el documento anotado al conjunto de entrenamiento

    Ahora que has etiquetado este documento de ejemplo, puedes asignarlo al conjunto de entrenamiento.

    1. En la pestaña Entrenar, marca la casilla Seleccionar todo.

    2. En la lista Asignar a conjunto selecciona Entrenamiento.

    En el panel de la izquierda, verá que se ha asignado un documento al conjunto de entrenamiento.

    Importar datos con el etiquetado por lotes

    A continuación, importa archivos PDF sin etiquetar que se clasifican en diferentes carpetas de Cloud Storage según su tipo. El etiquetado por lotes te ayuda a ahorrar tiempo al asignar una etiqueta en el momento de la importación en función de la ruta.

    1. En la pestaña Entrenar, selecciona Importar documentos.

    2. Introduce la siguiente ruta en Ruta de origen. Esta carpeta contiene PDFs de extractos bancarios.

      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/bank-statement
      
    3. Define la etiqueta del documento como bank_statement.

    4. En el menú División del conjunto de datos, selecciona División automática. De esta forma, los documentos se dividen automáticamente en un 80 % para el conjunto de entrenamiento y un 20% para el conjunto de prueba.

    5. Selecciona Añadir otra carpeta para añadir más carpetas.

    6. Repite los pasos anteriores con las siguientes rutas y etiquetas de documento:

      Ruta del segmento Etiqueta del documento
      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/1040 form_1040
      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w2 form_w2
      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w9 form_w9
      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/paystub paystub

      Cuando se haya completado, la consola debería tener este aspecto: custom-splitter-12

    7. Selecciona Importar. La importación tarda varios minutos.

    Cuando la importación haya terminado, busca los documentos en la pestaña Entrenamiento.

    Importar datos preetiquetados

    En esta guía, se le proporcionan datos preetiquetados en formato Document como archivos JSON.

    Este es el mismo formato que genera Document AI al procesar un documento, etiquetar con intervención humana o exportar un conjunto de datos.

    1. En la pestaña Entrenar, selecciona Importar documentos.

    2. Introduce la siguiente ruta en Ruta de origen.

      cloud-samples-data/documentai/Custom/Lending-Splitter/JSON-Labeled
      
    3. En Etiqueta del documento, selecciona Ninguna.

    4. En el menú desplegable División del conjunto de datos , selecciona División automática.

    5. Selecciona Importar.

    Cuando la importación haya terminado, busca los documentos en la pestaña Entrenamiento.

    Entrenar el procesador

    Ahora que has importado los datos de entrenamiento y de prueba, puedes entrenar el procesador. Como el entrenamiento puede tardar varias horas, asegúrate de configurar el procesador con los datos y las etiquetas adecuados antes de empezar.

    1. Selecciona Entrenar nueva versión.

    2. En el campo Nombre de la versión, introduce un nombre para esta versión del procesador, como my-cds-version-1.

    3. (Opcional) Selecciona Ver estadísticas de etiquetas para obtener información sobre las etiquetas del documento. Esto puede ayudarte a determinar tu cobertura. Selecciona Cerrar para volver a la configuración del entrenamiento.

      custom-splitter-13

    4. Selecciona Iniciar entrenamiento Puedes consultar el estado en el panel de la derecha.

    Desplegar la versión del procesador

    1. Una vez completada la formación, ve a la pestaña Gestionar versiones. Puedes ver los detalles de la versión que acabas de entrenar.

    2. Selecciona los tres puntos verticales a la derecha de la versión que quieras implementar y, a continuación, Implementar versión.

    3. Selecciona Implementar en la ventana emergente.

      El despliegue tarda unos minutos en completarse.

    Evaluar y probar el procesador

    1. Una vez completada la implementación, ve a la pestaña Evaluar y probar.

      En esta página, puede ver métricas de evaluación, como la puntuación F1, la precisión y la recuperación del documento completo y de las etiquetas individuales. Para obtener más información sobre la evaluación y las estadísticas, consulta Evaluar procesador.

    2. Descarga un documento que no se haya usado en entrenamientos o pruebas anteriores para poder usarlo y evaluar la versión del procesador. Si usas tus propios datos, debes usar un documento específico para ello.

      Descargar PDF

    3. Selecciona Subir documento de prueba y elige el documento que acabas de descargar.

      Se abrirá la página Análisis de separadores personalizados. La salida de pantalla muestra cómo se ha dividido y clasificado el documento.

      Cuando se haya completado, la consola debería tener este aspecto: custom-splitter-14

      También puedes volver a ejecutar la evaluación con otro conjunto de pruebas u otra versión del procesador.

    (Opcional) Importar datos con el etiquetado automático

    Después de implementar una versión de procesador entrenada, puedes usar el etiquetado automático para ahorrar tiempo al etiquetar documentos nuevos.

    1. En la pestaña Entrenar, selecciona Importar documentos.

    2. Introduce la siguiente ruta en Ruta de origen. Esta carpeta contiene PDFs sin etiquetar de varios tipos de documentos.

      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-AutoLabel
      
    3. En Etiqueta del documento, selecciona Etiquetado automático.

    4. En el menú desplegable División del conjunto de datos , selecciona División automática.

    5. En la sección Etiquetado automático, define la versión como la que has entrenado anteriormente.

      • Por ejemplo: 2af620b2fd4d1fcf
    6. Selecciona Importar y espera a que se importen los documentos.

    7. No puedes usar documentos con etiquetas automáticas para entrenar o probar modelos sin marcarlos como etiquetados. Ve a la sección Etiquetado automático para ver los documentos etiquetados automáticamente.

    8. Selecciona el primer documento para acceder a la consola de etiquetado.

    9. Verifica la etiqueta para asegurarte de que sea correcta y, si no lo es, ajústala.

    10. Cuando hayas terminado, selecciona Marcar como etiquetado.

    11. Repite la verificación de la etiqueta en cada documento etiquetado automáticamente.

    12. Vuelve a la página Entrenar y selecciona Entrenar nueva versión para usar los datos en el entrenamiento.

    Usar el procesador

    Ha creado y entrenado correctamente un procesador de división personalizado.

    Puede gestionar sus versiones de procesador entrenadas de forma personalizada igual que cualquier otra versión de procesador. Para obtener más información, consulta el artículo Gestionar versiones de procesador.

    Una vez implementado, puedes enviar una solicitud de procesamiento a tu procesador personalizado y la respuesta se puede gestionar igual que otros procesadores de división.

    Limpieza

    Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos utilizados en esta página, sigue estos pasos.

    Para evitar cargos innecesarios, usa la Google Cloud para eliminar tu procesador y tu proyecto si no los necesitas.Google Cloud console

    Si has creado un proyecto nuevo para aprender a usar Document AI y ya no lo necesitas, elimínalo.

    Si has usado un proyecto, elimina los recursos que hayas creado para evitar que se apliquen cargos en tu cuenta: Google Cloud

    1. En el menú de navegación de la consola, selecciona Document AI y, a continuación, Mis procesadores. Google Cloud

    2. Selecciona Más acciones en la misma fila que el procesador que quieras eliminar.

    3. Selecciona Eliminar procesador, escribe el nombre del procesador y, a continuación, selecciona Eliminar de nuevo para confirmar la acción.

    Siguientes pasos