Extração baseada em personalização

A preparação e a extração de modelos personalizados permitem-lhe criar o seu próprio modelo concebido especificamente para os seus documentos sem usar a IA generativa. É ideal se não quiser usar a IA generativa e quiser controlar todos os aspetos do modelo preparado.

Configuração do conjunto de dados

É necessário um conjunto de dados de documentos para formar, atualizar a formação ou avaliar uma versão do processador. Os processadores do Document AI aprendem com exemplos, tal como os humanos. O conjunto de dados melhora a estabilidade do processador em termos de desempenho.

Conjunto de dados de preparação

Para melhorar o modelo e a respetiva precisão, prepare um conjunto de dados nos seus documentos. O modelo é composto por documentos com dados reais. Precisa de, pelo menos, três documentos para preparar um novo modelo.

Conjunto de dados de teste

O conjunto de dados de teste é o que o modelo usa para gerar uma pontuação F1 (precisão). É composto por documentos com dados reais. Para ver a frequência com que o modelo está correto, a verdade fundamental é usada para comparar as previsões do modelo (campos extraídos do modelo) com as respostas corretas. O conjunto de dados de teste deve ter, pelo menos, três documentos.

Antes de começar

Se ainda não o fez, ative a faturação e a API Document AI.

Crie e avalie um modelo personalizado

Comece por criar e, em seguida, avaliar um processador personalizado.

  1. Crie um processador e defina os campos que quer extrair, o que é importante porque afeta a qualidade da extração.

  2. Defina a localização do conjunto de dados: selecione a pasta de opção predefinida Gerido pela Google. Isto pode ser feito automaticamente pouco depois de criar o processador.

  3. Navegue para o separador Criar e selecione Importar documentos com a etiquetagem automática ativada (consulte o artigo Etiquetagem automática com o modelo base). Precisa de, no mínimo, 10 documentos no conjunto de preparação e 10 no conjunto de testes para preparar um modelo personalizado.

  4. Modelo de comboio:

    1. Selecione Preparar nova versão e atribua um nome à versão do processador.
    2. Aceda a Mostrar opções avançadas e selecione a opção Baseado em modelo.

    custom-based-extraction-1

  5. Avaliação:

    • Aceda a Avaliar e testar, selecione a versão que acabou de preparar e, de seguida, selecione Ver avaliação completa.

    custom-based-extraction-2

    • Agora, vê métricas como f1, precisão e recall para todo o documento e cada campo.
    • Decida se o desempenho cumpre os seus objetivos de produção. Se não cumprir, reavalie os conjuntos de dados de preparação e de testes, normalmente adicionando documentos ao conjunto de dados de preparação de testes que não são analisados corretamente.
  6. Definir uma nova versão como predefinida.

    1. Navegue para Gerir versões.
    2. Navegue para o menu e, de seguida, selecione Definir como predefinição.

    custom-based-extraction-3

O seu modelo está agora implementado e os documentos enviados para este processador estão a usar a sua versão personalizada. Quer avaliar o desempenho do modelo para verificar se requer mais preparação.

Referência de avaliação

O motor de avaliação pode fazer correspondência exata ou correspondência aproximada. Para uma correspondência exata, o valor extraído tem de corresponder exatamente à verdade fundamental ou é contabilizado como uma falha.

As extrações de correspondência aproximada que tinham pequenas diferenças, como diferenças na utilização de maiúsculas e minúsculas, continuam a ser consideradas uma correspondência. Pode alterar esta opção no ecrã Avaliação.

custom-based-extraction-4

Etiquetagem automática com o modelo base

O modelo base pode extrair campos com precisão para uma variedade de tipos de documentos, mas também pode fornecer dados de preparação adicionais para melhorar a precisão do modelo para estruturas de documentos específicas.

A IA Documentos usa os nomes das etiquetas que define e as anotações anteriores para etiquetar documentos em grande escala com a etiquetagem automática.

  1. Depois de criar um processador personalizado, aceda ao separador Começar.
  2. Selecione Criar novo campo.
  3. Indique um nome descritivo e preencha o campo de descrição. A descrição da propriedade permite fornecer contexto, estatísticas e conhecimentos prévios adicionais para cada entidade, de modo a melhorar a precisão e o desempenho da extração.

custom-based-extraction-5

  1. Navegue para o separador Criar e, de seguida, selecione Importar documentos.

    custom-based-extraction-6

  2. Selecione o caminho dos documentos e o conjunto para o qual os documentos devem ser importados. Selecione a caixa de etiquetagem automática e selecione o modelo base.

  3. No separador Criar, selecione Gerir conjunto de dados. Deve ver os documentos importados. Selecione um dos seus documentos.

    custom-based-extraction-7

Agora, vê as previsões do modelo realçadas a roxo.

  1. Reveja cada etiqueta prevista pelo modelo e certifique-se de que está correta. Se existirem campos em falta, adicione-os também.

custom-based-extraction-8

  1. Depois de rever o documento, selecione Marcar como etiquetado. O documento está agora pronto para ser usado pelo modelo. Certifique-se de que o documento está no conjunto de Testes ou Formação.