Extração baseada em modelos

Pode preparar um modelo de elevado desempenho com apenas três documentos de preparação e três documentos de teste para exemplos de utilização de esquemas fixos. Acelere o desenvolvimento e reduza o tempo de produção para tipos de documentos baseados em modelos, como W9, 1040, ACORD, inquéritos e questionários.

Configuração do conjunto de dados

É necessário um conjunto de dados de documentos para formar, atualizar a formação ou avaliar uma versão do processador. Os processadores do Document AI aprendem com exemplos, tal como os humanos. O conjunto de dados melhora a estabilidade do processador em termos de desempenho.

Conjunto de dados de preparação

Para melhorar o modelo e a respetiva precisão, prepare um conjunto de dados nos seus documentos. O modelo é composto por documentos com dados reais. Precisa de, pelo menos, três documentos para preparar um novo modelo.

Conjunto de dados de teste

O conjunto de dados de teste é o que o modelo usa para gerar uma pontuação F1 (precisão). É composto por documentos com dados reais. Para ver a frequência com que o modelo está correto, a verdade fundamental é usada para comparar as previsões do modelo (campos extraídos do modelo) com as respostas corretas. O conjunto de dados de teste deve ter, pelo menos, três documentos.

Antes de começar

Se ainda não o fez, ative:

Práticas recomendadas de etiquetagem no modo de modelo

A etiquetagem adequada é um dos passos mais importantes para alcançar uma elevada precisão. O modo de modelo tem uma metodologia de etiquetagem exclusiva que difere de outros modos de preparação:

  • Desenhe caixas delimitadoras à volta de toda a área onde espera que os dados estejam (por etiqueta) num documento, mesmo que a etiqueta esteja vazia no documento de preparação que está a etiquetar.
  • Pode etiquetar campos vazios para a preparação baseada em modelos. Não etiquete campos vazios para a preparação baseada em modelos.

Crie e avalie um extrator personalizado com o modo de modelo

  1. Crie um extrator personalizado. Crie um processador e defina os campos que quer extrair seguindo as práticas recomendadas>, o que é importante porque afeta a qualidade da extração.

  2. Defina a localização do conjunto de dados. Selecione a pasta de opções predefinida (gerida pela Google). Isto pode ser feito automaticamente pouco depois de criar o processador.

  3. Navegue para o separador Criar e selecione Importar documentos com a etiquetagem automática ativada. Normalmente, adicionar mais documentos do que o mínimo de três necessários não melhora a qualidade da preparação baseada em modelos. Em vez de adicionar mais, concentre-se em etiquetar um pequeno conjunto com muita precisão.

  4. Estender caixas delimitadoras. Estas caixas para o modo de modelo devem ser semelhantes aos exemplos anteriores. Estenda as caixas delimitadoras seguindo as práticas recomendadas para obter o resultado ideal.

  5. Preparar modelo.

    1. Selecione Formar nova versão.
    2. Atribua um nome à versão do processador.
    3. Aceda a Mostrar opções avançadas e selecione a abordagem de modelo baseada em modelos.

    template-based-extraction-3

  6. Avaliação.

    1. Aceda a Avaliar e testar.
    2. Selecione a versão que acabou de preparar e, de seguida, selecione Ver avaliação completa.

    template-based-extraction-4

    Agora, vê métricas como F1, precisão e recall para todo o documento e cada campo. 1. Decida se o desempenho cumpre os seus objetivos de produção e, caso contrário, reavalie os conjuntos de preparação e de testes.

  7. Definir uma nova versão como predefinida.

    1. Navegue para Gerir versões.
    2. Selecione para ver o menu de definições e, de seguida, marque Definir como predefinição.

    template-based-extraction-5

    O seu modelo está agora implementado e os documentos enviados para este processador usam a sua versão personalizada. Quer avaliar o desempenho do modelo (mais detalhes sobre como o fazer) para verificar se requer mais preparação.

Referência de avaliação

O motor de avaliação pode fazer correspondência exata ou correspondência aproximada. Para uma correspondência exata, o valor extraído tem de corresponder exatamente à verdade fundamental ou é contabilizado como uma falha.

As extrações de correspondência aproximada que tinham pequenas diferenças, como diferenças na utilização de maiúsculas e minúsculas, continuam a ser consideradas uma correspondência. Pode alterar esta opção no ecrã Avaliação.

template-based-extraction-6

Etiquetagem automática com o modelo base

O modelo base pode extrair campos com precisão para uma variedade de tipos de documentos, mas também pode fornecer dados de preparação adicionais para melhorar a precisão do modelo para estruturas de documentos específicas.

A IA Documentos usa os nomes das etiquetas que define e as anotações anteriores para tornar a etiquetagem de documentos em grande escala mais rápida e fácil com a etiquetagem automática.

  1. Depois de criar um processador personalizado, aceda ao separador Começar.
  2. Selecione Criar novo campo.

    template-based-extraction-7

  3. Navegue para o separador Criar e, de seguida, selecione Importar documentos.

    template-based-extraction-8

  4. Selecione o caminho dos documentos e o conjunto para o qual os documentos devem ser importados. Selecione a caixa de verificação da etiquetagem automática e selecione o modelo base.

  5. No separador Compilar, selecione Gerir conjunto de dados. Deve ver os documentos importados. Selecione um dos seus documentos.

    template-based-extraction-9

  6. As previsões do modelo são realçadas a roxo. Tem de rever cada etiqueta prevista pelo modelo e garantir que está correta. Se existirem campos em falta, também tem de os adicionar.

    template-based-extraction-10

  7. Depois de rever o documento, selecione Marcar como etiquetado.

  8. O documento está agora pronto para ser usado pelo modelo. Certifique-se de que o documento está no conjunto de testes ou de preparação.