Crie, use e faça a gestão de um classificador de documentos personalizado

Use um classificador personalizado para classificar documentos. Crie-o de raiz com os seus próprios documentos e classes personalizadas. O seu aspeto de IA generativa permite a aprendizagem com poucos exemplos e o ajuste preciso. Estas melhoram a precisão com menos exemplos e correções com a etiquetagem automática iterativa.

O classificador personalizado abrange estes três exemplos de utilização gerais.

  • Modelo pré-preparado: use o modelo base de IA generativa pré-preparado para classificar rapidamente documentos com as etiquetas fornecidas.
  • Ajuste preciso: melhore a precisão preparando o modelo base de IA generativa com os seus próprios dados e etiquetas.
  • Prepare um modelo personalizado: prepare um extrator personalizado de IA não generativa com os seus próprios dados e etiquetas.

Versões de modelos de classificadores personalizados

As classificações de confiança são suportadas para modelos de classificadores personalizados na pré-visualização. Para um melhor desempenho, use-os com modelos otimizados.

Versão do modelo Descrição Canal de lançamento Processamento de ML nos EUA/UE Ajuste nos EUA/UE Data de lançamento
pretrained-foundation-model-v1.4-2025-05-16 Versão candidata com tecnologia do MDL/CE Gemini 2.0 Flash. Também inclui funcionalidades avançadas de ROC. Candidato a lançamento Sim US, EU (Pré-visualização) 16 de maio de 2025
pretrained-classifier-v1.5-2025-08-05 Candidato a lançamento com tecnologia do MDL/CE Gemini 2.5 Flash. Também inclui funcionalidades avançadas de ROC. Candidato a lançamento Sim US, EU (Pré-visualização) 5 de agosto de 2025

Crie um classificador personalizado na Google Cloud consola

Pode criar classificadores personalizados especificamente adequados aos seus documentos e preparados e avaliados com os seus dados. Este processador identifica classes de documentos a partir de um conjunto de classes definido pelo utilizador. Em seguida, pode usar este processador preparado em documentos adicionais. Normalmente, usa um classificador personalizado em documentos de diferentes tipos e, em seguida, usa a identificação para transmitir os documentos a um processador de extração para extrair as entidades.

Para ver o processo geral de criação e utilização de um processador, consulte a secção Como.

Pode fazer as suas próprias escolhas de configuração adequadas ao seu fluxo de trabalho.


Para seguir orientações passo a passo para esta tarefa diretamente na Google Cloud consola, clique em Orientar-me:

Visita guiada


Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Crie um processador

    Conclua os seguintes passos.

    1. Aceda à bancada de trabalho

    2. Para o classificador de documentos personalizado, selecione Criar processador.

      custom-classifier-1

    3. No menu Criar processador, introduza um nome para o processador, como my-custom-document-classifier.

      custom-classifier-2

    4. Selecione a região mais próxima de si.

    5. Selecione Criar. É apresentado o separador Detalhes do processador.

    Configure o conjunto de dados

    Para preparar este novo processador, tem de criar um conjunto de dados com dados de preparação e de teste para ajudar o processador a identificar os documentos que quer dividir e classificar. Este conjunto de dados requer uma nova localização. Pode ser um contentor do Cloud Storage ou uma pasta vazia, ou pode permitir uma localização gerida internamente.

    Depois de aparecer o separador Detalhes do processador, pode:

    1. Selecione Armazenamento gerido pela Google se quiser usar o Cloud Storage.
    2. Selecione Vou especificar a minha própria localização de armazenamento se quiser usar o seu próprio armazenamento para usar chaves de encriptação geridas pelo cliente (CMEK) e siga o procedimento em Criar um conjunto de dados.

    custom-classifier-3

    Importe documentos para um conjunto de dados

    Em seguida, importa os documentos para o conjunto de dados.

    1. No separador Criar, selecione Importar documentos.

      custom-classifier-6

    2. Quando optar por usar um contentor de armazenamento, tem de introduzir o caminho de origem do contentor. Para este exemplo de preparação, introduza este nome do contentor em Caminho de origem. Este link direciona diretamente para um documento.

      cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
      
    3. Para Divisão de dados, selecione Não atribuído. O documento nesta pasta não está atribuído ao conjunto de testes nem ao conjunto de preparação. Deixe a opção Importar com etiquetagem automática desmarcada.

    4. Selecione Importar. A IA Documentos lê os documentos do contentor para o conjunto de dados. Não modifica o contentor de importação nem lê a partir do contentor após a conclusão da importação.

    5. Opcional: para eliminar documentos importados, no separador Criar, aceda a Gerir conjunto de dados > selecione os documentos > clique em Eliminar.

    Quando importa documentos, pode atribuí-los opcionalmente ao conjunto de Formação ou Teste no momento da importação, ou aguardar para os atribuir mais tarde.

    Para mais informações sobre a preparação dos dados para importação, consulte o guia de preparação de dados.

    Defina o esquema do processador

    Pode criar o esquema do processador antes ou depois de importar documentos para o conjunto de dados. O esquema fornece etiquetas que usa para anotar documentos.

    1. No separador Compilar, selecione Gerir conjunto de dados > Editar esquema. É aberta a página Editar esquema.

    2. Selecione Criar etiqueta.

    3. Introduza o nome da etiqueta.

    4. Selecione Criar. Consulte o artigo Defina o esquema do processador para ver instruções detalhadas sobre como criar e editar um esquema.

    5. Crie cada uma das seguintes etiquetas para o esquema do processador.

      • computer_vision
      • crypto
      • med_tech
      • other
    6. Selecione Guardar quando as etiquetas estiverem concluídas.

      custom-classifier-7

    Etiquete um documento

    O processo de selecionar texto num documento e aplicar etiquetas é conhecido como anotação.

    1. Regresse ao separador Compilação e selecione um documento para abrir a consola Gerir conjunto de dados.

    2. Entre as opções, selecione a etiqueta adequada para o documento. Se estiver a usar o documento de amostra fornecido, selecione computer_vision.

      Quando etiquetado, o documento deve ter o seguinte aspeto: custom-classifier-8

    3. Selecione Marcar como etiquetado quando terminar de anotar o documento.

      No separador Gerir conjunto de dados, o painel Documento mostra que um documento foi etiquetado.

    Atribua o documento anotado ao conjunto de preparação

    Agora que etiquetou este documento de exemplo, pode atribuí-lo ao conjunto de preparação.

    1. No separador Gerir conjunto de dados, selecione a caixa de verificação Selecionar tudo.

    2. Na lista Atribuir ao conjunto, selecione Formação.

    No painel Documentos, pode ver que um documento foi atribuído ao conjunto de dados de treino.

    Importe dados pré-etiquetados para os conjuntos de teste e de preparação

    Neste guia, são fornecidos dados pré-etiquetados. Se estiver a trabalhar no seu próprio projeto, tem de determinar como etiquetar os dados. Consulte as opções de etiquetagem.

    Os processadores personalizados do Document AI requerem um mínimo de um documento nos conjuntos de treino e de teste para cada tipo de documento a ser etiquetado. Recomendamos que tenha, pelo menos, 10 documentos para cada etiqueta para um melhor desempenho. Para 5 etiquetas, precisa de 50 documentos para preparar e 50 para testar. Normalmente, mais dados de preparação produzem uma maior precisão.

    1. Selecione Importar documentos.

    2. Introduza o seguinte caminho em Caminho de origem. Este contentor contém documentos pré-etiquetados no formato JSON de documentos.

      cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
      
    3. Na lista Divisão de dados, selecione Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de preparação e 20% no conjunto de testes. Ignore a secção Aplicar etiquetas.

    4. Selecione Importar. A importação pode demorar alguns minutos.

    Quando a importação estiver concluída, encontra os documentos no separador Gerir conjunto de dados.

    Aplique etiquetas em lote a documentos na importação

    Opcionalmente, depois de o esquema ter sido configurado, pode etiquetar todos os documentos que se encontram num diretório específico na importação para poupar tempo com a etiquetagem.

    custom-classifier-9

    1. Selecione Importar documentos.

    2. Introduza o seguinte caminho em Caminho de origem. Este contentor contém documentos não etiquetados no formato PDF.

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
      
    3. Na lista Divisão de dados, selecione Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de preparação e 20% no conjunto de testes.

    4. Na secção Aplicar etiquetas, selecione Escolher etiqueta.

    5. Para estes documentos de exemplo, selecione other.

    6. Selecione Importar e aguarde que o processo termine. Pode sair desta página e voltar mais tarde. Quando estiver concluído, encontra os documentos no separador Gerir conjunto de dados com a etiqueta aplicada.

    Prepare o processador

    Agora que importou os dados de teste e preparação, pode preparar o processador. Uma vez que a preparação pode demorar várias horas, certifique-se de que configurou o processador com os dados e as etiquetas adequados antes de iniciar a preparação.

    Pode preparar modelos personalizados e com ajuste fino com os seus dados etiquetados. Os modelos ajustados usam IA generativa. Os modelos personalizados preparam um modelo de linguagem (conteúdo extenso) único com os seus dados etiquetados. Precisa de um mínimo de duas etiquetas no esquema, com dez documentos de preparação recomendados e 10 documentos de teste (mínimo de 1).

    1. Selecione Formar nova versão.
    custom-classifier-10
    1. No campo Nome da versão, introduza um nome para esta versão do processador, como my-cdc-version-1.

    2. Opcional: selecione Ver estatísticas das etiquetas para encontrar informações sobre as etiquetas dos documentos que podem ajudar a determinar a sua cobertura. Selecione Fechar para voltar à configuração de preparação.

    3. Selecione Iniciar preparação. Pode verificar o estado no painel lateral.

    Implemente a versão do processador

    1. Após a conclusão da preparação, navegue para o separador Gerir versões. Pode ver detalhes sobre a versão que acabou de preparar.

    2. Selecione o junto à versão que quer implementar e selecione Implementar versão.

    3. Selecione Implementar na janela de diálogo.

      A implementação demora alguns minutos a ser concluída.

    Avalie e teste o processador

    1. Após a conclusão da implementação, navegue para o separador Avaliar e testar.

      Nesta página, pode ver as métricas de avaliação, incluindo a pontuação F1, a precisão e a capacidade de identificação para o documento completo e as etiquetas individuais. Para mais informações acerca da avaliação e das estatísticas, consulte o artigo Avalie o processador.

    2. Transferir um documento que não tenha sido usado em testes ou formação anteriores para que o possa usar para avaliar a versão do processador. Se usar os seus próprios dados, usaria um documento reservado para este fim.

      Transferir PDF

    3. Selecione Carregar documento de teste e selecione o documento que acabou de transferir.

      É apresentada a página Análise do classificador de documentos personalizado. O resultado demonstra a precisão da classificação do documento.

      Também pode executar novamente a avaliação com um conjunto de testes ou uma versão do processador diferente.

    Etiquetar automaticamente documentos recém-importados

    Após a implementação de uma versão do processador preparada, pode usar a etiquetagem automática para poupar tempo na etiquetagem quando importar novos documentos.

    1. Na página Gerir conjunto de dados, importe documentos.

    2. Copie e cole o seguinte caminho do Cloud Storage. Este diretório contém cinco PDFs de patentes sem etiquetas. Na lista pendente Divisão de dados, selecione Preparação.

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
      
    3. Na secção Aplicar etiquetas, selecione Etiquetagem automática.

    4. Selecione uma versão do processador existente para etiquetar os documentos.

      • Por exemplo: 2af620b2fd4d1fcf
    5. Selecione Importar e aguarde que o processo termine. Pode sair desta página e voltar mais tarde. Quando estiver concluída, os documentos aparecem na secção Etiquetados automaticamente da página Gerir conjunto de dados.

    6. Não pode usar documentos com etiquetas automáticas para preparação ou testes sem os marcar como tendo etiquetas. Aceda à secção Etiquetados automaticamente para ver os documentos etiquetados automaticamente.

    7. Selecione o primeiro documento para entrar na consola de etiquetagem.

    8. Valide a etiqueta para garantir que está correta. Ajuste se estiver incorreto.

    9. Quando terminar, selecione Marcar como etiquetado.

    10. Repita a validação de etiquetas para cada documento com etiqueta automática e, em seguida, regresse à página Gerir conjunto de dados para atribuir os dados para preparação.

    Use o processador

    Pode gerir as versões do processador com preparação personalizada tal como qualquer outra versão do processador. Para mais informações, consulte o artigo Gerir versões do processador.

    Também pode enviar um pedido de processamento ao seu processador personalizado, e a resposta pode ser processada da mesma forma que outros processadores de classificadores.

    Limpar

    Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.

    1. No Google Cloud menu de navegação da consola, selecione Document AI e, de seguida, Os meus processadores.

    2. Selecione Mais ações na mesma linha do processador que quer eliminar.

    3. Selecione Eliminar processador, introduza o nome do processador e, de seguida, selecione Eliminar novamente para confirmar.

    O que se segue?