Crie, use e faça a gestão de um classificador de documentos personalizado
Use um classificador personalizado para classificar documentos. Crie-o de raiz com os seus próprios documentos e classes personalizadas. O seu aspeto de IA generativa permite a aprendizagem com poucos exemplos e o ajuste preciso. Estas melhoram a precisão com menos exemplos e correções com a etiquetagem automática iterativa.
O classificador personalizado abrange estes três exemplos de utilização gerais.
- Modelo pré-preparado: use o modelo base de IA generativa pré-preparado para classificar rapidamente documentos com as etiquetas fornecidas.
- Ajuste preciso: melhore a precisão preparando o modelo base de IA generativa com os seus próprios dados e etiquetas.
- Prepare um modelo personalizado: prepare um extrator personalizado de IA não generativa com os seus próprios dados e etiquetas.
Versões de modelos de classificadores personalizados
As classificações de confiança são suportadas para modelos de classificadores personalizados na pré-visualização. Para um melhor desempenho, use-os com modelos otimizados.
Versão do modelo | Descrição | Canal de lançamento | Processamento de ML nos EUA/UE | Ajuste nos EUA/UE | Data de lançamento |
---|---|---|---|---|---|
pretrained-foundation-model-v1.4-2025-05-16 |
Versão candidata com tecnologia do MDL/CE Gemini 2.0 Flash. Também inclui funcionalidades avançadas de ROC. | Candidato a lançamento | Sim | US, EU (Pré-visualização) | 16 de maio de 2025 |
pretrained-classifier-v1.5-2025-08-05 |
Candidato a lançamento com tecnologia do MDL/CE Gemini 2.5 Flash. Também inclui funcionalidades avançadas de ROC. | Candidato a lançamento | Sim | US, EU (Pré-visualização) | 5 de agosto de 2025 |
Crie um classificador personalizado na Google Cloud consola
Pode criar classificadores personalizados especificamente adequados aos seus documentos e preparados e avaliados com os seus dados. Este processador identifica classes de documentos a partir de um conjunto de classes definido pelo utilizador. Em seguida, pode usar este processador preparado em documentos adicionais. Normalmente, usa um classificador personalizado em documentos de diferentes tipos e, em seguida, usa a identificação para transmitir os documentos a um processador de extração para extrair as entidades.
Para ver o processo geral de criação e utilização de um processador, consulte a secção Como.
Pode fazer as suas próprias escolhas de configuração adequadas ao seu fluxo de trabalho.
Para seguir orientações passo a passo para esta tarefa diretamente na Google Cloud consola, clique em Orientar-me:
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. Aceda à bancada de trabalho
Para o classificador de documentos personalizado, selecione
Criar processador .No menu Criar processador, introduza um nome para o processador, como
my-custom-document-classifier
.Selecione a região mais próxima de si.
Selecione Criar. É apresentado o separador Detalhes do processador.
- Selecione Armazenamento gerido pela Google se quiser usar o Cloud Storage.
- Selecione Vou especificar a minha própria localização de armazenamento se quiser usar o seu próprio armazenamento para usar chaves de encriptação geridas pelo cliente (CMEK) e siga o procedimento em Criar um conjunto de dados.
No separador Criar, selecione
Importar documentos .Quando optar por usar um contentor de armazenamento, tem de introduzir o caminho de origem do contentor. Para este exemplo de preparação, introduza este nome do contentor em
Caminho de origem . Este link direciona diretamente para um documento.cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
Para Divisão de dados, selecione Não atribuído. O documento nesta pasta não está atribuído ao conjunto de testes nem ao conjunto de preparação. Deixe a opção Importar com etiquetagem automática desmarcada.
Selecione Importar. A IA Documentos lê os documentos do contentor para o conjunto de dados. Não modifica o contentor de importação nem lê a partir do contentor após a conclusão da importação.
Opcional: para eliminar documentos importados, no separador Criar, aceda a Gerir conjunto de dados > selecione os documentos > clique em Eliminar.
No separador Compilar, selecione Gerir conjunto de dados > Editar esquema. É aberta a página Editar esquema.
Selecione
Criar etiqueta .Introduza o nome da etiqueta.
Selecione Criar. Consulte o artigo Defina o esquema do processador para ver instruções detalhadas sobre como criar e editar um esquema.
Crie cada uma das seguintes etiquetas para o esquema do processador.
computer_vision
crypto
med_tech
other
Selecione
Guardar quando as etiquetas estiverem concluídas.Regresse ao separador Compilação e selecione
um documento para abrir a consola Gerir conjunto de dados.Entre as
opções , selecione a etiqueta adequada para o documento. Se estiver a usar o documento de amostra fornecido, selecionecomputer_vision
.Quando etiquetado, o documento deve ter o seguinte aspeto:
Selecione
Marcar como etiquetado quando terminar de anotar o documento.No separador Gerir conjunto de dados, o painel Documento mostra que um documento foi etiquetado.
No separador Gerir conjunto de dados, selecione a caixa de verificação
Selecionar tudo .Na lista
Atribuir ao conjunto , selecione Formação.Selecione
Importar documentos .Introduza o seguinte caminho em
Caminho de origem . Este contentor contém documentos pré-etiquetados no formato JSON de documentos.cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
Na lista Divisão de dados, selecione Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de preparação e 20% no conjunto de testes. Ignore a secção Aplicar etiquetas.
Selecione Importar. A importação pode demorar alguns minutos.
Selecione
Importar documentos .Introduza o seguinte caminho em
Caminho de origem . Este contentor contém documentos não etiquetados no formato PDF.cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
Na lista Divisão de dados, selecione Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de preparação e 20% no conjunto de testes.
Na secção Aplicar etiquetas, selecione Escolher etiqueta.
Para estes documentos de exemplo, selecione
other
.Selecione Importar e aguarde que o processo termine. Pode sair desta página e voltar mais tarde. Quando estiver concluído, encontra os documentos no separador Gerir conjunto de dados com a etiqueta aplicada.
- Selecione
Formar nova versão . No campo
Nome da versão , introduza um nome para esta versão do processador, comomy-cdc-version-1
.Opcional: selecione Ver estatísticas das etiquetas para encontrar informações sobre as etiquetas dos documentos que podem ajudar a determinar a sua cobertura. Selecione Fechar para voltar à configuração de preparação.
Selecione
Iniciar preparação. Pode verificar o estado no painel lateral.Após a conclusão da preparação, navegue para o separador
Gerir versões . Pode ver detalhes sobre a versão que acabou de preparar.Selecione o
junto à versão que quer implementar e selecione Implementar versão. Selecione
Implementar na janela de diálogo.A implementação demora alguns minutos a ser concluída.
Após a conclusão da implementação, navegue para o separador
Avaliar e testar .Nesta página, pode ver as métricas de avaliação, incluindo a pontuação F1, a precisão e a capacidade de identificação para o documento completo e as etiquetas individuais. Para mais informações acerca da avaliação e das estatísticas, consulte o artigo Avalie o processador.
Transferir um documento que não tenha sido usado em testes ou formação anteriores para que o possa usar para avaliar a versão do processador. Se usar os seus próprios dados, usaria um documento reservado para este fim.
Selecione
Carregar documento de teste e selecione o documento que acabou de transferir.É apresentada a página Análise do classificador de documentos personalizado. O resultado demonstra a precisão da classificação do documento.
Também pode executar novamente a avaliação com um conjunto de testes ou uma versão do processador diferente.
Na página Gerir conjunto de dados,
importe documentos .Copie e cole o seguinte caminho do Cloud Storage. Este diretório contém cinco PDFs de patentes sem etiquetas. Na lista pendente Divisão de dados, selecione Preparação.
cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
Na secção Aplicar etiquetas, selecione Etiquetagem automática.
Selecione uma versão do processador existente para etiquetar os documentos.
- Por exemplo:
2af620b2fd4d1fcf
- Por exemplo:
Selecione Importar e aguarde que o processo termine. Pode sair desta página e voltar mais tarde. Quando estiver concluída, os documentos aparecem na secção Etiquetados automaticamente da página Gerir conjunto de dados.
Não pode usar documentos com etiquetas automáticas para preparação ou testes sem os marcar como tendo etiquetas. Aceda à secção
Etiquetados automaticamente para ver os documentos etiquetados automaticamente.Selecione o primeiro documento para entrar na consola de etiquetagem.
Valide a etiqueta para garantir que está correta. Ajuste se estiver incorreto.
Quando terminar, selecione
Marcar como etiquetado .Repita a validação de etiquetas para cada documento com etiqueta automática e, em seguida, regresse à página Gerir conjunto de dados para atribuir os dados para preparação.
No Google Cloud menu de navegação da consola, selecione Document AI e, de seguida, Os meus processadores.
Selecione
Mais ações na mesma linha do processador que quer eliminar.Selecione Eliminar processador, introduza o nome do processador e, de seguida, selecione Eliminar novamente para confirmar.
- Para mais detalhes, consulte os Guias.
- Reveja a lista de processadores.
- Separe os documentos em blocos legíveis com o analisador de esquemas.
- Use o Enterprise Document OCR para detetar e extrair texto.
Crie um processador
Conclua os seguintes passos.
Configure o conjunto de dados
Para preparar este novo processador, tem de criar um conjunto de dados com dados de preparação e de teste para ajudar o processador a identificar os documentos que quer dividir e classificar. Este conjunto de dados requer uma nova localização. Pode ser um contentor do Cloud Storage ou uma pasta vazia, ou pode permitir uma localização gerida internamente.
Depois de aparecer o separador Detalhes do processador, pode:
Importe documentos para um conjunto de dados
Em seguida, importa os documentos para o conjunto de dados.
Quando importa documentos, pode atribuí-los opcionalmente ao conjunto de Formação ou Teste no momento da importação, ou aguardar para os atribuir mais tarde.
Para mais informações sobre a preparação dos dados para importação, consulte o guia de preparação de dados.
Defina o esquema do processador
Pode criar o esquema do processador antes ou depois de importar documentos para o conjunto de dados. O esquema fornece etiquetas que usa para anotar documentos.
Etiquete um documento
O processo de selecionar texto num documento e aplicar etiquetas é conhecido como anotação.
Atribua o documento anotado ao conjunto de preparação
Agora que etiquetou este documento de exemplo, pode atribuí-lo ao conjunto de preparação.
No painel Documentos, pode ver que um documento foi atribuído ao conjunto de dados de treino.
Importe dados pré-etiquetados para os conjuntos de teste e de preparação
Neste guia, são fornecidos dados pré-etiquetados. Se estiver a trabalhar no seu próprio projeto, tem de determinar como etiquetar os dados. Consulte as opções de etiquetagem.
Os processadores personalizados do Document AI requerem um mínimo de um documento nos conjuntos de treino e de teste para cada tipo de documento a ser etiquetado. Recomendamos que tenha, pelo menos, 10 documentos para cada etiqueta para um melhor desempenho. Para 5 etiquetas, precisa de 50 documentos para preparar e 50 para testar. Normalmente, mais dados de preparação produzem uma maior precisão.
Quando a importação estiver concluída, encontra os documentos no separador Gerir conjunto de dados.
Aplique etiquetas em lote a documentos na importação
Opcionalmente, depois de o esquema ter sido configurado, pode etiquetar todos os documentos que se encontram num diretório específico na importação para poupar tempo com a etiquetagem.
Prepare o processador
Agora que importou os dados de teste e preparação, pode preparar o processador. Uma vez que a preparação pode demorar várias horas, certifique-se de que configurou o processador com os dados e as etiquetas adequados antes de iniciar a preparação.
Pode preparar modelos personalizados e com ajuste fino com os seus dados etiquetados. Os modelos ajustados usam IA generativa. Os modelos personalizados preparam um modelo de linguagem (conteúdo extenso) único com os seus dados etiquetados. Precisa de um mínimo de duas etiquetas no esquema, com dez documentos de preparação recomendados e 10 documentos de teste (mínimo de 1).

Implemente a versão do processador
Avalie e teste o processador
Etiquetar automaticamente documentos recém-importados
Após a implementação de uma versão do processador preparada, pode usar a etiquetagem automática para poupar tempo na etiquetagem quando importar novos documentos.
Use o processador
Pode gerir as versões do processador com preparação personalizada tal como qualquer outra versão do processador. Para mais informações, consulte o artigo Gerir versões do processador.
Também pode enviar um pedido de processamento ao seu processador personalizado, e a resposta pode ser processada da mesma forma que outros processadores de classificadores.
Limpar
Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.