Saiba mais sobre as funcionalidades de reconhecimento de carateres

O reconhecimento ótico de carateres (OCR) é uma das três APIs pré-treinadas do Vertex AI no dispositivo isolado do Google Distributed Cloud (GDC). O serviço de OCR deteta texto em vários tipos de ficheiros, como imagens, ficheiros de documentos e texto escrito à mão.

O OCR oferece os seguintes métodos disponíveis no dispositivo isolado do GDC para reconhecer texto:

Método Descrição
BatchAnnotateImages Detetar texto a partir de um lote de imagens JPEG ou PNG fornecidas num pedido inline.
BatchAnnotateFiles Detetar texto a partir de um lote de ficheiros PDF ou TIFF fornecidos num pedido inline.

Saiba mais sobre os idiomas suportados detetados pela funcionalidade de reconhecimento de texto.

Funcionalidades de reconhecimento ótico de carateres

A API OCR pode detetar e extrair texto de imagens. As duas funcionalidades de anotação seguintes suportam o reconhecimento ótico de carateres:

  • O TEXT_DETECTION deteta e extrai texto de qualquer imagem. Por exemplo, uma fotografia pode conter uma rua ou um sinal de trânsito. O serviço de OCR devolve um ficheiro JSON com a string extraída, palavras individuais e as respetivas caixas delimitadoras.

    Sinal de estrada com palavras individuais e caixas delimitadoras para deteção de texto

    Figura 1. Fotografia de um sinal de trânsito onde a API OCR deteta palavras e as respetivas caixas delimitadoras.

  • DOCUMENT_TEXT_DETECTION também extrai texto de uma imagem, mas o serviço otimiza a resposta para texto denso e documentos. Por exemplo, uma imagem digitalizada de texto escrito pode conter vários parágrafos e títulos. O serviço de OCR devolve um ficheiro JSON com informações de página, bloco, parágrafo, palavra e quebra.

    Imagem digitalizada de texto escrito com uma proporção densa de anotações

    Figura 2. Imagem digitalizada de texto escrito, em que a API OCR deteta informações como palavras, páginas e parágrafos.

Texto manuscrito

A Figura 3 é uma imagem de texto manuscrito. A API OCR deteta e extrai texto destas imagens. Para ver uma lista de scripts de escrita manual que suportam o reconhecimento de escrita manual, consulte Scripts de escrita manual.

Figura de escrita manual

Figura 3. Imagem de escrita manual onde a API OCR deteta texto.

Limites do reconhecimento ótico de carateres

Pode reconhecer até 30 imagens por minuto, o que equivale a uma imagem a cada dois segundos por unidade de eletrodoméstico.

Os métodos da API BatchAnnotateImages e BatchAnnotateFiles só suportam um pedido por chamada em lote.

A tabela seguinte indica os limites atuais do serviço de OCR na Distributed Cloud.

Limite de ficheiros para OCR Valor
Número máximo de páginas Cinco
Tamanho máximo do ficheiro 20 MB
Tamanho máximo da imagem 20 milhões de píxeis (comprimento x largura)

Os ficheiros enviados para a API OCR que excedem o número máximo de páginas ou o tamanho máximo do ficheiro devolvem um erro. Os ficheiros enviados que excedam o tamanho máximo da imagem são reduzidos para 20 milhões de píxeis.

Tipos de ficheiros suportados para OCR

A API pré-treinada de OCR deteta e transcreve texto dos seguintes tipos de ficheiros:

  • PDF
  • TIFF
  • JPG
  • PNG

Tem de armazenar os ficheiros localmente no seu ambiente de nuvem distribuída. Não pode aceder a ficheiros alojados no Cloud Storage nem a ficheiros disponíveis publicamente para deteção de texto.