O reconhecimento ótico de carateres (OCR) é uma das três APIs pré-treinadas do Vertex AI no dispositivo isolado do Google Distributed Cloud (GDC). O serviço de OCR deteta texto em vários tipos de ficheiros, como imagens, ficheiros de documentos e texto escrito à mão.
O OCR oferece os seguintes métodos disponíveis no dispositivo isolado do GDC para reconhecer texto:
Método | Descrição |
---|---|
BatchAnnotateImages |
Detetar texto a partir de um lote de imagens JPEG ou PNG fornecidas num pedido inline. |
BatchAnnotateFiles |
Detetar texto a partir de um lote de ficheiros PDF ou TIFF fornecidos num pedido inline. |
Saiba mais sobre os idiomas suportados detetados pela funcionalidade de reconhecimento de texto.
Funcionalidades de reconhecimento ótico de carateres
A API OCR pode detetar e extrair texto de imagens. As duas funcionalidades de anotação seguintes suportam o reconhecimento ótico de carateres:
O
TEXT_DETECTION
deteta e extrai texto de qualquer imagem. Por exemplo, uma fotografia pode conter uma rua ou um sinal de trânsito. O serviço de OCR devolve um ficheiro JSON com a string extraída, palavras individuais e as respetivas caixas delimitadoras.Figura 1. Fotografia de um sinal de trânsito onde a API OCR deteta palavras e as respetivas caixas delimitadoras.
DOCUMENT_TEXT_DETECTION
também extrai texto de uma imagem, mas o serviço otimiza a resposta para texto denso e documentos. Por exemplo, uma imagem digitalizada de texto escrito pode conter vários parágrafos e títulos. O serviço de OCR devolve um ficheiro JSON com informações de página, bloco, parágrafo, palavra e quebra.Figura 2. Imagem digitalizada de texto escrito, em que a API OCR deteta informações como palavras, páginas e parágrafos.
Texto manuscrito
A Figura 3 é uma imagem de texto manuscrito. A API OCR deteta e extrai texto destas imagens. Para ver uma lista de scripts de escrita manual que suportam o reconhecimento de escrita manual, consulte Scripts de escrita manual.
Figura 3. Imagem de escrita manual onde a API OCR deteta texto.
Limites do reconhecimento ótico de carateres
Pode reconhecer até 30 imagens por minuto, o que equivale a uma imagem a cada dois segundos por unidade de eletrodoméstico.
Os métodos da API BatchAnnotateImages
e BatchAnnotateFiles
só suportam um pedido por chamada em lote.
A tabela seguinte indica os limites atuais do serviço de OCR na Distributed Cloud.
Limite de ficheiros para OCR | Valor |
---|---|
Número máximo de páginas | Cinco |
Tamanho máximo do ficheiro | 20 MB |
Tamanho máximo da imagem | 20 milhões de píxeis (comprimento x largura) |
Os ficheiros enviados para a API OCR que excedem o número máximo de páginas ou o tamanho máximo do ficheiro devolvem um erro. Os ficheiros enviados que excedam o tamanho máximo da imagem são reduzidos para 20 milhões de píxeis.
Tipos de ficheiros suportados para OCR
A API pré-treinada de OCR deteta e transcreve texto dos seguintes tipos de ficheiros:
- TIFF
- JPG
- PNG
Tem de armazenar os ficheiros localmente no seu ambiente de nuvem distribuída. Não pode aceder a ficheiros alojados no Cloud Storage nem a ficheiros disponíveis publicamente para deteção de texto.