El reconocimiento óptico de caracteres (OCR) es una de las tres APIs preentrenadas de Vertex AI en el dispositivo air-gapped de Google Distributed Cloud (GDC). El servicio de OCR detecta texto en varios tipos de archivo, como imágenes, archivos de documentos y texto manuscrito.
El OCR ofrece los siguientes métodos disponibles en el dispositivo aislado de GDC para reconocer texto:
Método | Descripción |
---|---|
BatchAnnotateImages |
Detecta texto de un lote de imágenes JPEG o PNG proporcionadas en una solicitud insertada. |
BatchAnnotateFiles |
Detecta texto de un lote de archivos PDF o TIFF proporcionados en una solicitud insertada. |
Consulta más información sobre los idiomas admitidos que detecta la función de reconocimiento de texto.
Funciones de reconocimiento óptico de caracteres
La API OCR puede detectar y extraer texto de imágenes. Las dos funciones de anotación siguientes admiten el reconocimiento óptico de caracteres:
TEXT_DETECTION
detecta y extrae texto de cualquier imagen. Por ejemplo, una fotografía puede contener una señal de tráfico o una señal de calle. El servicio OCR devuelve un archivo JSON con la cadena extraída, las palabras individuales y sus cuadros delimitadores.Imagen 1. Fotografía de una señal de tráfico en la que la API OCR detecta palabras y sus cuadros delimitadores.
DOCUMENT_TEXT_DETECTION
también extrae texto de una imagen, pero el servicio optimiza la respuesta para texto y documentos densos. Por ejemplo, una imagen escaneada de un texto escrito a máquina puede contener varios párrafos y encabezados. El servicio de OCR devuelve un archivo JSON con información sobre páginas, bloques, párrafos, palabras y saltos.Imagen 2. Imagen escaneada de texto escrito a máquina en la que la API OCR detecta información como palabras, páginas y párrafos.
Texto escrito a mano
La figura 3 es una imagen de texto escrito a mano. La API OCR detecta y extrae texto de estas imágenes. Para ver una lista de las escrituras a mano que admiten el reconocimiento de escritura a mano, consulta Escrituras a mano.
Imagen 3. Imagen de escritura a mano en la que la API OCR detecta texto.
Límites de reconocimiento óptico de caracteres
Puedes reconocer hasta 30 imágenes por minuto, lo que equivale a una imagen cada dos segundos por unidad de electrodoméstico.
Los métodos de la API BatchAnnotateImages
y BatchAnnotateFiles
solo admiten una solicitud por llamada de lote.
En la siguiente tabla se indican los límites actuales del servicio de OCR en Distributed Cloud.
Límite de archivos para OCR | Valor |
---|---|
Número máximo de páginas | Cinco |
Tamaño máximo de archivo | 20 MB |
Tamaño máximo de la imagen | 20 millones de píxeles (longitud x anchura) |
Si los archivos enviados a la API OCR superan el número máximo de páginas o el tamaño máximo de archivo, se devuelve un error. Los archivos enviados que superen el tamaño máximo de imagen se reducirán a 20 millones de píxeles.
Tipos de archivos admitidos para el OCR
La API pre-entrenada de OCR detecta y transcribe texto de los siguientes tipos de archivo:
- TIFF
- JPG
- PNG
Debes almacenar los archivos de forma local en tu entorno de Distributed Cloud. No puedes acceder a archivos alojados en Cloud Storage ni a archivos disponibles públicamente para detectar texto.