Existen formatos, dimensiones y tamaños de archivo de imagen específicos que puedes enviar a Cloud Vision. Usa esta guía para garantizar una detección de funciones eficaz cuando uses la API de Vision.
Formatos de archivo
La API de Vision admite los siguientes tipos de imágenes:
- JPEG
- PNG8
- PNG24
- GIF
- GIF animado (solo el primer cuadro)
- BMP
- WEBP
- RAW
- ICO
- TIFF
Algunos de estos formatos de imagen son con pérdida (por ejemplo, JPEG). Si reduces el tamaño de los archivos para los formatos con pérdida, es posible que se degrade la calidad de la imagen y la exactitud de la API de Vision.
Recomendaciones de dimensiones de imágenes
Para obtener una detección precisa de imágenes en la API de Vision, usa imágenes de al menos 640 × 480 píxeles (alrededor de 300,000 píxeles).
En la práctica, un tamaño estándar de 640 × 480 píxeles funciona bien en la mayoría de los casos. Los tamaños de imagen superiores a 640 × 480 píxeles no son mucho más precisos y disminuyen en gran cantidad la capacidad de procesamiento. Cuando sea posible, procesa tus imágenes antes para reducir su tamaño a los estándares mínimos.
Los siguientes tamaños recomendados varían según la característica detectada. Por ejemplo, las solicitudes de FACE_DETECTION, en general, necesitan tamaños de imagen más grandes debido a que las características detectadas (rostros) son más pequeñas que la imagen. En cambio, las solicitudes de LABEL_DETECTION, en general, evalúan la imagen completa.
En la siguiente tabla, se enumeran los tipos de solicitudes de funciones de la API de Vision y los tamaños de imagen recomendados:
| Función de la API de Vision | Tamaño recomendado | Notas |
|---|---|---|
FACE_DETECTION |
1600 x 1200 | La distancia entre los ojos es lo más importante. |
LANDMARK_DETECTION |
640 × 480 | - |
LOGO_DETECTION |
640 × 480 | - |
LABEL_DETECTION |
640 × 480 | - |
TEXT_DETECTION y DOCUMENT_TEXT_DETECTION |
1,024 × 768 | El OCR requiere más resolución para detectar caracteres. |
SAFE_SEARCH_DETECTION |
640 × 480 | - |
La API de Vision requiere imágenes lo suficientemente grandes como para distinguir las características importantes. Los tamaños menores o mayores que los recomendados podrían funcionar. Sin embargo, los tamaños más pequeños pueden generar una exactitud menor, y los tamaños más grandes pueden aumentar el tiempo de procesamiento y el uso del ancho de banda sin un aumento proporcional en la exactitud. Para el análisis de OCR, el tamaño de la imagen no debe superar los 75,000,000 de píxeles (largo por ancho). Si una imagen supera este límite, la API de Vision cambia su tamaño. De lo contrario, la API de Vision usa la imagen original.
Tamaño de la imagen y el archivo
Los archivos de imagen enviados a la API de Vision no deben superar los 20 MB. Los archivos de más de 20 MB generan un error. La API de Vision no cambia el tamaño de los archivos de este tamaño.
Para mejorar la latencia de las consultas, reduce el tamaño del archivo. Sin embargo, evita reducir la calidad de la imagen durante este proceso.
La API de Vision impone un límite de tamaño de solicitud JSON de 10 MB. Aloja los archivos más grandes en Cloud Storage o en la Web, en lugar de pasarlos como contenido codificado en base64 en el JSON.