Package google.cloud.vision.v1

Índice

ImageAnnotator

Serviço que executa tarefas de detecção da API Google Cloud Vision em imagens de clientes, como detecção facial, de ponto de referência, de logotipo, de rótulo e de texto. O serviço ImageAnnotator retorna as entidades detectadas das imagens.

BatchAnnotateFiles

rpc BatchAnnotateFiles(BatchAnnotateFilesRequest) returns (BatchAnnotateFilesResponse)

Serviço que realiza detecção e anotação de imagens em um lote de arquivos. No momento, só são aceitos application/pdf, image/tiff e image/gif.

O serviço vai extrair no máximo cinco frames (GIF) ou páginas (PDF ou TIFF) de cada arquivo fornecido e realizar a detecção e a anotação de cada imagem extraída. Os clientes podem especificar esses frames ou páginas em AnnotateFileRequest.pages.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision
BatchAnnotateImages

rpc BatchAnnotateImages(BatchAnnotateImagesRequest) returns (BatchAnnotateImagesResponse)

Executar detecção e anotação de imagem em um lote de imagens.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision

AnnotateFileRequest

Uma solicitação de anotação para um único arquivo, como PDF, TIFF ou GIF.

Campos
input_config

InputConfig

Obrigatório. Informações sobre o arquivo de entrada.

features[]

Feature

Obrigatório. Recursos solicitados.

image_context

ImageContext

Contexto adicional que pode acompanhar as imagens no arquivo.

pages[]

int32

Páginas do arquivo para realizar a anotação de imagem.

Como as páginas começam no número 1, presume-se que a primeira página do arquivo seja a página 1. No máximo, cinco páginas são aceitas por solicitação. As páginas podem ser negativas.

Página 1 significa a primeira página. Página 2 significa a segunda página. Página -1 significa a última página. Página -2 significa a penúltima página.

Se o arquivo for um GIF em vez de PDF ou TIFF, a página fará referência a frames do GIF.

Se este campo estiver vazio, o serviço realizará anotações de imagens por padrão nas primeiras cinco páginas do arquivo.

AnnotateFileResponse

Resposta a uma solicitação de anotação de arquivo única. Um arquivo pode conter uma ou mais imagens, que têm as próprias respostas.

Campos
input_config

InputConfig

Informações sobre o arquivo referente à resposta.

responses[]

AnnotateImageResponse

Respostas individuais às imagens encontradas no arquivo. Este campo estará vazio se o campo error for definido.

total_pages

int32

Este campo indica o número total de páginas no arquivo.

error

Status

Se definido, representa a mensagem de erro da solicitação com falha. O campo responses não estará definido nesse caso.

AnnotateImageRequest

Solicitação para executar tarefas da API Google Cloud Vision em uma imagem fornecida pelo usuário, com recursos solicitados pelo usuário e informações de contexto.

Campos
image

Image

A imagem a ser processada.

features[]

Feature

Recursos solicitados.

image_context

ImageContext

Contexto adicional que pode acompanhar a imagem.

AnnotateImageResponse

Resposta a uma solicitação de anotação de imagem.

Campos
text_annotations[]

EntityAnnotation

Quando presente, significa que a detecção de texto (OCR) foi concluída.

full_text_annotation

TextAnnotation

Se presente, a detecção de texto (OCR) ou de texto de documentos foi concluída com sucesso. Esta anotação fornece a hierarquia estrutural para o texto detectado pelo OCR.

error

Status

Quando definido, representa a mensagem de erro da operação. Observe que há uma garantia de que as anotações de imagens preenchidas são corretas, mesmo quando error está definido.

context

ImageAnnotationContext

Quando presente, as informações contextuais são necessárias para entender a origem da imagem.

BatchAnnotateFilesRequest

Uma lista de solicitações para fazer anotações em arquivos usando a API BatchAnnotateFiles.

Campos
requests[]

AnnotateFileRequest

Obrigatório. A lista de solicitações de anotação de arquivo. No momento, apenas uma AnnotateFileRequest é aceita em BatchAnnotateFilesRequest.

parent

string

Opcional. Projeto e local de destino para fazer uma chamada.

Formato: projects/{project-id}/locations/{location-id}.

Se nenhum pai for especificado, uma região será escolhida automaticamente.

IDs de local aceitos – us: apenas nos EUA; asia: áreas do leste da Ásia, como Japão e Taiwan; eu: União Europeia.

Exemplo: projects/project-A/locations/eu.

BatchAnnotateFilesResponse

Uma lista de respostas de anotação de arquivo.

Campos
responses[]

AnnotateFileResponse

A lista de respostas de anotação de arquivo, em que cada resposta correspondente a cada AnnotateFileRequest em BatchAnnotateFilesRequest.

BatchAnnotateImagesRequest

Várias solicitações de anotação de imagem são agrupadas em uma única chamada de serviço.

Campos
requests[]

AnnotateImageRequest

Obrigatório. Solicitações individuais de anotação de imagem para este lote.

parent

string

Opcional. Projeto e local de destino para fazer uma chamada.

Formato: projects/{project-id}/locations/{location-id}.

Se nenhum pai for especificado, uma região será escolhida automaticamente.

IDs de local aceitos – us: apenas nos EUA; asia: áreas do leste da Ásia, como Japão e Taiwan; eu: União Europeia.

Exemplo: projects/project-A/locations/eu.

BatchAnnotateImagesResponse

Resposta a uma solicitação de anotação de imagem em lote.

Campos
responses[]

AnnotateImageResponse

Respostas individuais às solicitações de anotação de imagem no lote.

Block

Elemento lógico na página.

Campos
property

TextProperty

Informações adicionais detectadas para o bloco.

bounding_box

BoundingPoly

A caixa delimitadora do bloco. Os vértices estão na seguinte ordem: superior esquerda, superior direita, inferior direita e inferior esquerda. Quando for detectada uma rotação da caixa delimitadora, ela será representada no canto superior esquerdo, como definido pela leitura do texto na orientação natural. Exemplo:

  • Quando o texto é horizontal, pode ser semelhante ao seguinte:
    0----1
    |    |
    3----2
  • Quando girado 180 graus em torno do canto superior esquerdo, ele se torna:
    2----3
    |    |
    1----0

e a ordem dos vértices ainda será (0, 1, 2, 3).

paragraphs[]

Paragraph

Lista de parágrafos neste bloco, se ele for do tipo "texto".

block_type

BlockType

Tipo de bloco detectado (texto, imagem etc.) para este bloco.

confidence

float

Confiança dos resultados do OCR no bloco. Intervalo [0, 1].

BlockType

Tipo de um bloco (texto, imagem etc.), conforme identificado pelo OCR.

Tipos enumerados
UNKNOWN Tipo de bloco desconhecido
TEXT Bloco de texto regular
TABLE Bloco de tabelas
PICTURE Bloco de imagens
RULER Caixa de linha horizontal/vertical
BARCODE Bloco de códigos de barras

BoundingPoly

Um polígono delimitador para a anotação de imagem detectada.

Campos
vertices[]

Vertex

Os vértices do polígono delimitador.

normalized_vertices[]

NormalizedVertex

Os vértices normalizados do polígono delimitador.

EntityAnnotation

Conjunto de recursos detectados da entidade.

Campos
mid

string

ID da entidade opaca. Alguns IDs podem estar disponíveis na API Google Knowledge Graph Search.

locale

string

O código do idioma da localidade em que a description textual da entidade é expressa.

description

string

Descrição textual da entidade, expressa no respectivo idioma de locale.

score

float

Pontuação geral do resultado. Intervalo [0, 1].

confidence
(deprecated)

float

Descontinuado. Use score. A precisão da detecção de entidade em uma imagem. Por exemplo, para uma imagem em que a entidade "Torre Eiffel" é detectada, esse campo representa a confiança de que há uma torre na imagem da consulta. Intervalo [0, 1].

topicality

float

A relevância do marcador de anotação de conteúdo da imagem (ICA, na sigla em inglês) em relação à imagem. Por exemplo, a relevância de "torre" provavelmente é maior em uma imagem que contém a "Torre Eiffel" detectada do que em uma imagem com um prédio alto distante detectado, mesmo que a confiança de que há uma torre em cada imagem possa ser a mesma. Intervalo [0, 1].

bounding_poly

BoundingPoly

Região da imagem a que esta entidade pertence. Não produzido para os recursos LABEL_DETECTION.

properties[]

Property

Algumas entidades podem ter campos opcionais de Property (nome/valor) fornecidos pelo usuário, como pontuação ou string que qualifica a entidade.

Recurso

O tipo de detecção da API Google Cloud Vision a ser executada e o número máximo de resultados a serem retornados para esse tipo. Vários objetos Feature podem ser especificados na lista features.

Campos
type

Type

O tipo de recurso.

model

string

Modelo a ser usado com o recurso. Valores aceitos: "builtin/stable", o padrão se não definido, e "builtin/latest". DOCUMENT_TEXT_DETECTION e TEXT_DETECTION também oferecem suporte a "builtin/weekly" para a versão mais recente atualizada semanalmente.

Tipo

Tipo de recurso da API Google Cloud Vision a ser extraído.

Tipos enumerados
TYPE_UNSPECIFIED Tipo de recurso não especificado.
TEXT_DETECTION Executar detecção de texto/reconhecimento óptico de caracteres (OCR). A detecção de texto é otimizada para áreas de texto em uma imagem maior. Se a imagem for um documento, use DOCUMENT_TEXT_DETECTION.
DOCUMENT_TEXT_DETECTION Executar o OCR em um documento de texto denso. Tem precedência quando DOCUMENT_TEXT_DETECTION e TEXT_DETECTION estão presentes.

Imagem

Imagem do cliente em que serão executadas as tarefas da API Google Cloud Vision.

Campos
content

bytes

Conteúdo da imagem, representado como um stream de bytes. Observação: assim como acontece com todos os campos bytes, os protobuffers usam uma representação binária pura, e as representações JSON usam base64.

No momento, esse campo só funciona para solicitações BatchAnnotateImages. Ele não funciona para solicitações AsyncBatchAnnotateImages.

ImageAnnotationContext

Se uma imagem foi produzida com base em um arquivo, como um PDF, essa mensagem fornece informações sobre a origem da imagem.

Campos
uri

string

O URI do arquivo usado para produzir a imagem.

page_number

int32

Se o arquivo for um PDF ou TIFF, esse campo vai fornecer o número da página no arquivo usado para produzir a imagem.

ImageContext

Contexto da imagem e/ou parâmetros específicos do recurso.

Campos
language_hints[]

string

Lista de idiomas a serem usados para TEXT_DETECTION. Na maioria dos casos, um valor vazio produz os melhores resultados porque possibilita a detecção automática de idioma. Para idiomas baseados no alfabeto latino, não é necessário definir language_hints. Em alguns casos raros, quando o idioma do texto na imagem é conhecido, você recebe resultados melhores definindo uma dica. No entanto, isso poderá ser um problema se ela for definida incorretamente. A detecção de texto vai retornar um erro se um ou mais dos idiomas especificados não forem aceitos.

text_detection_params

TextDetectionParams

Parâmetros para detecção de texto e de texto em documentos.

InputConfig

Os metadados e o local pretendido para a entrada.

Campos
content

bytes

Conteúdo da imagem, representado como um stream de bytes. Observação: assim como acontece com todos os campos bytes, os protobuffers usam uma representação binária pura, e as representações JSON usam Base64.

No momento, esse campo só funciona para solicitações BatchAnnotateFiles. Ele não funciona para solicitações AsyncBatchAnnotateFiles.

mime_type

string

O tipo do arquivo. No momento, só são aceitos application/pdf, image/tiff e image/gif. Caracteres curinga não são aceitos.

NormalizedVertex

Um vértice representa um ponto 2D na imagem. OBSERVAÇÃO: as coordenadas do vértice normalizado são relativas à imagem original e variam de 0 a 1.

Campos
x

float

Coordenada X.

y

float

Coordenada Y.

Página

Página detectada do OCR.

Campos
property

TextProperty

Informações adicionais detectadas na página.

width

int32

Largura da página. Nos PDFs, a unidade é a pontuação. Para imagens (incluindo TIFFs), a unidade é pixels.

height

int32

Altura da página. Nos PDFs, a unidade é a pontuação. Para imagens (incluindo TIFFs), a unidade é pixels.

blocks[]

Block

Lista de blocos de texto, imagens, entre outros, nesta página.

confidence

float

Confiança dos resultados do OCR na página. Intervalo [0, 1].

Paragraph

Unidade estrutural de texto que representa uma série de palavras em determinada ordem.

Campos
property

TextProperty

Informações adicionais detectadas para o parágrafo.

bounding_box

BoundingPoly

A caixa delimitadora do parágrafo. Os vértices estão na seguinte ordem: superior esquerda, superior direita, inferior direita e inferior esquerda. Quando for detectada uma rotação da caixa delimitadora, ela será representada no canto superior esquerdo, como definido pela leitura do texto na orientação natural. Por exemplo: * quando o texto é horizontal, é semelhante ao seguinte: 0----1 | | 3----2 * quando é girado em 180 graus em torno do canto superior esquerdo, torna-se: 2----3 | | 1----0, e a ordem dos vértices ainda é (0, 1, 2, 3).

words[]

Word

Lista de todas as palavras neste parágrafo.

confidence

float

Confiança dos resultados do OCR para o parágrafo. Intervalo [0, 1].

Propriedade

Uma Property consiste em um par de nome/valor fornecido pelo usuário.

Campos
name

string

Nome da propriedade.

value

string

Valor da propriedade.

uint64_value

uint64

Valor das propriedades numéricas.

Símbolo

Uma única representação de símbolo.

Campos
property

TextProperty

Informações adicionais detectadas para o símbolo.

bounding_box

BoundingPoly

A caixa delimitadora do símbolo. Os vértices estão na seguinte ordem: superior esquerda, superior direita, inferior direita e inferior esquerda. Quando for detectada uma rotação da caixa delimitadora, ela será representada no canto superior esquerdo, como definido pela leitura do texto na orientação natural. Por exemplo: * quando o texto é horizontal, é semelhante ao seguinte: 0----1 | | 3----2 * quando é girado em 180 graus em torno do canto superior esquerdo, torna-se: 2----3 | | 1----0, e a ordem dos vértices ainda é (0, 1, 2, 3).

text

string

A representação UTF-8 real do símbolo.

confidence

float

Confiança dos resultados do OCR para o símbolo. Intervalo [0, 1].

TextAnnotation

TextAnnotation contém uma representação estruturada do texto extraído por OCR. A hierarquia de uma estrutura de texto extraída por OCR é assim:

TextAnnotation -> Página -> Bloco -> Parágrafo -> Palavra -> Símbolo

Cada componente estrutural, começando pela página, pode ter propriedades que descrevem idiomas detectados, quebras de linha etc. Para mais detalhes, consulte a definição da mensagem TextAnnotation.TextProperty a seguir.

Campos
pages[]

Page

Lista de páginas detectadas pelo OCR.

text

string

Texto UTF-8 detectado nas páginas.

DetectedBreak

Início ou fim da detecção de um componente estrutural.

Campos
type

BreakType

Tipo de quebra detectado.

is_prefix

bool

Verdadeiro se a quebra preceder o elemento.

BreakType

Enum para denotar o tipo de quebra encontrado. Nova linha, espaço etc.

Tipos enumerados
UNKNOWN Tipo de marcador de quebra desconhecido.
SPACE Espaço regular.
SURE_SPACE Espaço garantido (muito largo).
EOL_SURE_SPACE Quebra de linha.
HYPHEN Hífen de fim de linha que não está presente no texto. Não ocorre juntamente com SPACE, LEADER_SPACE ou LINE_BREAK.
LINE_BREAK Quebra de linha que termina um parágrafo.

DetectedLanguage

Idioma detectado para um componente estrutural.

Campos
language_code

string

O código de idioma BCP-47, como pt-BR ou en-US. Para mais informações, consulte https://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

confidence

float

Confiança do idioma detectado. Intervalo [0, 1].

TextProperty

Informações adicionais detectadas sobre o componente estrutural.

Campos
detected_languages[]

DetectedLanguage

Uma lista de idiomas detectados juntamente com a confiança.

detected_break

DetectedBreak

Início ou fim detectado de um segmento de texto.

TextDetectionParams

Parâmetros para detecção de texto. Isso é usado para controlar os recursos TEXT_DETECTION e DOCUMENT_TEXT_DETECTION.

Campos
enable_text_detection_confidence_score

bool

Por padrão, a API Cloud Vision só inclui a pontuação de confiança para o resultado DOCUMENT_TEXT_DETECTION. Defina a flag como "true" para incluir também a pontuação de confiança para TEXT_DETECTION.

advanced_ocr_options[]

string

Uma lista de opções avançadas de OCR para ajustar o comportamento do OCR.

Vertex

Um vértice representa um ponto 2D na imagem. OBSERVAÇÃO: as coordenadas do vértice estão na mesma escala que a imagem original.

Campos
x

int32

Coordenada X.

y

int32

Coordenada Y.

Word

Uma representação de palavra.

Campos
property

TextProperty

Informações adicionais detectadas para a palavra.

bounding_box

BoundingPoly

A caixa delimitadora da palavra. Os vértices estão na seguinte ordem: superior esquerda, superior direita, inferior direita e inferior esquerda. Quando for detectada uma rotação da caixa delimitadora, ela será representada no canto superior esquerdo, como definido pela leitura do texto na orientação natural. Por exemplo: * quando o texto é horizontal, é semelhante ao seguinte: 0----1 | | 3----2 * quando é girado em 180 graus em torno do canto superior esquerdo, torna-se: 2----3 | | 1----0, e a ordem dos vértices ainda é (0, 1, 2, 3).

symbols[]

Symbol

Lista de símbolos na palavra. A ordem dos símbolos segue a ordem de leitura natural.

confidence

float

Confiança dos resultados do OCR para a palavra. Intervalo [0, 1].