Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Detectar texto em imagens

O serviço de reconhecimento óptico de caracteres (OCR, na sigla em inglês) da Vertex AI no Google Distributed Cloud (GDC) air-gapped detecta texto em imagens usando o método de API BatchAnnotateImages. O serviço oferece suporte a arquivos JPEG e PNG para imagens.

Esta página mostra como detectar texto de imagem usando a API OCR no Distributed Cloud.

Antes de começar

Antes de começar a usar a API OCR, você precisa ter um projeto com a API OCR ativada e as credenciais adequadas. Também é possível instalar bibliotecas de cliente para ajudar você a fazer chamadas para a API. Para mais informações, consulte Configurar um projeto de reconhecimento de caracteres.

Detectar texto de arquivos JPEG e PNG

O método BatchAnnotateImages detecta texto de um lote de arquivos JPEG ou PNG. Você envia o arquivo do qual quer detectar texto diretamente como conteúdo na solicitação de API. O sistema retorna o texto detectado resultante no formato JSON na resposta da API.

É necessário especificar valores para os campos no corpo JSON da solicitação de API. A tabela a seguir contém uma descrição dos campos do corpo da solicitação que você precisa fornecer ao usar o método de API BatchAnnotateImages para solicitações de detecção de texto:

Campos do corpo da solicitação	Descrição do campo
`content`	As imagens com texto a ser detectado. Você fornece a representação Base64 (string ASCII) dos dados da imagem binária. Observação:só é possível processar imagens armazenadas localmente no ambiente do Distributed Cloud.
`type`	O tipo de detecção de texto necessário na imagem. Especifique um dos dois recursos de anotação: `TEXT_DETECTION` detecta e extrai texto de qualquer imagem. A resposta JSON inclui a string extraída, palavras individuais e caixas delimitadoras. `DOCUMENT_TEXT_DETECTION` também extrai texto de uma imagem, mas o serviço otimiza a resposta para texto e documentos densos. O JSON inclui informações de página, bloco, parágrafo, palavra e quebra de linha. Para mais informações sobre esses recursos de anotação, consulte Recursos de reconhecimento óptico de caracteres.
`language_hints`	Opcional. Lista de idiomas a serem usados para a detecção de texto. O sistema interpreta um valor vazio para esse campo como detecção automática de idioma. Não é necessário definir o campo `language_hints` para idiomas baseados no alfabeto latino. Se você souber o idioma do texto na imagem, definir uma dica vai melhorar os resultados. Como as dicas de idioma funcionam? O formato `language_hints` usa as seguintes diretrizes de formatação de tag de idioma `BCP 47`: `language` ["-"`script`] ["-" `region`] ("-"`variant`) ("-"`extension`) ["-"`privateuse`]. Por exemplo, a dica de idioma "`en`-`t`-`i0`-`handwrit`" especifica o idioma inglês (`en`), singleton da extensão de transformação (`t`), código de extensão de transformação do mecanismo do método de entrada (`i0`) e código de transformação de escrita à mão (`handwrit`). Em resumo, a linguagem é "transformada em inglês a partir da escrita à mão". Não é necessário especificar um código de script, porque o idioma "`en`" implica `Latn`. Para uma lista de idiomas com suporte, consulte Idiomas com suporte.

Para informações sobre a representação JSON completa, consulte AnnotateImageRequest.

Fazer uma solicitação de API

Faça uma solicitação para a API pré-treinada de OCR usando o método da API REST. Caso contrário, interaja com a API pré-treinada de OCR de um script Python para detectar texto de arquivos JPEG ou PNG.

Os exemplos a seguir mostram como detectar texto em uma imagem usando o OCR:

REST

Siga estas etapas para detectar texto em imagens usando o método da API REST:

Salve o arquivo request.json a seguir para o corpo da solicitação:
```
cat <<- EOF > request.json
{
  "requests": [
    {
      "image": {
        "content": BASE64_ENCODED_IMAGE
      },
      "features": [
        {
          "type": "FEATURE_TYPE"
        }
      ],
      "image_context": {
        "language_hints": [
          "LANGUAGE_HINT_1",
          "LANGUAGE_HINT_2",
          ...
        ]
      }
    }
  ]
}
EOF
```
Substitua:
- BASE64_ENCODED_IMAGE: a representação Base64 (string ASCII) dos dados da imagem binária. Essa string começa com caracteres semelhantes a /9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
- FEATURE_TYPE: o tipo de detecção de texto necessário na imagem. Os valores permitidos são TEXT_DETECTION ou DOCUMENT_TEXT_DETECTION.
- LANGUAGE_HINT: as tags de idioma BCP 47 a serem usadas como dicas de idioma para detecção de texto, como en-t-i0-handwrit. Esse campo é opcional, e o sistema interpreta um valor vazio como detecção automática de idioma.
Receba um token de autenticação.

Faça a solicitação:

curl

curl -X POST \
  -H "Authorization: Bearer TOKEN" \
  -H "x-goog-user-project: projects/PROJECT_ID" \
  -H "Content-Type: application/json; charset=utf-8" \
  -d @request.json \
  https://ENDPOINT/v1/images:annotate

Substitua:

TOKEN: o token de autenticação que você recebeu.
PROJECT_ID: o ID do projeto.
ENDPOINT: o endpoint de OCR que você usa para sua organização. Para mais informações, consulte Status e endpoints do serviço.

PowerShell

$headers = @{
  "Authorization" = "Bearer TOKEN"
  "x-goog-user-project" = "projects/PROJECT_ID"
}

Invoke-WebRequest
  -Method POST
  -Headers $headers
  -ContentType: "application/json; charset=utf-8"
  -InFile request.json
  -Uri "ENDPOINT/v1/images:annotate" | Select-Object -Expand Content

Substitua:

TOKEN: o token de autenticação que você recebeu.
ENDPOINT: o endpoint de OCR que você usa para sua organização. Para mais informações, consulte Status e endpoints do serviço.

Python

Siga estas etapas para usar o serviço de OCR de um script Python para detectar texto em uma imagem:

Instale a versão mais recente da biblioteca de cliente de OCR.
Defina as variáveis de ambiente necessárias em um script Python.
Autentique sua solicitação de API.

Adicione o código a seguir ao script Python criado:

from google.cloud import vision
import google.auth
from google.auth.transport import requests
from google.api_core.client_options import ClientOptions

audience = "https://ENDPOINT:443"
api_endpoint="ENDPOINT:443"

def vision_client(creds):
  opts = ClientOptions(api_endpoint=api_endpoint)
  return vision.ImageAnnotatorClient(credentials=creds, client_options=opts)

def main():
  creds = None
  try:
    creds, project_id = google.auth.default()
    creds = creds.with_gdch_audience(audience)
    req = requests.Request()
    creds.refresh(req)
    print("Got token: ")
    print(creds.token)
  except Exception as e:
    print("Caught exception" + str(e))
    raise e
  return creds

def vision_func(creds):
  vc = vision_client(creds)
  image = {"content": "BASE64_ENCODED_IMAGE"}
  features = [{"type_": vision.Feature.Type.FEATURE_TYPE}]
  # Each requests element corresponds to a single image. To annotate more
  # images, create a request element for each image and add it to
  # the array of requests
  req = {"image": image, "features": features}

  metadata = [("x-goog-user-project", "projects/PROJECT_ID")]

  resp = vc.annotate_image(req,metadata=metadata)

  print(resp)

if __name__=="__main__":
  creds = main()
  vision_func(creds)

Substitua:

ENDPOINT: o endpoint de OCR que você usa para sua organização. Para mais informações, consulte Status e endpoints do serviço.
BASE64_ENCODED_IMAGE: a representação Base64 (string ASCII) dos dados da imagem binária. Essa string começa com caracteres semelhantes a /9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
FEATURE_TYPE: o tipo de detecção de texto necessário na imagem. Os valores permitidos são TEXT_DETECTION ou DOCUMENT_TEXT_DETECTION.
PROJECT_ID: o ID do projeto.

Salve o script Python.
Execute o script Python para detectar texto na imagem:
```
python SCRIPT_NAME
```
Substitua SCRIPT_NAME pelo nome que você deu ao script Python, como vision.py.

Detectar texto em imagens Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Antes de começar

Detectar texto de arquivos JPEG e PNG

Fazer uma solicitação de API

REST

curl

PowerShell

Python

Detectar texto em imagens