Google utilise la technologie IA pour traduire le contenu dans votre langue préférée. Les traductions générées par IA peuvent contenir des erreurs.

Détecter du texte dans des fichiers

Cette page explique comment détecter du texte dans des fichiers à l'aide de l'API de reconnaissance optique des caractères (OCR) sur l'appliance isolée de Google Distributed Cloud (GDC).

Le service OCR de Vertex AI sur l'appliance isolée de GDC détecte le texte dans les fichiers PDF et TIFF à l'aide de la méthode d'API BatchAnnotateFiles.

Avant de commencer

Avant de pouvoir commencer à utiliser l'API OCR, vous devez disposer d'un projet dans lequel l'API OCR est activée et disposer des identifiants appropriés. Vous pouvez également installer des bibliothèques clientes pour faciliter les appels à l'API. Pour en savoir plus, consultez Configurer un projet de reconnaissance de caractères.

Détecter du texte avec des requêtes intégrées

La méthode BatchAnnotateFiles détecte le texte d'un lot de fichiers PDF ou TIFF. Vous envoyez directement le fichier à partir duquel vous souhaitez détecter du texte en tant que contenu dans la requête API. Le système renvoie le texte détecté au format JSON dans la réponse de l'API.

Vous devez spécifier des valeurs pour les champs du corps JSON de votre requête API. Le tableau suivant décrit les champs du corps de la requête que vous devez fournir lorsque vous utilisez la méthode d'API BatchAnnotateFiles pour vos requêtes de détection de texte :

Champs du corps de la requête	Description du champ
`content`	Fichiers contenant le texte à détecter. Vous fournissez la représentation en base64 (chaîne ASCII) du contenu de votre fichier binaire. Remarque : Vous ne pouvez traiter que les fichiers stockés localement dans votre environnement d'appliance isolée de GDC.
`mime_type`	Type de fichier source. Vous devez définir l'une des valeurs suivantes : `application/pdf` pour les fichiers PDF `image/tiff` pour les fichiers TIFF
`type`	Type de détection de texte dont vous avez besoin à partir du fichier. Spécifiez l'une des deux fonctionnalités d'annotation : `TEXT_DETECTION` détecte et extrait le texte de n'importe quel fichier. La réponse JSON inclut la chaîne extraite, les mots individuels et leurs cadres de délimitation. `DOCUMENT_TEXT_DETECTION` extrait également le texte d'un fichier, mais le service optimise la réponse pour le texte et les documents denses. Le JSON comprend des informations sur les pages, les blocs, les paragraphes, les mots et les blancs. Pour en savoir plus sur ces fonctionnalités d'annotation, consultez Fonctionnalités de reconnaissance optique des caractères.
`language_hints`	Facultatif. Liste des langues à utiliser pour la détection de texte. Le système interprète une valeur vide pour ce champ comme une détection automatique de la langue. Vous n'avez pas besoin de définir le champ `language_hints` pour les langues basées sur l'alphabet latin. Si vous connaissez la langue du texte dans le fichier, la définition d'un indicateur améliore les résultats. Comment fonctionnent les indicateurs de langue ? Le format `language_hints` utilise les consignes de mise en forme de balise de langue `BCP 47` suivantes : `language` ["-"`script`] ["-" `region`] ("-"`variant`) ("-"`extension`) ["-"`privateuse`]. Par exemple, l'indicateur de langue "`en`-`t`-`i0`-`handwrit`" spécifie la langue anglaise (`en`), le singleton d'extension transform (`t`), le code d'extension pour la transformation du moteur du mode de saisie (`i0`) et le code de transformation du texte manuscrit (`handwrit`). Cela indique grossièrement que la langue est de l'"anglais transformé à partir d'un texte manuscrit". Vous n'avez pas besoin de spécifier un code de script, car la langue "`en`" sous-entend `Latn`. Pour obtenir la liste des langues compatibles, consultez Langues compatibles.
`pages`	Facultatif. Nombre de pages du fichier à traiter pour la détection de texte. Vous pouvez spécifier un maximum de cinq pages. Si vous ne spécifiez pas le nombre de pages, le service traite les cinq premières pages du fichier.

Effectuer une requête API intégrée

Effectuez une requête auprès de l'API pré-entraînée OCR à l'aide de la méthode d'API REST. Sinon, interagissez avec l'API pré-entraînée OCR à partir d'un script Python pour détecter le texte des fichiers PDF ou TIFF.

Les exemples suivants montrent comment détecter du texte dans un fichier à l'aide de l'OCR :

REST

Pour détecter du texte dans des fichiers à l'aide de la méthode d'API REST, procédez comme suit :

Enregistrez le fichier request.json suivant pour le corps de votre requête :
```
cat <<- EOF > request.json
{
  "requests": [
    {
      "input_config": {
        "content": BASE64_ENCODED_FILE,
        "mime_type": "application/pdf"
      },
      "features": [
        {
          "type": "FEATURE_TYPE"
        }
      ],
      "image_context": {
        "language_hints": [
          "LANGUAGE_HINT_1",
          "LANGUAGE_HINT_2",
          ...
        ]
      },
      "pages": []
    }
  ]
}
EOF
```
Remplacez les éléments suivants :
- BASE64_ENCODED_FILE: représentation en base64 (chaîne ASCII) du contenu de votre fichier binaire. Cette chaîne commence par des caractères semblables à /9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
- FEATURE_TYPE: type de détection de texte dont vous avez besoin à partir du fichier. Les valeurs autorisées sont TEXT_DETECTION ou DOCUMENT_TEXT_DETECTION.
- LANGUAGE_HINT: balises de langue BCP 47 à utiliser comme indicateurs de langue pour la détection de texte, par exemple en-t-i0-handwrit. Ce champ est facultatif et le système interprète une valeur vide comme une détection automatique de la langue.
Obtenez un jeton d'authentification.

Envoyez la requête :

curl

curl -X POST \
  -H "Authorization: Bearer TOKEN" \
  -H "x-goog-user-project: projects/PROJECT_ID" \
  -H "Content-Type: application/json; charset=utf-8" \
  -d @request.json \
  https://ENDPOINT/v1/files:annotate

Remplacez les éléments suivants :

TOKEN : jeton d'authentification que vous avez obtenu.
PROJECT_ID : ID du projet.
ENDPOINT: point de terminaison OCR que vous utilisez pour votre organisation. Pour en savoir plus, consultez État du service et points de terminaison.

PowerShell

$headers = @{
  "Authorization" = "Bearer TOKEN"
  "x-goog-user-project" = "projects/PROJECT_ID"
}

Invoke-WebRequest
  -Method POST
  -Headers $headers
  -ContentType: "application/json; charset=utf-8"
  -InFile request.json
  -Uri "ENDPOINT/v1/files:annotate" | Select-Object -Expand Content

Remplacez les éléments suivants :

TOKEN : jeton d'authentification que vous avez obtenu.
ENDPOINT: point de terminaison OCR que vous utilisez pour votre organisation. Pour en savoir plus, consultez État du service et points de terminaison.

Python

Pour utiliser le service OCR à partir d'un script Python afin de détecter du texte dans un fichier, procédez comme suit :

Installez la dernière version de la bibliothèque cliente OCR.
Définissez les variables d'environnement requises dans un script Python.
Authentifiez votre requête API.

Ajoutez le code suivant au script Python que vous avez créé :

from google.cloud import vision
import google.auth
from google.auth.transport import requests
from google.api_core.client_options import ClientOptions

audience = "https://ENDPOINT:443"
api_endpoint="ENDPOINT:443"

def vision_client(creds):
  opts = ClientOptions(api_endpoint=api_endpoint)
  return vision.ImageAnnotatorClient(credentials=creds, client_options=opts)

def main():
  creds = None
  try:
    creds, project_id = google.auth.default()
    creds = creds.with_gdch_audience(audience)
    req = requests.Request()
    creds.refresh(req)
    print("Got token: ")
    print(creds.token)
  except Exception as e:
    print("Caught exception" + str(e))
    raise e
  return creds

def vision_func(creds):
  vc = vision_client(creds)
  input_config = {"content": "BASE64_ENCODED_FILE"}
  features = [{"type_": vision.Feature.Type.FEATURE_TYPE}]
  # Each requests element corresponds to a single file. To annotate more
  # files, create a request element for each file and add it to
  # the array of requests
  req = {"input_config": input_config, "features": features}

  metadata = [("x-goog-user-project", "projects/PROJECT_ID")]

  resp = vc.annotate_file(req,metadata=metadata)

  print(resp)

if __name__=="__main__":
  creds = main()
  vision_func(creds)

Remplacez les éléments suivants :

ENDPOINT: point de terminaison OCR que vous utilisez pour votre organisation. Pour en savoir plus, consultez État du service et points de terminaison.
BASE64_ENCODED_FILE: représentation en base64 (chaîne ASCII) du contenu de votre fichier. Cette chaîne commence par des caractères semblables à /9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
FEATURE_TYPE: type de détection de texte dont vous avez besoin à partir du fichier. Les valeurs autorisées sont TEXT_DETECTION ou DOCUMENT_TEXT_DETECTION.
PROJECT_ID : ID du projet.

Enregistrez le script Python.
Exécutez le script Python pour détecter le texte dans le fichier :
```
python SCRIPT_NAME
```
Remplacez SCRIPT_NAME par le nom que vous avez donné à votre script Python, par exemple vision.py.

Détecter du texte dans des fichiers Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Avant de commencer

Détecter du texte avec des requêtes intégrées

Effectuer une requête API intégrée

REST

curl

PowerShell

Python

Détecter du texte dans des fichiers