Scopri come eseguire il riconoscimento ottico dei caratteri (OCR) su Google Cloud. Questo tutorial mostra come caricare file immagine in Cloud Storage, estrarre il testo dalle immagini utilizzando l'API Cloud Vision, tradurre il testo utilizzando l'API Google Cloud Translation e salvare le traduzioni in Cloud Storage. Pub/Sub viene utilizzato per inserire in coda varie attività e attivare le funzioni Cloud Run giuste per eseguirle.
Per saperne di più sull'invio di una richiesta di rilevamento del testo (OCR), consulta Rileva il testo nelle immagini, Rileva la scrittura a mano libera nelle immagini o Rileva il testo nei file (PDF/TIFF).
Obiettivi
- Scrivere ed eseguire il deployment di diverse funzioni Cloud Run in background.
- Caricare immagini su Cloud Storage.
- Estrarre tradurre e salvare il testo contenuto nelle immagini caricate.
Costi
In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:
- Cloud Run functions
- Pub/Sub
- Cloud Storage
- Cloud Translation API
- Cloud Vision
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il calcolatore prezzi.
Prima di iniziare
- Accedi al tuo account Google Cloud . Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Functions, Cloud Build, Cloud Pub/Sub, Cloud Storage, Cloud Translation, and Cloud Vision APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Installa Google Cloud CLI.
-
Se utilizzi un provider di identità (IdP) esterno, devi prima accedere a gcloud CLI con la tua identità federata.
-
Per inizializzare gcloud CLI, esegui questo comando:
gcloud init -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Functions, Cloud Build, Cloud Pub/Sub, Cloud Storage, Cloud Translation, and Cloud Vision APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Installa Google Cloud CLI.
-
Se utilizzi un provider di identità (IdP) esterno, devi prima accedere a gcloud CLI con la tua identità federata.
-
Per inizializzare gcloud CLI, esegui questo comando:
gcloud init - Prepara l'ambiente di sviluppo.
Se hai già installato gcloud CLI, aggiornala eseguendo il seguente comando:
gcloud components update
Visualizzazione del flusso dei dati
Il flusso di dati nell'applicazione del tutorial su OCR prevede diversi passaggi:
- Un'immagine che contiene testo in qualsiasi lingua viene caricata in Cloud Storage.
- Viene attivata una funzione Cloud Run, che utilizza l'API Vision per estrarre il testo e rilevare la lingua di origine.
- Il testo viene messo in coda per la traduzione pubblicando un messaggio in un argomento Pub/Sub. Viene inserita in coda una traduzione per ogni lingua di destinazione diversa dalla lingua di origine.
- Se una lingua di destinazione corrisponde alla lingua di origine, la coda di traduzione viene saltata e il testo viene inviato alla coda dei risultati, che è un argomento Pub/Sub diverso.
- Una funzione Cloud Run utilizza l'API Translation per tradurre il testo nella coda di traduzione. Il risultato tradotto viene inviato alla coda dei risultati.
- Un'altra funzione Cloud Run salva il testo tradotto dalla coda dei risultati in Cloud Storage.
- I risultati sono disponibili in Cloud Storage sotto forma di file di testo per ogni traduzione.
Può essere utile visualizzare i passaggi:
Preparazione dell'applicazione
Crea un bucket Cloud Storage in cui caricare le immagini, dove
YOUR_IMAGE_BUCKET_NAMEè un nome di bucket univoco a livello globale:gcloud storage buckets create gs://
YOUR_IMAGE_BUCKET_NAMECrea un bucket Cloud Storage in cui salvare le traduzioni dei testi, dove
YOUR_RESULT_BUCKET_NAMEè un nome di bucket univoco a livello globale:gcloud storage buckets create gs://
YOUR_RESULT_BUCKET_NAMECrea un argomento Pub/Sub in cui pubblicare le richieste di traduzione, dove
YOUR_TRANSLATE_TOPIC_NAMEè il nome dell'argomento della richiesta di traduzione:gcloud pubsub topics create
YOUR_TRANSLATE_TOPIC_NAMECrea un argomento Pub/Sub in cui pubblicare i risultati della traduzione completata, dove
YOUR_RESULT_TOPIC_NAMEè il nome dell'argomento dei risultati della traduzione:gcloud pubsub topics create
YOUR_RESULT_TOPIC_NAMEClona il repository dell'app di esempio sulla tua macchina locale:
Node.js
git clone https://github.com/GoogleCloudPlatform/nodejs-docs-samples.git
In alternativa puoi scaricare l'esempio come file ZIP ed estrarlo.
Python
git clone https://github.com/GoogleCloudPlatform/python-docs-samples.git
In alternativa puoi scaricare l'esempio come file ZIP ed estrarlo.
Go
git clone https://github.com/GoogleCloudPlatform/golang-samples.git
In alternativa puoi scaricare l'esempio come file ZIP ed estrarlo.
Java
git clone https://github.com/GoogleCloudPlatform/java-docs-samples.git
In alternativa puoi scaricare l'esempio come file ZIP ed estrarlo.
Passa alla directory che contiene il codice campione di Cloud Run Functions:
Node.js
cd nodejs-docs-samples/functions/ocr/app/
Python
cd python-docs-samples/functions/ocr/app/
Go
cd golang-samples/functions/ocr/app/
Java
cd java-docs-samples/functions/ocr/ocr-process-image/
Nozioni di base sul codice
Importazione delle dipendenze
L'applicazione deve importare diverse dipendenze per comunicare con i servizi della piattaforma Google Cloud:
Node.js
Python
Go
Java
Elaborazione delle immagini
La seguente funzione legge un file immagine caricato da Cloud Storage e chiama una funzione per rilevare la presenza di testo nell'immagine:
Node.js
Python
Go
Java
La seguente funzione estrae il testo dall'immagine utilizzando l'API Vision e lo mette in coda per la traduzione:
Node.js
Python
Go
Java
Traduzione di testo
La seguente funzione traduce il testo estratto e lo mette in coda per essere di nuovo salvato in Cloud Storage:
Node.js
Python
Go
Java
Salvataggio delle traduzioni
Infine, la seguente funzione riceve il testo tradotto e lo salva di nuovo in Cloud Storage:
Node.js
Python
Go
Java
Deployment delle funzioni
Per eseguire il deployment della funzione di elaborazione immagini con un trigger Cloud Storage, esegui questo comando nella directory che contiene il codice campione (o, nel caso di Java, il file
pom.xml):Node.js
gcloud functions deploy ocr-extract \ --runtime nodejs22 \
--trigger-bucket YOUR_IMAGE_BUCKET_NAME \
--entry-point processImage \
--set-env-vars "^:^GCP_PROJECT=YOUR_GCP_PROJECT_ID:TRANSLATE_TOPIC=YOUR_TRANSLATE_TOPIC_NAME:RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME:TO_LANG=es,en,fr,ja"Utilizza il flag
--runtimeper specificare l'ID runtime di una versione di Node.js supportata per eseguire la funzione.Python
gcloud functions deploy ocr-extract \ --runtime python312 \
--trigger-bucket YOUR_IMAGE_BUCKET_NAME \
--entry-point process_image \
--set-env-vars "^:^GCP_PROJECT=YOUR_GCP_PROJECT_ID:TRANSLATE_TOPIC=YOUR_TRANSLATE_TOPIC_NAME:RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME:TO_LANG=es,en,fr,ja"Utilizza il flag
--runtimeper specificare l'ID runtime di una versione di Python supportata per eseguire la funzione.Go
gcloud functions deploy ocr-extract \ --runtime go121 \
--trigger-bucket YOUR_IMAGE_BUCKET_NAME \
--entry-point ProcessImage \
--set-env-vars "^:^GCP_PROJECT=YOUR_GCP_PROJECT_ID:TRANSLATE_TOPIC=YOUR_TRANSLATE_TOPIC_NAME:RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME:TO_LANG=es,en,fr,ja"Utilizza il flag
--runtimeper specificare l'ID runtime di una versione di Go supportata per eseguire la funzione.Java
gcloud functions deploy ocr-extract \ --entry-point functions.OcrProcessImage \ --runtime java17 \ --memory 512MB \
--trigger-bucket YOUR_IMAGE_BUCKET_NAME \
--set-env-vars "^:^GCP_PROJECT=YOUR_GCP_PROJECT_ID:TRANSLATE_TOPIC=YOUR_TRANSLATE_TOPIC_NAME:RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME:TO_LANG=es,en,fr,ja"Utilizza il flag
--runtimeper specificare l'ID runtime di una versione di Java supportata per eseguire la funzione.dove
YOUR_IMAGE_BUCKET_NAMEè il nome del bucket Cloud Storage in cui caricherai le immagini.Per eseguire il deployment della funzione di traduzione del testo con un trigger Pub/Sub, esegui questo comando nella directory che contiene il codice campione (o, nel caso di Java, il file
pom.xml):Node.js
gcloud functions deploy ocr-translate \ --runtime nodejs22 \
--trigger-topic YOUR_TRANSLATE_TOPIC_NAME \
--entry-point translateText \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME"Utilizza il flag
--runtimeper specificare l'ID runtime di una versione di Node.js supportata per eseguire la funzione.Python
gcloud functions deploy ocr-translate \ --runtime python312 \
--trigger-topic YOUR_TRANSLATE_TOPIC_NAME \
--entry-point translate_text \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME"Utilizza il flag
--runtimeper specificare l'ID runtime di una versione di Python supportata per eseguire la funzione.Go
gcloud functions deploy ocr-translate \ --runtime go121 \
--trigger-topic YOUR_TRANSLATE_TOPIC_NAME \
--entry-point TranslateText \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME"Utilizza il flag
--runtimeper specificare l'ID runtime di una versione di Go supportata per eseguire la funzione.Java
gcloud functions deploy ocr-translate \ --entry-point functions.OcrTranslateText \ --runtime java17 \ --memory 512MB \
--trigger-topic YOUR_TRANSLATE_TOPIC_NAME \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME"Utilizza il flag
--runtimeper specificare l'ID runtime di una versione di Java supportata per eseguire la funzione.Per eseguire il deployment della funzione che salva i risultati in Cloud Storage con un trigger Cloud Pub/Sub, esegui questo comando nella directory che contiene il codice campione (o, nel caso di Java, il file
pom.xml):Node.js
gcloud functions deploy ocr-save \ --runtime nodejs22 \
--trigger-topic YOUR_RESULT_TOPIC_NAME \
--entry-point saveResult \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_BUCKET=YOUR_RESULT_BUCKET_NAME"Utilizza il flag
--runtimeper specificare l'ID runtime di una versione di Node.js supportata per eseguire la funzione.Python
gcloud functions deploy ocr-save \ --runtime python312 \
--trigger-topic YOUR_RESULT_TOPIC_NAME \
--entry-point save_result \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_BUCKET=YOUR_RESULT_BUCKET_NAME"Utilizza il flag
--runtimeper specificare l'ID runtime di una versione di Python supportata per eseguire la funzione.Go
gcloud functions deploy ocr-save \ --runtime go121 \
--trigger-topic YOUR_RESULT_TOPIC_NAME \
--entry-point SaveResult \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_BUCKET=YOUR_RESULT_BUCKET_NAME"Utilizza il flag
--runtimeper specificare l'ID runtime di una versione di Go supportata per eseguire la funzione.Java
gcloud functions deploy ocr-save \ --entry-point functions.OcrSaveResult \ --runtime java17 \ --memory 512MB \
--trigger-topic YOUR_RESULT_TOPIC_NAME \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_BUCKET=YOUR_RESULT_BUCKET_NAME"Utilizza il flag
--runtimeper specificare l'ID runtime di una versione di Java supportata per eseguire la funzione.
Caricamento di un'immagine
Carica un'immagine nel bucket Cloud Storage delle immagini:
gcloud storage cp
PATH_TO_IMAGEgs://YOUR_IMAGE_BUCKET_NAMEdove
PATH_TO_IMAGEè un percorso di un file immagine (che contiene testo) sul tuo sistema locale.YOUR_IMAGE_BUCKET_NAMEè il nome del bucket in cui stai caricando le immagini.
Puoi scaricare una delle immagini dal progetto di esempio.
Guarda i log per assicurarti che le esecuzioni siano state completate:
gcloud functions logs read --limit 100
Puoi visualizzare le traduzioni salvate nel bucket Cloud Storage che hai utilizzato per
YOUR_RESULT_BUCKET_NAME.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto creato per il tutorial.
Per eliminare il progetto:
- Nella console Google Cloud , vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona quello che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.
Eliminazione della funzione
L'eliminazione delle funzioni Cloud Run non rimuove le risorse archiviate in Cloud Storage.
Per eliminare le funzioni Cloud Run che hai creato in questo tutorial, esegui questi comandi:
gcloud functions delete ocr-extract gcloud functions delete ocr-translate gcloud functions delete ocr-save
Puoi anche eliminare le funzioni Cloud Run dalla consoleGoogle Cloud .