Trascrivere la voce in testo utilizzando gcloud CLI

Questa pagina mostra come inviare una richiesta di riconoscimento vocale a Cloud Speech-to-Text utilizzando lo strumento gcloud dalla riga di comando.

Cloud Speech-to-Text consente di integrare facilmente le tecnologie di riconoscimento vocale di Google nelle applicazioni degli sviluppatori. Puoi inviare dati audio all'API Cloud Speech-to-Text, che restituisce una trascrizione di testo del file audio. Per saperne di più sul servizio, consulta la pagina Nozioni di base di Cloud STT.

Prima di iniziare

Prima di poter inviare una richiesta all'API Cloud Speech-to-Text, devi completare le azioni seguenti.

  1. Accedi al tuo account Google Cloud . Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
  2. Installa Google Cloud CLI.

  3. Se utilizzi un provider di identità (IdP) esterno, devi prima accedere a gcloud CLI con la tua identità federata.

  4. Per inizializzare gcloud CLI, esegui questo comando:

    gcloud init
  5. Crea o seleziona un Google Cloud progetto.

    Ruoli richiesti per selezionare o creare un progetto

    • Seleziona un progetto: la selezione di un progetto non richiede un ruolo IAM specifico. Puoi selezionare qualsiasi progetto per il quale ti è stato concesso un ruolo.
    • Crea un progetto: per creare un progetto, devi disporre del ruolo Autore progetto (roles/resourcemanager.projectCreator), che contiene l'autorizzazione resourcemanager.projects.create. Scopri come concedere i ruoli.
    • Creare un progetto Google Cloud :

      gcloud projects create PROJECT_ID

      Sostituisci PROJECT_ID con un nome per il progetto Google Cloud che stai creando.

    • Seleziona il progetto Google Cloud che hai creato:

      gcloud config set project PROJECT_ID

      Sostituisci PROJECT_ID con il nome del progetto Google Cloud .

  6. Se utilizzi un progetto esistente per questa guida, verifica di disporre delle autorizzazioni necessarie per completare la guida. Se hai creato un nuovo progetto, disponi già delle autorizzazioni necessarie.

  7. Verifica che la fatturazione sia abilitata per il tuo progetto Google Cloud .

  8. Abilita l'API Cloud Speech-to-Text:

    Ruoli richiesti per abilitare le API

    Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo dei servizi (roles/serviceusage.serviceUsageAdmin), che include l'autorizzazione serviceusage.services.enable. Scopri come concedere i ruoli.

    gcloud services enable speech.googleapis.com
  9. Installa Google Cloud CLI.

  10. Se utilizzi un provider di identità (IdP) esterno, devi prima accedere a gcloud CLI con la tua identità federata.

  11. Per inizializzare gcloud CLI, esegui questo comando:

    gcloud init
  12. Crea o seleziona un Google Cloud progetto.

    Ruoli richiesti per selezionare o creare un progetto

    • Seleziona un progetto: la selezione di un progetto non richiede un ruolo IAM specifico. Puoi selezionare qualsiasi progetto per il quale ti è stato concesso un ruolo.
    • Crea un progetto: per creare un progetto, devi disporre del ruolo Autore progetto (roles/resourcemanager.projectCreator), che contiene l'autorizzazione resourcemanager.projects.create. Scopri come concedere i ruoli.
    • Creare un progetto Google Cloud :

      gcloud projects create PROJECT_ID

      Sostituisci PROJECT_ID con un nome per il progetto Google Cloud che stai creando.

    • Seleziona il progetto Google Cloud che hai creato:

      gcloud config set project PROJECT_ID

      Sostituisci PROJECT_ID con il nome del progetto Google Cloud .

  13. Se utilizzi un progetto esistente per questa guida, verifica di disporre delle autorizzazioni necessarie per completare la guida. Se hai creato un nuovo progetto, disponi già delle autorizzazioni necessarie.

  14. Verifica che la fatturazione sia abilitata per il tuo progetto Google Cloud .

  15. Abilita l'API Cloud Speech-to-Text:

    Ruoli richiesti per abilitare le API

    Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo dei servizi (roles/serviceusage.serviceUsageAdmin), che include l'autorizzazione serviceusage.services.enable. Scopri come concedere i ruoli.

    gcloud services enable speech.googleapis.com
  16. (Facoltativo) Crea un nuovo bucket Cloud Storage per archiviare i dati audio. Per maggiori informazioni, consulta Creare un bucket Cloud Storage.

Per saperne di più sull'abilitazione dell'API, vedi Configura Cloud Speech-to-Text per il tuo Google Cloud progetto.

Ruoli obbligatori

Per assicurarti che il service agent Cloud Composer disponga delle autorizzazioni necessarie per eseguire Cloud Speech-to-Text, chiedi all'amministratore di concedere al service agent Cloud Composer il ruolo IAM Creatore token service account (iam.serviceAccountTokenCreator) sul tuo progetto.

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

L'amministratore potrebbe anche essere in grado di concedere all'agente di servizio Cloud Composer le autorizzazioni richieste tramite ruoli personalizzati o altri ruoli predefiniti.

Per ottenere le autorizzazioni necessarie per archiviare l'audio in Cloud Storage, chiedi all'amministratore di concederti il ruolo IAM Visualizzatore oggetti Storage (roles/storage.objectViewer) nel bucket Cloud Storage. Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Esecuzione di una richiesta di trascrizione audio

Utilizza Cloud STT per trascrivere un file audio in testo. Utilizza il seguente esempio di codice per inviare una richiesta recognize all'API Cloud Speech-to-Text.

Apri la shell della riga di comando ed esegui il comando seguente.

gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac \
    --language-code=en-US

Questo comando richiede a Cloud STT di trascrivere l'audio contenuto in un file FLAC ospitato in una posizione accessibile pubblicamente.

Se la richiesta riesce, il server restituisce una risposta in formato JSON:

{
  "results": [
    {
      "alternatives": [
        {
          "confidence": 0.9840146,
          "transcript": "how old is the Brooklyn Bridge"
        }
      ]
    }
  ]
}

Complimenti! Hai inviato la tua prima richiesta a Cloud STT.

Se ricevi un errore o una risposta vuota da Cloud STT, consulta i passaggi per la risoluzione dei problemi e la mitigazione degli errori.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, elimina il progetto Google Cloud con le risorse.

Passaggi successivi