Configurare un progetto di riconoscimento vocale

Questa pagina aiuta gli sviluppatori a configurare un progetto per utilizzare il servizio Speech-to-Text. Questo processo include la creazione di un progetto, l'abilitazione dell'API Speech-to-Text, l'installazione delle librerie client, la definizione delle variabili di ambiente e l'autenticazione delle credenziali. Se non hai mai utilizzato Vertex AI, scopri di più sulle funzionalità di riconoscimento vocale.

Configura un progetto di riconoscimento vocale utilizzando la console GDC e gcloud CLI come segue:

  • Console GDC: abilita l'API Speech-to-Text e visualizza lo stato del servizio e l'endpoint.
  • gcloud CLI: configura i service account per interagire con l'API Speech-to-Text, installa le librerie client e autentica le richieste API.

Crea un progetto

La creazione di un progetto di riconoscimento vocale all'interno della gerarchia delle risorse di Distributed Cloud organizza le risorse Speech-to-Text, che includono collaboratori, API abilitate, strumenti di monitoraggio, informazioni di fatturazione, credenziali di autenticazione e controlli dell'accesso.

Per creare il progetto, consulta Configura un progetto per Vertex AI. L'ID progetto è necessario per effettuare chiamate API.

Richiedere le autorizzazioni sviluppatore

Per accedere alle funzionalità di riconoscimento vocale e generare un token API per l'autenticazione e l'autorizzazione delle richieste, devi disporre del ruolo Sviluppatore AI Speech nel tuo progetto.

Chiedi all'amministratore IAM del progetto di concedere il ruolo Sviluppatore AI Speech (ai-speech-developer) al tuo utente o account di servizio all'interno dello spazio dei nomi del progetto. Per informazioni su questo ruolo, consulta Prepara le autorizzazioni IAM.

Abilita l'API Speech-to-Text

Devi abilitare l'API Speech-to-Text preaddestrata per il tuo progetto. Se abilitata, puoi visualizzare lo stato del servizio e l'endpoint per l'API pre-addestrata Speech-to-Text.

Installazione delle librerie client

Le librerie client sono disponibili per il linguaggio di programmazione Python. Ti consigliamo di utilizzare queste librerie client per effettuare chiamate all'API Speech-to-Text perché semplificano l'accesso alle API.

NOTA: utilizza venv per isolare gli ambienti Python

Installa questa libreria in un ambiente virtuale utilizzando venv. Questo strumento facilita la creazione di ambienti Python isolati, ognuno in grado di ospitare versioni distinte di pacchetti Python. Questo isolamento impedisce alle dipendenze del progetto di entrare in conflitto con quelle di altri progetti o installazioni a livello di sistema. Inoltre, l'utilizzo di venv consente l'installazione di librerie senza richiedere autorizzazioni a livello di sistema.

Installa la libreria client Speech-to-Text e segui questi passaggi per assicurarti di avere la versione corretta:

  1. Controlla se la libreria client Speech-to-Text è installata e ottieni il numero di versione:

    pip freeze | grep speech
    

    Se la libreria client è già installata, l'output è simile al seguente esempio:

    google-cloud-speech==2.15.0
    

    Il numero di versione ottenuto deve corrispondere alla libreria client nel seguente endpoint:

    https://GDC_URL/.well-known/static/client-libraries
    

    Sostituisci GDC_URL con l'URL della tua organizzazione in GDC.

  2. Se i numeri di versione non corrispondono, disinstalla la libreria client:

    pip uninstall google-cloud-speech
    
  3. Se hai disinstallato la libreria client Speech-to-Text, devi reinstallarla specificando il nome file corrispondente al tuo sistema operativo.

Imposta le variabili di ambiente

Dopo aver installato la libreria client Speech-to-Text, puoi interagire con l'API da uno script Python.

Se configuri un service account nel tuo progetto per effettuare chiamate API autorizzate a livello di programmazione, puoi definire variabili di ambiente nello script Python per accedere a valori come le chiavi del service account durante l'esecuzione.

Segui questi passaggi per impostare le variabili di ambiente richieste in uno script Python:

  1. Crea un notebook JupyterLab per interagire con l'API Speech-to-Text preaddestrata.

  2. Crea uno script Python nel notebook JupyterLab.

  3. Aggiungi il seguente codice allo script Python:

    import os
    
    os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "APPLICATION_DEFAULT_CREDENTIALS_FILENAME"
    

    Sostituisci APPLICATION_DEFAULT_CREDENTIALS_FILENAME con il nome del file JSON che contiene le chiavi account di servizio che hai creato nel progetto, ad esempio my-service-key.json.

  4. Salva lo script Python con un nome, ad esempio speech.py.

  5. Esegui lo script Python per impostare le variabili di ambiente:

    python SCRIPT_NAME
    

    Sostituisci SCRIPT_NAME con il nome che hai dato allo script Python, ad esempio speech.py.

Configura l'autenticazione

Prima di poter iniziare a utilizzare l'API Speech-to-Text, devi autenticare le credenziali client e richiedere l'accesso all'account alle risorse del progetto. Per saperne di più, consulta Autenticare le richieste API.