Panoramica dei modelli vocali personalizzati

I modelli personalizzati di Speech-to-Text ti aiutano a ottimizzare i modelli di riconoscimento vocale in base alle tue esigenze specifiche. Questo servizio è progettato per migliorare l'accuratezza e la pertinenza del servizio di riconoscimento vocale in diversi ambienti e casi d'uso, utilizzando i dati di testo e audio specifici del dominio.

Accessibili sia nella nostra Google Cloud console che nell'API, i modelli personalizzati di Speech-to-Text consentono di addestrare, valutare ed eseguire il deployment di un modello vocale dedicato in un ambiente integrato senza codice. Per l'addestramento, puoi fornire solo dati audio rappresentativi delle tue condizioni audio, senza trascrizioni di riferimento come set di addestramento. Tuttavia, devi fornire i dati audio e le relative trascrizioni di riferimento come parte del set di valutazione.

La creazione e l'utilizzo di un modello Cloud Speech-to-Text personalizzato prevede i seguenti passaggi:

  1. Prepara e carica i dati di addestramento in un bucket Cloud Storage.
  2. Addestra un nuovo modello personalizzato.
  3. Esegui il deployment e gestisci il modello personalizzato utilizzando gli endpoint.
  4. Utilizza e valuta il modello personalizzato nella tua applicazione.

Come funziona

Puoi utilizzare i modelli personalizzati di Speech-to-Text per aumentare un modello di trascrizione di base e migliorare il riconoscimento della trascrizione. Alcune condizioni audio, tra cui sirene, musica e rumore di sottofondo eccessivo, possono presentare sfide acustiche. Anche alcuni accenti o vocabolari insoliti, come i nomi dei prodotti.

Ogni modello personalizzato di Speech-to-Text utilizza un'architettura preaddestrata basata su Conformer come modello di base addestrato con dati proprietari di una lingua parlata comunemente. Durante il processo di addestramento, il modello di base viene ottimizzato adattando una percentuale significativa dei pesi originali per migliorare il riconoscimento del vocabolario specifico del dominio e delle condizioni audio specifiche della tua applicazione.

Per l'addestramento efficace di un modello personalizzato di Speech-to-Text, devi fornire:

  • Almeno 100 ore di dati di addestramento audio, solo audio o audio con la trascrizione di testo corrispondente come dato di fatto. Questi dati sono fondamentali per la fase di addestramento iniziale, in modo che il modello apprenda in modo completo le sfumature dei pattern vocali e del vocabolario. Per maggiori dettagli, consulta Creare un set di dati di dati di fatto.
    • Un set di dati separato di almeno 10 ore di dati di convalida audio, con la trascrizione di testo corrispondente come dato di fatto. Puoi scoprire di più sul formato previsto e sulle convenzioni dei dati di fatto da seguire nelle nostre istruzioni per la preparazione dei dati.

Dopo un addestramento riuscito, puoi eseguire il deployment di un modello personalizzato di Speech-to-Text in un endpoint con un solo clic e utilizzarlo direttamente tramite l'API Cloud Speech-to-Text V2 per l'inferenza e il benchmarking.

Modelli, lingue e regioni supportati

I modelli personalizzati di Speech-to-Text supportano le seguenti combinazioni di modelli, lingue e impostazioni internazionali per l'addestramento:

Lingua BCP-47 Modello di base

Tedesco (Germania)

de-DE

latest_long

Inglese (Australia)

en-AU

latest_long

Inglese (Regno Unito)

en-GB

latest_long

Inglese (India)

en-IN

latest_long

Inglese (Stati Uniti)

en-US

latest_long

Spagnolo (Stati Uniti)

es-US

latest_long

Spagnolo (Spagna)

es-ES

latest_long

Francese (Canada)

fr-CA

latest_long

Francese (Francia)

fr-FR

latest_long

Hindi (India)

hi-IN

latest_long

Italiano (Italia)

it-IT

latest_long

Giapponese (Giappone)

ja-JP

latest_long

Coreano (Corea del Sud)

ko-KR

latest_long

Olandese (Paesi Bassi)

nl-NL

latest_long

Portoghese (Brasile)

pt-BR

latest_long

Portoghese (Portogallo)

pt-PT

latest_long

Inoltre, per soddisfare i requisiti di residenza dei dati, offriamo hardware di addestramento e deployment in diverse regioni. L'hardware dedicato è supportato nelle seguenti combinazioni di modelli e regioni:

Modello di base Google Cloud Regione Attività supportate

latest_long

us-east1

Addestramento e deployment

latest_long

europe-west4

Addestramento e deployment

Quota

Per l'addestramento di modelli personalizzati di Speech-to-Text, ogni Google Cloud progetto deve avere una quota predefinita sufficiente per eseguire più job di addestramento contemporaneamente ed è progettato per soddisfare le esigenze della maggior parte dei progetti senza ulteriori modifiche. Tuttavia, se devi eseguire un numero maggiore di job di addestramento simultanei o hai bisogno di risorse di etichettatura o di calcolo più estese, richiedi una quota aggiuntiva.

Per un modello personalizzato di Speech-to-Text per l'erogazione di un endpoint, ogni endpoint ha un limite teorico di 20 query al secondo (QPS). Se è necessaria una velocità effettiva maggiore, richiedi una quota di gestione aggiuntiva.

Prezzi

La creazione e l'utilizzo di un modello personalizzato di Speech-to-Text comporta determinati costi, basati principalmente sulle risorse utilizzate durante l'addestramento e il deployment successivo del modello. In particolare, il modello personalizzato di Speech-to-Text comporta i seguenti costi in un ciclo di vita tipico del modello:

  • Addestramento: ti verrà addebitato il numero di ore di addestramento del modello. Questo tempo è proporzionale alla quantità di ore audio nel set di dati di addestramento. In genere, l'addestramento richiede un decimo del numero di ore audio nel set di dati.
  • Deployment: ti verrà addebitato un costo per ogni ora in cui un modello viene sottoposto a deployment su un endpoint.
  • Inferenza: ti verrà addebitato il numero di secondi di audio in streaming per la trascrizione, in linea con la fatturazione generale di Cloud Speech-to-Text.

Comprendere questi costi è fondamentale per una pianificazione del budget e un'allocazione delle risorse efficaci. Per ulteriori informazioni, consulta la sezione Modelli personalizzati di Speech-to-Text e i prezzi di Cloud Cloud Speech-to-Text.

Passaggi successivi

Consulta le risorse per sfruttare i modelli vocali personalizzati nella tua applicazione: