Valuta i modelli

Utilizza la funzionalità di benchmarking della console Cloud Speech-to-Text per misurare l'accuratezza di uno qualsiasi dei modelli di trascrizione utilizzati nell'API Cloud Speech-to-Text V2.

La console Cloud Speech-to-Text fornisce benchmark visivi per i modelli pre-addestrati e Custom Speech-to-Text. Puoi esaminare la qualità del riconoscimento confrontando le metriche di valutazione del tasso di errore di parola (WER) in più modelli di trascrizione per aiutarti a decidere quale modello si adatta meglio alla tua applicazione.

Prima di iniziare

Assicurati di aver creato un account Google Cloud , un progetto, addestrato un modello vocale personalizzato ed eseguito il deployment utilizzando un endpoint.

Crea un set di dati di riferimento

Per creare un set di dati di benchmarking personalizzato, raccogli campioni audio che riflettano accuratamente il tipo di traffico che il modello di trascrizione incontrerà in un ambiente di produzione. La durata complessiva di questi file audio dovrebbe idealmente essere di almeno 30 minuti e non superare le 10 ore. Per assemblare il set di dati, devi:

  1. Crea una directory in un bucket Cloud Storage a tua scelta per archiviare i file audio e di testo per il set di dati.
  2. Per ogni file audio nel set di dati, crea trascrizioni ragionevolmente accurate. Per ogni file audio (ad esempio example_audio_1.wav), deve essere creato un file di testo di dati di fatto corrispondente (example_audio_1.txt). Questo servizio utilizza questi accoppiamenti audio-testo in un bucket Cloud Storage per assemblare il set di dati.

Esegui il benchmark del modello

Utilizza il modello personalizzato Speech-to-Text e il set di dati di benchmarking per valutare l'accuratezza del modello. Segui la guida Misurare e migliorare l'accuratezza.