Misurare e migliorare l'accuratezza

In questa guida rapida, scopri come misurare e migliorare l'accuratezza di Google Cloud Cloud Speech-to-Text per i tuoi dati audio. Esplora anche i vari modelli e opzioni disponibili dall'API per migliorare l'accuratezza della trascrizione. Scopri come utilizzare l'interfaccia utente di Cloud Speech-to-Text nella console Google Cloud e un file di dati empirici reali per misurare l'accuratezza e ottenere informazioni sul sistema Cloud Speech-to-Text.

I sistemi di machine learning (ML) sono intrinsecamente soggetti a imprecisioni e i sistemi di riconoscimento vocale automatico (ASR), noti anche come sistemi Cloud Speech-to-Text, non fanno eccezione. La misurazione accurata dell'accuratezza è strettamente correlata a casi d'uso specifici e ai sistemi in fase di valutazione, poiché le differenze nella qualità di registrazione audio e nelle condizioni acustiche possono influire in modo significativo sull'accuratezza. Di conseguenza, un unico punteggio di accuratezza per tutti i clienti e i casi d'uso è impraticabile. Per garantire prestazioni affidabili dei sistemi ASR nei sistemi di produzione critici. È inoltre essenziale capire come Cloud Speech-to-Text funziona nel contesto più ampio del tuo sistema.

Ai fini di questa guida rapida,utilizza il metodo standard del settore per il confronto, il tasso di errore delle parole (WER), spesso abbreviato in WER. Per ulteriori informazioni su come viene calcolato e interpretato il WER, consulta Misurare e migliorare l'accuratezza del riconoscimento vocale.

Inizia a utilizzare la Google Cloud console

Assicurati di aver creato un account Google Cloud e un progetto.

  1. Vai a Speech nella console Google Cloud e vai all'interfaccia utente di Cloud Speech-to-Text.
  2. Utilizzando un file audio acusticamente rappresentativo del tuo caso d'uso e del modo in cui prevedi di utilizzare il sistema ASR, segui le istruzioni di avvio rapido per eseguire la prima trascrizione utilizzando Cloud Speech-to-Text.

Calcolo dell'accuratezza della trascrizione

  1. Dopo aver trascritto correttamente il file audio, utilizza la sezione Accuratezza della trascrizione. Questa sezione rimane vuota finché non viene calcolata l'accuratezza della trascrizione.
  2. Utilizzando il pulsante Carica dati di riferimento nella parte superiore della sezione, puoi iniziare a calcolare l'accuratezza.
Pagina dei dettagli della trascrizione di Cloud Speech-to-Text, che mette in evidenza la sezione sull'accuratezza della trascrizione e il pulsante per caricare i dati di riferimento.
Pagina dei dettagli della trascrizione di Cloud Speech-to-Text, che mette in evidenza la sezione sull'accuratezza della trascrizione e il pulsante per caricare la verità di riferimento.

Specificare i dati di fatto

  1. Per calcolare l'accuratezza della trascrizione, fornisci un file dei dati di fatto. Si tratta di un file TXT o CSV, in genere una trascrizione generata da un operatore, che contiene le trascrizioni corrette o previste per il confronto.
  2. Utilizzando gs://cloud-samples-data/speech/brooklyn_bridge.wav come esempio. Il file dei dati di riferimento contiene: How old is the Brooklyn Bridge. Se non hai a disposizione un file di dati empirici reali, ti consigliamo di scaricare la trascrizione in formato di testo. Modifica il file di trascrizione in base alle esigenze. Carica il file di trascrizione come file di dati empirici reali.
  3. Utilizzando Carica o un file Cloud Storage esistente, specifica il file di riferimento e fai clic su Salva.
Pagina di creazione della trascrizione di Cloud Speech-to-Text, che mostra le opzioni per selezionare o caricare un file basato su dati empirici reali.
Pagina di creazione della trascrizione di Cloud Speech-to-Text, che mostra le opzioni per selezionare o caricare un file di verità di riferimento.

Conferma dei dati empirici reali

  1. Dopo aver fatto clic su Salva, viene visualizzato un messaggio che ti chiede di confermare che il file dei dati di fatto specificato è corretto. Verifica che il file di dati empirici reali rappresenti con precisione le trascrizioni corrette, in quanto influisce direttamente sulle metriche di accuratezza.
  2. Fai clic su Conferma per procedere.
Pagina di trascrizione di Cloud Speech-to-Text, che mostra i contenuti del file dei dati di fatto caricato.
Pagina di trascrizione di Cloud Speech-to-Text, che mostra i contenuti del file di verità di base caricato.

Esaminare i risultati della valutazione

  1. A seconda delle dimensioni dei dati di input, il processo di valutazione potrebbe richiedere un po' di tempo e i risultati vengono visualizzati al termine.
  2. Una volta completata la valutazione, vengono visualizzate le seguenti sezioni:
    • La tabella Accuratezza della trascrizione, le metriche di accuratezza e un link al file dei dati di fatto utilizzato nella procedura.
    • Transcription con un pulsante di attivazione/disattivazione per il confronto con il file basato su dati empirici reali, oltre a una suddivisione delle metriche e dei punti salienti dell'accuratezza.
  3. Esamina e interpreta i risultati di accuratezza per comprendere il rendimento del riconoscitore Cloud Speech-to-Text utilizzato per identificare le aree di miglioramento, poiché i risultati variano a seconda degli input e della trascrizione utilizzati. Negli esempi seguenti puoi vedere casi indicativi dei risultati di accuratezza, che forniscono informazioni preziose per l'ottimizzazione del sistema Cloud Speech-to-Text.
    • Esempio di WER pari a 0%:
      Pagina sull'accuratezza della trascrizione di Cloud Speech-to-Text, che mostra i risultati della valutazione calcolati per la trascrizione specificata con un tasso di errore a livello di parola dello 0%.
      Pagina sull'accuratezza della trascrizione di Cloud Speech-to-Text, che mostra i risultati di valutazione calcolati per la trascrizione specificata con un tasso di errore delle parole pari a 0%.
    • Un esempio di WER del 40%:
      Pagina sull'accuratezza della trascrizione di Cloud Speech-to-Text, che mostra i risultati di valutazione calcolati per la trascrizione specificata con un tasso di errore di parole del 40%.
      Pagina sull'accuratezza della trascrizione di Cloud Speech-to-Text, che mostra i risultati di valutazione calcolati per la trascrizione specificata con un tasso di errore delle parole del 40%.

(Facoltativo) Aggiornamento dei dati empirici reali

Puoi testare dati di riferimento diversi rispetto alla trascrizione esistente allegando un file diverso e ripetendo i passaggi 3 e 4 con un file dei dati di riferimento aggiornato.

Provalo

Se non conosci Google Cloud, crea un account per valutare le prestazioni di Cloud STT in scenari reali. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei workload.

Prova Cloud STT gratuitamente