Il riconoscimento vocale automatico (ASR), noto anche come trascrizione automatica o conversione Speech-to-Text (STT), utilizza il machine learning per trasformare l'audio contenente parlato in testo. L'ASR ha molte applicazioni, dai sottotitoli codificati agli assistenti virtuali, alle risposte vocali interattive (IVR), alla dettatura e altro ancora. Tuttavia, i sistemi di machine learning raramente sono accurati al 100% e l'ASR non fa eccezione. Se prevedi di utilizzare l'ASR per i sistemi critici, è molto importante misurarne l'accuratezza o la qualità complessiva per capire le prestazioni nel sistema più ampio in cui è integrato.
Una volta misurata la precisione, è possibile regolare i sistemi per ottenere una precisione ancora maggiore per la tua situazione specifica. Nell'API Cloud Speech-to-Text di Google, la regolazione della precisione può essere eseguita scegliendo il modello di riconoscimento più appropriato e utilizzando la nostra API Speech Adaptation. Offriamo un'ampia gamma di modelli pensati per diversi casi d'uso, come audio in formato lungo, conversazioni mediche o telefoniche.
Definizione dell'accuratezza del riconoscimento vocale
L'accuratezza del riconoscimento vocale può essere misurata in vari modi. Potrebbe esserti utile utilizzare più metriche, a seconda delle tue esigenze. Tuttavia, il metodo standard del settore per il confronto è il tasso di errore delle parole (WER), spesso abbreviato in WER. Il WER misura la percentuale di trascrizioni errate delle parole nell'intero set. Un WER più basso indica che il sistema è più preciso.
Potresti anche vedere il termine dati di riferimento utilizzato nel contesto dell'accuratezza dell'ASR. Il dato di fatto è la trascrizione accurata al 100%, in genere fornita da persone, che utilizzi per confrontare e misurare l'accuratezza.
Tasso di errore delle parole (WER)
Il WER è la combinazione di tre tipi di errori di trascrizione che possono verificarsi:
- Errore di inserimento (I): parole presenti nella trascrizione dell'ipotesi che non sono presenti nei dati di riferimento.
- Errori di sostituzione (S): parole presenti sia nell'ipotesi che nei dati di riferimento, ma non trascritte correttamente.
- Errori di eliminazione (D): parole mancanti nell'ipotesi ma presenti nei dati di riferimento.
\[WER = {S+R+Q \over N}\]
Per trovare il WER, somma il numero totale di ciascuno di questi errori e dividi il risultato per il numero totale di parole (N) nella trascrizione dei dati di riferimento. Il WER può essere superiore al 100% in situazioni con un'accuratezza molto bassa, ad esempio quando viene inserita una grande quantità di nuovo testo. Nota: la sostituzione è essenzialmente l'eliminazione seguita dall'inserimento e alcune sostituzioni sono meno gravi di altre. Ad esempio, potrebbe esserci una differenza tra la sostituzione di una singola lettera e quella di una parola.
Relazione tra WER e un punteggio di affidabilità
La metrica WER è indipendente da un punteggio di confidenza e di solito non sono correlate tra loro. Un punteggio di confidenza si basa sulla probabilità, mentre il WER si basa sul fatto che la parola sia identificata correttamente o meno. Se la parola non viene identificata correttamente, significa che anche errori grammaticali minori possono causare un WER elevato. Una parola identificata correttamente porta a un WER basso, che può comunque portare a una probabilità bassa, il che riduce la confidenza se la parola non è molto frequente o l'audio è molto rumoroso.
Allo stesso modo, una parola utilizzata di frequente ha un'alta probabilità di essere trascritta correttamente dal sistema ASR, il che aumenta il punteggio di affidabilità. Ad esempio, quando viene identificata una differenza tra "I" e "eye", potrebbe verificarsi un'alta confidenza, perché "I" è una parola più popolare, ma la metrica WER viene ridotta.
In sintesi, le metriche di confidenza e WER sono indipendenti e non ci si deve aspettare che siano correlate.
Normalizzazione
Quando viene calcolata la metrica WER, la trascrizione automatica viene confrontata con una trascrizione dei dati empirici reali fornita da un operatore umano. Il testo di entrambe le trascrizioni viene normalizzato prima del confronto. La punteggiatura viene rimossa e le maiuscole vengono ignorate quando si confronta la trascrizione automatica con la trascrizione dei dati empirici reali fornita da un operatore.
Convenzioni per i dati di riferimento
È importante riconoscere che non esiste un unico formato di trascrizione concordato per qualsiasi audio. Ci sono molti aspetti da considerare. Ad esempio, l'audio potrebbe contenere altre vocalizzazioni non verbali, come "huh", "yep", "umm". Alcuni modelli Cloud STT, come "medical_conversation", includono queste vocalizzazioni, mentre altri no. Pertanto, è importante che le convenzioni basate su dati empirici reali corrispondano a quelle del modello in fase di valutazione. Le seguenti linee guida di alto livello vengono utilizzate per preparare una trascrizione di testo di dati empirici reali per un determinato audio.
- Oltre alle lettere standard, puoi utilizzare le cifre 0-9.
- Non utilizzare simboli come "@", "#", "$", ".". Utilizza parole come "chiocciola", "cancelletto", "dollaro", "punto".
- Utilizza "%" solo se preceduto da un numero; altrimenti, utilizza la parola "percento".
Utilizza "\$" solo se seguito da un numero, ad esempio "Il latte costa 3,99 $".
Utilizza le parole per i numeri inferiori a 10.
- Ad esempio, "Ho quattro gatti e 12 cappelli".
Utilizza i numeri per misure, valute e fattori di grandi dimensioni come milioni, miliardi o trilioni. Ad esempio, "7,5 milioni" anziché "sette milioni e mezzo".
Non utilizzare abbreviazioni nei seguenti casi:
Cosa fare Cosa non fare Warriors contro Lakers Warriors contro Lakers Vivo in via Main 123 Vivo in Via Roma, 123
Misurare l'accuratezza del parlato
I seguenti passaggi ti aiutano a iniziare a determinare l'accuratezza utilizzando l'audio:
Raccogliere file audio di test
Raccogli un campione rappresentativo di file audio per misurarne la qualità. Questo campione deve essere casuale e il più vicino possibile all'ambiente di destinazione. Ad esempio, se vuoi trascrivere le conversazioni di un call center per facilitare il controllo della qualità, devi selezionare in modo casuale alcune chiamate reali registrate con la stessa attrezzatura da cui proviene l'audio di produzione. Se l'audio viene registrato sul microfono del computer o del cellulare e non è rappresentativo del tuo caso d'uso, non utilizzarlo.
Registra almeno 30 minuti di audio per ottenere una metrica di accuratezza statisticamente significativa. Ti consigliamo di utilizzare un audio di durata compresa tra 30 minuti e 3 ore. In questo lab, l'audio è fornito.
Ottenere trascrizioni di dati di riferimento
Ricevi trascrizioni accurate dell'audio. In genere, si tratta di una trascrizione umana in una o due passate dell'audio di destinazione. Il tuo obiettivo è ottenere una trascrizione accurata al 100% per misurare i risultati automatici.
Quando ottieni trascrizioni di riferimento, è importante che corrispondano il più possibile alle convenzioni di trascrizione del sistema ASR di destinazione. Ad esempio, assicurati che punteggiatura, numeri e maiuscole siano coerenti.
Ottieni una trascrizione automatica e correggi eventuali problemi nel testo che noti.
Ottenere la trascrizione automatica
Invia l'audio all'API Cloud Speech-to-Text e ottieni la trascrizione dell'ipotesi utilizzando la UI Cloud Speech-to-Text.
Accoppiare i dati di fatto all'audio
Nello strumento UI, fai clic su Allega dati empirici reali per associare un determinato file audio ai dati empirici reali forniti. Al termine dell'allegato, puoi visualizzare la metrica WER e la visualizzazione di tutte le differenze.