Panoramica
Il riconoscimento vocale automatico (ASR), noto anche come trascrizione automatica o conversione Speech-to-Text (STT), utilizza il machine learning per trasformare l'audio contenente parlato in testo. L'ASR ha molte applicazioni, dai sottotitoli codificati agli assistenti virtuali, alle risposte vocali interattive (IVR), alla dettatura e altro ancora. Tuttavia, i sistemi di machine learning sono raramente accurati al 100% e l'ASR non fa eccezione. Se prevedi di utilizzare l'ASR per i sistemi critici, è molto importante misurarne l'accuratezza o la qualità complessiva per capire come funziona nel sistema più ampio che lo integra.
Una volta misurata la precisione, è possibile regolare i sistemi per ottenere una precisione ancora maggiore per la tua situazione specifica. Nell'API Cloud Speech-to-Text di Google, la regolazione della precisione può essere eseguita scegliendo il modello di riconoscimento più appropriato e utilizzando la nostra API Speech Adaptation. Offriamo un'ampia gamma di modelli pensati per diversi casi d'uso, come audio di lunga durata, conversazioni mediche o telefoniche.
Definizione dell'accuratezza del parlato
L'accuratezza del riconoscimento vocale può essere misurata in vari modi. A seconda delle tue esigenze, potrebbe essere utile utilizzare più metriche. Tuttavia, il metodo standard del settore per il confronto è il tasso di errore delle parole (WER), spesso abbreviato in WER. Il WER misura la percentuale di trascrizioni errate delle parole nell'intero set. Un WER più basso indica che il sistema è più preciso.
Potresti anche vedere il termine dati di riferimento utilizzato nel contesto dell'accuratezza dell'ASR. Il dato di riferimento è la trascrizione accurata al 100%, in genere fornita da persone, che utilizzi per confrontare e misurare l'accuratezza.
Tasso di errore delle parole (WER)
Il WER è la combinazione di tre tipi di errori di trascrizione che possono verificarsi:
- Errore di inserimento (I): parole presenti nella trascrizione dell'ipotesi che non sono presenti nei dati di riferimento.
- Errori di sostituzione (S): parole presenti sia nell'ipotesi che nei dati di riferimento, ma non trascritte correttamente.
- Errori di eliminazione (D): parole mancanti nell'ipotesi ma presenti nei dati di riferimento.
\[WER = {S+R+Q \over N}\]
Per trovare il WER, somma il numero totale di ciascuno di questi errori e dividi il risultato per il numero totale di parole (N) nella trascrizione dei dati di riferimento. Il WER può essere superiore al 100% in situazioni con un'accuratezza molto bassa, ad esempio quando viene inserita una grande quantità di nuovo testo. Nota: la sostituzione è essenzialmente l'eliminazione seguita dall'inserimento e alcune sostituzioni sono meno gravi di altre. Ad esempio, potrebbe esserci una differenza tra la sostituzione di una singola lettera e quella di una parola.
Relazione tra WER e un punteggio di affidabilità
La metrica WER è indipendente da un punteggio di confidenza e in genere non sono correlate tra loro. Un punteggio di confidenza si basa sulla probabilità, mentre il WER si basa sul fatto che la parola sia identificata correttamente o meno. Se la parola non viene identificata correttamente, anche errori grammaticali minori possono causare un WER elevato. Una parola identificata correttamente porta a un WER basso, che può comunque portare a una probabilità bassa, il che riduce l'affidabilità se la parola non è molto frequente o l'audio è molto rumoroso.
Allo stesso modo, una parola utilizzata di frequente ha un'alta probabilità di essere trascritta correttamente dal sistema ASR, il che aumenta il punteggio di affidabilità. Ad esempio, quando viene identificata una differenza tra "I" e "eye", potrebbe verificarsi un'alta confidenza, perché "I" è una parola più popolare, ma la metrica WER viene ridotta.
In sintesi, le metriche Confidenza e WER sono indipendenti e non è previsto che siano correlate.
Normalizzazione
Quando viene calcolata la metrica WER, la trascrizione automatica viene confrontata con una trascrizione basata su dati empirici reali fornita da un operatore. Il testo di entrambe le trascrizioni viene normalizzato prima del confronto. La punteggiatura viene rimossa e la distinzione tra maiuscole e minuscole viene ignorata quando si confronta la trascrizione automatica con la trascrizione basata su dati empirici reali fornita da un operatore.
Convenzioni per i dati di riferimento
È importante riconoscere che non esiste un unico formato di trascrizione concordato da tutti gli esseri umani per un determinato audio. Ci sono molti aspetti da considerare. Ad esempio, l'audio potrebbe contenere altre vocalizzazioni non verbali, come "mh", "sì", "mmm". Alcuni modelli Cloud STT, come "medical_conversation", includono queste vocalizzazioni, mentre altri no. Pertanto, è importante che le convenzioni basate su dati empirici reali corrispondano a quelle del modello in fase di valutazione. Le seguenti linee guida di alto livello vengono utilizzate per preparare una trascrizione di testo di riferimento per un determinato audio.
- Oltre alle lettere standard, puoi utilizzare le cifre 0-9.
- Non utilizzare simboli come "@", "#", "$", ".". Utilizza parole come "chiocciola", "cancelletto", "dollaro", "punto".
- Utilizza "%" solo se preceduto da un numero; altrimenti, utilizza la parola "percento".
Utilizza "$" solo se seguito da un numero, ad esempio "Il latte costa 3,99 $".
Utilizza le parole per i numeri inferiori a 10.
- Ad esempio, "Ho quattro gatti e 12 cappelli".
Utilizza i numeri per misure, valute e fattori di grandi dimensioni come milioni, miliardi o trilioni. Ad esempio, "7,5 milioni" anziché "sette milioni e mezzo".
Non utilizzare abbreviazioni nei seguenti casi:
Cosa fare Cosa non fare Warriors contro Lakers Warriors contro Lakers Vivo in Via Principale 123 Vivo in Via Roma, 123
Misurare l'accuratezza del parlato
I seguenti passaggi ti aiutano a iniziare a determinare l'accuratezza utilizzando l'audio:
Raccogliere i file audio di test
Raccogli un campione rappresentativo di file audio per misurarne la qualità. Questo campione deve essere casuale e il più vicino possibile all'ambiente di destinazione. Ad esempio, se vuoi trascrivere le conversazioni di un call center per facilitare il controllo della qualità, devi selezionare in modo casuale alcune chiamate effettive registrate con la stessa apparecchiatura da cui proviene l'audio di produzione. Se l'audio è registrato sul microfono del cellulare o del computer e non è rappresentativo del tuo caso d'uso, non utilizzarlo.
Registra almeno 30 minuti di audio per ottenere una metrica di accuratezza statisticamente significativa. Ti consigliamo di utilizzare un audio di durata compresa tra 30 minuti e 3 ore. In questo lab, l'audio viene fornito.
Ottenere trascrizioni di dati di fatto
Ricevi trascrizioni accurate dell'audio. In genere, si tratta di una trascrizione umana singola o doppia dell'audio di destinazione. Il tuo obiettivo è ottenere una trascrizione accurata al 100% per misurare i risultati automatici.
Quando ottieni trascrizioni di riferimento, è importante che corrispondano il più possibile alle convenzioni di trascrizione del sistema ASR di destinazione. Ad esempio, assicurati che punteggiatura, numeri e maiuscole siano coerenti.
Ottieni una trascrizione automatica e correggi eventuali problemi nel testo che noti.
Ottenere la trascrizione automatica
Invia l'audio all'API Google Speech-to-Text e ottieni la trascrizione dell'ipotesi utilizzando la UI Speech-to-Text.
Accoppiare i dati di fatto all'audio
Nello strumento UI, fai clic su "Allega dati empirici reali" per associare un determinato file audio ai dati empirici reali forniti. Al termine dell'allegato, puoi visualizzare la metrica WER e la visualizzazione di tutte le differenze.