Introduzione alla codifica audio

Una codifica audio si riferisce al modo in cui i dati audio vengono archiviati e trasmessi. La documentazione riportata di seguito descrive il funzionamento di queste codifiche. Per linee guida sulla scelta della codifica migliore per la tua applicazione, consulta Best practice.

La codifica audio digitale è un argomento complesso e in genere non è necessario conoscere i dettagli per elaborare l'audio all'interno dell'API Speech. I concetti forniti qui sono intesi solo come una panoramica generale. Alcune di queste informazioni di base possono essere utili per comprendere il funzionamento dell'API e come l'audio deve essere formulato ed elaborato nelle tue applicazioni.

Formati audio e codifiche

Tieni presente che un formato audio non equivale a una codifica audio. Un formato di file diffuso come .wav, ad esempio, definisce il formato dell'intestazione di un file audio, ma non è una codifica audio. I file audio .wav spesso, ma non sempre, utilizzano una codifica PCM lineare; non dare per scontato che un file .wav abbia una codifica particolare finché non ne esamini l'intestazione.

Decodifica configurazione

I parametri necessari per decodificare l'audio trasmesso sono specificati in decoding_config oneof.

Se l'audio è in uno dei formati supportati da AutoDetectDecodingConfig ti consigliamo vivamente di impostare il campo auto_decoding_config per consentire a Speech-to-Text di determinare i parametri corretti per te.

In caso contrario, devi specificare esplicitamente i parametri di decodifica impostando il campo explicit_decoding_config. Questi parametri possono essere generalmente trovati esaminando le impostazioni utilizzate per registrare l'audio.

Perché codificare?

L'audio è costituito da forme d'onda, ovvero dalla sovrapposizione di onde di frequenze e ampiezze diverse. Per rappresentare queste forme d'onda nei media digitali, è necessario campionarle a velocità che possano (almeno) rappresentare i suoni della frequenza più alta che vuoi replicare e devono anche memorizzare una profondità di bit sufficiente per rappresentare l'ampiezza corretta (intensità e morbidezza) delle forme d'onda nel campione audio.

La capacità di un dispositivo di elaborazione del suono di ricreare le frequenze è nota come risposta in frequenza, mentre la sua capacità di creare un volume e una morbidezza adeguati è nota come gamma dinamica. Questi termini vengono spesso indicati come fedeltà di un dispositivo audio. Una codifica, nella sua forma più semplice, è un mezzo con cui ricostruire il suono utilizzando questi due principi di base, nonché per archiviare e trasportare questi dati in modo efficiente.

Frequenze di campionamento

Il suono esiste come forma d'onda analogica. Un segmento di audio digitale approssima questa onda analogica campionando l'ampiezza di questa onda analogica a una velocità sufficientemente elevata per imitare le frequenze intrinseche dell'onda. La frequenza di campionamento di un segmento audio digitale specifica il numero di campioni da prelevare dal materiale di origine di un audio (al secondo); una frequenza di campionamento elevata aumenta la capacità dell'audio digitale di rappresentare fedelmente le alte frequenze.

Come conseguenza del teorema di Nyquist-Shannon, in genere è necessario campionare più del doppio della frequenza più alta di qualsiasi onda sonora che vuoi acquisire digitalmente. Per rappresentare l'audio nell'intervallo dell'udito umano (20-20.000 Hz), ad esempio, un formato audio digitale deve campionare almeno 40.000 volte al secondo (che è uno dei motivi per cui l'audio del CD utilizza una frequenza di campionamento di 44.100 Hz).

Profondità di bit

La profondità di bit influisce sulla gamma dinamica di un determinato campione audio. Una profondità di bit più elevata consente di rappresentare ampiezze più precise. Se nello stesso campione audio sono presenti molti suoni forti e deboli, avrai bisogno di una maggiore profondità di bit per rappresentare correttamente questi suoni.

Profondità di bit più elevate riducono anche il rapporto segnale/rumore all'interno dei campioni audio. L'audio musicale del CD viene fornito utilizzando 16 bit di profondità di bit. DVD Audio utilizza 24 bit di profondità di bit, mentre la maggior parte delle apparecchiature telefoniche utilizza 8 bit di profondità di bit. (Alcune tecniche di compressione possono compensare profondità di bit più piccole, ma tendono a essere con perdita di dati.)

Audio non compresso

La maggior parte dell'elaborazione audio digitale utilizza queste due tecniche, frequenza di campionamento e profondità di bit, per archiviare i dati audio in modo semplice. Una delle tecniche di audio digitale più diffuse (rese popolari dall'uso del Compact Disc) è nota come Pulse Code Modulation (o PCM). L'audio viene campionato a intervalli prestabiliti e l'ampiezza dell'onda campionata in quel punto viene memorizzata come valore digitale utilizzando la profondità di bit del campione.

PCM lineare (che indica che la risposta di ampiezza è uniformemente lineare nel campione) è lo standard utilizzato nei CD e nella codifica LINEAR16 dell'API Speech-to-Text. Entrambe le codifiche producono un flusso non compresso di byte corrispondenti direttamente ai dati audio ed entrambi gli standard contengono 16 bit di profondità. Il PCM lineare utilizza una frequenza di campionamento di 44.100 Hz all'interno dei CD,che è adatta alla ricomposizione della musica; tuttavia, una frequenza di campionamento di 16.000 Hz è più adatta alla ricomposizione del parlato.

Il PCM lineare è un esempio di audio non compresso in quanto i dati digitali vengono memorizzati esattamente come implicano gli standard sopra indicati. Leggendo un flusso a un canale di byte codificati utilizzando Linear PCM, puoi contare ogni 16 bit (2 byte), ad esempio, per ottenere un altro valore di ampiezza della forma d'onda. Quasi tutti i dispositivi possono manipolare questi dati digitali in modo nativo. Puoi persino ritagliare i file audio Linear PCM utilizzando un editor di testo. Tuttavia, l'audio non compresso non è (ovviamente) il modo più efficiente per trasportare o archiviare l'audio digitale. Per questo motivo, la maggior parte dell'audio utilizza tecniche di compressione digitale.

Audio compresso

I dati audio, come tutti i dati, vengono spesso compressi per facilitarne l'archiviazione e il trasporto. La compressione all'interno della codifica audio può essere senza perdita o con perdita. La compressione lossless può essere decompressa per ripristinare i dati digitali nella loro forma originale. La compressione con perdita di dati rimuove necessariamente alcune informazioni durante la compressione e la decompressione ed è parametrizzata per indicare la tolleranza da concedere alla tecnica di compressione per rimuovere i dati.

Compressione lossless

La compressione lossless comprime i dati audio digitali utilizzando riarrangiamenti complessi dei dati archiviati, ma non comporta un peggioramento della qualità del campione digitale originale. Con la compressione senza perdita, quando i dati vengono decompressi nella loro forma digitale originale, non vengono perse informazioni.

Allora perché le tecniche di compressione lossless a volte hanno parametri di ottimizzazione? Questi parametri spesso scambiano le dimensioni del file con il tempo di decompressione. Ad esempio, FLAC utilizza un parametro del livello di compressione da 0 (più veloce) a 8 (dimensioni file più piccole). La compressione FLAC di livello superiore non comporta la perdita di informazioni rispetto alla compressione di livello inferiore. L'algoritmo di compressione dovrà invece consumare più energia di calcolo durante la costruzione o la decostruzione dell'audio digitale originale.

L'API Speech-to-Text supporta due codifiche lossless: FLAC e LINEAR16. Tecnicamente, LINEAR16 non è una "compressione lossless" perché non è prevista alcuna compressione. Se le dimensioni del file o la trasmissione dei dati sono importanti per te, scegli FLAC come codifica audio.

Compressione con perdita

La compressione con perdita, invece, comprime i dati audio eliminando o riducendo determinati tipi di informazioni durante la creazione dei dati compressi. L'API Speech-to-Text supporta diversi formati con perdita, anche se dovresti evitarli se hai il controllo dell'audio, perché la perdita di dati potrebbe influire sull'accuratezza del riconoscimento.

Il popolare codec MP3 è un esempio di tecnica di codifica con perdita. Tutte le tecniche di compressione MP3 rimuovono l'audio al di fuori della normale gamma audio umana e regolano la quantità di compressione modificando il bitrate effettivo del codec MP3, ovvero la quantità di bit al secondo per memorizzare la data dell'audio.

Ad esempio, un CD stereo che utilizza Linear PCM a 16 bit ha un velocità in bit effettivo di:

44100 * 2 channels * 16 bits = 1411200 bits per second (bps) = 1411 kbps

La compressione MP3 rimuove questi dati digitali utilizzando velocità in bit come 320 kbps, 128 kbps o 96 kbps, ad esempio, con conseguente degrado della qualità audio. MP3 supporta anche bit rate variabili, che possono comprimere ulteriormente l'audio. Entrambe le tecniche perdono informazioni e possono influire sulla qualità. La maggior parte delle persone riesce a distinguere la differenza tra musica MP3 codificata a 96 kbps o 128 kbps, ad esempio.

Altre forme di compressione parametrizzano un altro vincolo.

MULAW è una codifica PCM a 8 bit, in cui l'ampiezza del campione viene modulata in modo logaritmico anziché lineare. Di conseguenza, uLaw riduce la gamma dinamica effettiva dell'audio così compresso. Sebbene uLaw sia stato introdotto per ottimizzare specificamente la codifica del parlato rispetto ad altri tipi di audio, LINEAR16 (PCM non compresso) a 16 bit è ancora di gran lunga superiore all'audio compresso uLaw a 8 bit.

AMR e AMR_WB modulano il campione audio codificato introducendo una velocità in bit variabile nel campione audio sorgente.

Sebbene l'API Speech-to-Text supporti diversi formati con perdita, dovresti evitarli se hai il controllo dell'audio sorgente. Sebbene la rimozione di questi dati tramite la compressione con perdita non influisca in modo evidente sull'audio percepito dall'orecchio umano, la perdita di questi dati per un motore di riconoscimento vocale può ridurre significativamente l'accuratezza.