Per migliorare l'accuratezza e le prestazioni della trascrizione e del riconoscimento vocale, l'API Cloud Speech-to-Text V1 sta aggiornando i modelli vocali classici rimanenti ai modelli basati su Conformer all'avanguardia in modo da non interrompere la funzionalità dell'API. I modelli classici si riferiscono a quelli esposti nell'API V1 con i flag dei modelli command_and_search, default, phone_call e video. Si basano su modelli acustici e linguistici discreti e supportano casi d'uso selezionati dell'API Speech-to-Text.
Dalla creazione dell'architettura Conformer nel 2020 presso Google Brain, abbiamo testato la nostra soluzione e sostituito gradualmente i modelli dell'API Speech-to-Text V1. In questo modo, abbiamo aumentato l'accuratezza, la solidità e le prestazioni all'interno del dominio in una serie di casi d'uso. In questa pagina puoi trovare le istruzioni su come trarre vantaggio dalla migrazione e su come attivare la migrazione in anticipo o in ritardo, a seconda delle tue esigenze.
Che cosa cambia
Dopo la scadenza della migrazione, inizieremo a reindirizzare il traffico dai modelli attualmente esposti. Questi identificatori di modello rimarranno validi e continueranno a generare traffico, perché il reindirizzamento avviene internamente.
Questa tabella mostra il routing che verrà eseguito quando la migrazione avrà effetto. Il reindirizzamento avverrà tra gli identificatori del modello già visibili. Sebbene non sia obbligatorio, puoi apportare modifiche al codice e testare il comportamento del modello con i tuoi tempi.
| Codice BCP-47 | Identificatore del modello attuale | single_utterance | Traffico dell'identificatore modello indirizzato a |
|---|---|---|---|
| en-US | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
telephony |
|
phone_call |
false |
telephony |
|
phone_call(use_enhanced=true) |
true |
telephony_short |
|
video |
false |
telephony |
|
| de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
latest_long |
|
phone_call(use_enhanced=true) |
true |
latest_short |
|
phone_call |
false |
latest_long |
Cronologia
In questa pagina sono descritte tre opzioni di migrazione. A gennaio 2024, inizieremo a spostare gradualmente il traffico dai modelli classici a quelli basati su Conformer progetto per progetto, con una comunicazione individuale prima della migrazione. Entro giugno 2024, prevediamo di spostare tutto il traffico solo sui modelli Conformer. Chiunque richieda ancora i modelli classici verrà reindirizzato automaticamente ai modelli corrispondenti basati su Conformer.
Meccanismo di migrazione
I clienti possono attivare l'opzione in anticipo o disattivarla ed eseguire la migrazione in un secondo momento seguendo queste istruzioni:
Preferenza: attivare e eseguire la migrazione in anticipo
Se vuoi attivare in modo proattivo l'API Speech-to-Text V1, modifica l'identificatore del modello che hai utilizzato con quello aggiornato, come indicato nella tabella precedente. La migrazione proattiva del progetto ti dà il tempo di testare i modelli e sfruttare in anticipo la maggiore accuratezza e robustezza.
Disattivare l'opzione e eseguire la migrazione in un secondo momento
Se riscontri problemi con i modelli aggiornati e vuoi disattivare temporaneamente la migrazione, crea una richiesta di assistenza. Google Cloud Quando crei la richiesta di assistenza, utilizza il titolo "Disattivazione della migrazione del conformer Speech-to-Text" e fornisci gli ID progetto e il motivo della disattivazione.