Eseguire la migrazione dai modelli classici a quelli Conformer

Per migliorare l'accuratezza e le prestazioni della trascrizione e del riconoscimento vocale, l'API Cloud Speech-to-Text V1 sta aggiornando i modelli vocali classici rimanenti ai modelli basati su Conformer all'avanguardia in modo da non interrompere la funzionalità dell'API. I modelli classici si riferiscono a quelli esposti nell'API V1 con i flag dei modelli command_and_search, default, phone_call e video. Si basano su modelli acustici e linguistici discreti e supportano casi d'uso selezionati dell'API Speech-to-Text.

Dalla creazione dell'architettura Conformer nel 2020 presso Google Brain, abbiamo testato la nostra soluzione e sostituito gradualmente i modelli dell'API Speech-to-Text V1. In questo modo, abbiamo aumentato l'accuratezza, la solidità e le prestazioni all'interno del dominio in una serie di casi d'uso. In questa pagina puoi trovare le istruzioni su come trarre vantaggio dalla migrazione e su come attivare la migrazione in anticipo o in ritardo, a seconda delle tue esigenze.

Che cosa cambia

Dopo la scadenza della migrazione, inizieremo a reindirizzare il traffico dai modelli attualmente esposti. Questi identificatori di modello rimarranno validi e continueranno a generare traffico, perché il reindirizzamento avviene internamente.

Questa tabella mostra il routing che verrà eseguito quando la migrazione avrà effetto. Il reindirizzamento avverrà tra gli identificatori del modello già visibili. Sebbene non sia obbligatorio, puoi apportare modifiche al codice e testare il comportamento del modello con i tuoi tempi.

Codice BCP-47 Identificatore del modello attuale single_utterance Traffico dell'identificatore modello indirizzato a
en-US command_and_search false latest_long
command_and_search true latest_short
default false telephony
phone_call false telephony
phone_call(use_enhanced=true) true telephony_short
video false telephony
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR command_and_search false latest_long
command_and_search true latest_short
default false latest_long
phone_call(use_enhanced=true) true latest_short
phone_call false latest_long

Cronologia

In questa pagina sono descritte tre opzioni di migrazione. A gennaio 2024, inizieremo a spostare gradualmente il traffico dai modelli classici a quelli basati su Conformer progetto per progetto, con una comunicazione individuale prima della migrazione. Entro giugno 2024, prevediamo di spostare tutto il traffico solo sui modelli Conformer. Chiunque richieda ancora i modelli classici verrà reindirizzato automaticamente ai modelli corrispondenti basati su Conformer.

Meccanismo di migrazione

I clienti possono attivare l'opzione in anticipo o disattivarla ed eseguire la migrazione in un secondo momento seguendo queste istruzioni:

Preferenza: attivare e eseguire la migrazione in anticipo

Se vuoi attivare in modo proattivo l'API Speech-to-Text V1, modifica l'identificatore del modello che hai utilizzato con quello aggiornato, come indicato nella tabella precedente. La migrazione proattiva del progetto ti dà il tempo di testare i modelli e sfruttare in anticipo la maggiore accuratezza e robustezza.

Disattivare l'opzione e eseguire la migrazione in un secondo momento

Se riscontri problemi con i modelli aggiornati e vuoi disattivare temporaneamente la migrazione, crea una richiesta di assistenza. Google Cloud Quando crei la richiesta di assistenza, utilizza il titolo "Disattivazione della migrazione del conformer Speech-to-Text" e fornisci gli ID progetto e il motivo della disattivazione.