Introduzione agli ultimi modelli

I tag dei modelli "latest" nell'API Speech-to-Text danno accesso a due nuovi tag dei modelli che possono essere utilizzati quando specifichi il campo del modello. Questi modelli sono progettati per darti accesso alle più recenti tecnologie di sintesi vocale e alla ricerca sul machine learning di Google e possono fornire una maggiore precisione per il riconoscimento vocale rispetto ad altri modelli disponibili. Tuttavia, alcune funzionalità supportate da altri modelli disponibili non sono ancora supportate dai modelli "più recenti".

I modelli più recenti si basano sulla tecnologia Conformer Speech Model di Google. Per saperne di più, consulta la pagina Pubblicazioni di Google Research.

L'utilizzo dei modelli più recenti richiede una comprensione generale dell'utilizzo dell'API Speech-to-Text o della UI. Se è la prima volta che lo utilizzi, consulta le nostre guide rapide.

Identificatori del modello

I modelli più recenti sono disponibili in due versioni diverse:

  • Il modello latest_short è per espressioni brevi che durano pochi secondi. È utile per provare a acquisire comandi o altri casi d'uso di un singolo comando vocale. Valuta la possibilità di utilizzare latest_short anziché il modello command_and_search.

  • Il modello latest_long è adatto a qualsiasi tipo di contenuti nel formato lungo, come contenuti multimediali o discorsi e conversazioni spontanei. Valuta la possibilità di utilizzare latest_long al posto di video, soprattutto se video non è disponibile nella lingua di destinazione. Puoi anche utilizzare latest_long al posto del modello default.

Tecnologia del modello

L'obiettivo dei modelli più recenti è quello di portare le ultime novità della tecnologia di sintesi vocale direttamente agli utenti di Google Cloud. I nostri modelli più recenti si basano sulla tecnologia Conformer Speech Model di Google, ma questa potrebbe cambiare in futuro. Per saperne di più, consulta l'elenco delle pubblicazioni di Google Research.

Prezzi

I modelli latest_long e latest_short vengono fatturati come "Standard" e sono soggetti allo stesso utilizzo e agli stessi costi dei modelli command_and_search o default. Per ulteriori informazioni, vedi Prezzi.

Aggiornamenti del modello

I modelli più recenti si basano su una tecnologia di machine learning in rapida evoluzione. Per questo motivo, potremmo eseguire aggiornamenti o aggiornamenti del modello più frequentemente rispetto agli altri modelli. Questi aggiornamenti possono aggiungere funzionalità aggiuntive o apportare lievi modifiche all'accuratezza o alla latenza.

Lingue

I modelli più recenti sono disponibili in più di 20 lingue e in più di 50 varianti. Aggiungiamo sempre nuove lingue, quindi consulta la sezione Lingue per l'elenco più aggiornato.

Supporto e limitazioni delle funzionalità

Il supporto delle funzionalità varia in base alla lingua. Consulta la sezione Lingue per un elenco completo delle funzionalità supportate.

I modelli più recenti al momento non supportano la seguente funzionalità:

  • Punteggi di affidabilità: l'API restituirà un valore, ma non si tratta di un vero e proprio punteggio di affidabilità.

Accordo sul livello del servizio modello

I modelli più recenti sono considerati una parte disponibile a livello generale dell'API Speech-to-Text. Pertanto, la funzionalità che supportano è disponibile nell'API v1 ed è idonea per lo stesso accordo sul livello del servizio e altre protezioni offerte a prodotti e funzionalità disponibili a livello generale.