Introduzione agli ultimi modelli

I tag del modello "latest" nell'API Cloud Speech-to-Text danno accesso a due nuovi tag del modello che possono essere utilizzati quando specifichi il campo del modello. Questi modelli sono progettati per darti accesso alle più recenti tecnologie di sintesi vocale e alla ricerca sul machine learning di Google e possono fornire una maggiore precisione per il riconoscimento vocale rispetto ad altri modelli disponibili. Tuttavia, alcune funzionalità supportate da altri modelli disponibili non sono ancora supportate dai modelli "più recenti".

I modelli più recenti si basano sulla tecnologia Conformer Speech Model di Google. Per saperne di più, consulta le pubblicazioni di Google Research.

L'utilizzo dei modelli più recenti richiede una comprensione generale dell'utilizzo dell'API Cloud Speech-to-Text o della UI.

Identificatori modello

I modelli più recenti sono disponibili in due versioni diverse:

  • Il modello latest_short è per espressioni brevi di pochi secondi. È utile per provare ad acquisire comandi o altri casi d'uso di comandi vocali singoli. Prendi in considerazione l'utilizzo di latest_short anziché del modello command_and_search.

  • Il modello latest_long è adatto a qualsiasi tipo di contenuto in formato lungo, come contenuti multimediali o discorsi e conversazioni spontanei. Valuta la possibilità di utilizzare latest_long al posto di video, soprattutto se video non è disponibile nella lingua di destinazione. Puoi anche utilizzare latest_long al posto del modello default.

Tecnologia del modello

L'obiettivo dei modelli più recenti è portare le ultime novità della tecnologia vocale direttamente agli utenti. Google Cloud I nostri modelli più recenti attuali si basano sulla tecnologia Conformer Speech Model di Google, ma ciò potrebbe cambiare in futuro. Per saperne di più, consulta l'elenco delle pubblicazioni di Google Research.

Prezzi

I modelli latest_long e latest_short vengono fatturati come "Standard" e sono soggetti agli stessi costi e utilizzo dei modelli command_and_search o default. Per maggiori informazioni, consulta Prezzi.

Aggiornamenti del modello

I modelli più recenti si basano su una tecnologia di machine learning in rapida evoluzione. Per questo motivo, potremmo eseguire aggiornamenti o aggiornamenti del modello più frequentemente rispetto agli altri modelli. Questi aggiornamenti possono aggiungere funzionalità aggiuntive o apportare lievi modifiche all'accuratezza o alla latenza.

Lingue

I modelli più recenti sono disponibili in più di 20 lingue e in più di 50 varianti. Aggiungiamo sempre nuove lingue, quindi consulta la sezione Lingue per l'elenco più aggiornato.

Supporto e limitazioni delle funzionalità

Il supporto delle funzionalità varia in base alla lingua. Per un elenco completo delle funzionalità supportate, consulta la sezione Lingue.

I modelli più recenti non supportano la seguente funzionalità:

  • Punteggi di affidabilità: l'API restituirà un valore, ma non si tratta di un vero e proprio punteggio di affidabilità.

Accordo sul livello del servizio modello

I modelli più recenti sono considerati una parte con disponibilità generale dell'API Cloud Speech-to-Text. Pertanto, la funzionalità che supportano è disponibile nell'API V1 ed è idonea per lo stesso accordo sul livello del servizio e altre protezioni offerte ai prodotti e alle funzionalità disponibili a livello generale.