Utilizzando l'API, senza alcun codice, puoi creare e addestrare un modello Speech-to-Text personalizzato per migliorare l'accuratezza del riconoscimento da un modello Cloud Speech-to-Text esistente. Questo servizio completamente gestito esegue automaticamente il provisioning delle risorse di calcolo, esegue il codice dell'applicazione di addestramento e garantisce l'eliminazione delle risorse di calcolo dopo il job di addestramento. Ottieni un modello di trascrizione completamente ottimizzato utile per qualsiasi applicazione downstream.
Analogamente ai modelli di machine learning, l'addestramento di un modello Speech-to-Text personalizzato è in genere iterativo e prevede la selezione di un modello di base come punto di partenza, l'ottimizzazione con i set di dati di testo e audio e il test della qualità del riconoscimento del modello. Se i risultati non sono quelli previsti, puoi riaddestrare un nuovo modello con una combinazione di dati diversa, eseguire di nuovo il test o utilizzarlo direttamente per la trascrizione nel tuo dominio.
Prima di iniziare
Assicurati di aver registrato un Google Cloud account, creato un Google Cloud progetto e abilitato l'API Cloud Speech-to-Text: vai a Speech nella Google Cloud console e all'API Cloud Speech-to-Text. Opera nella sezione Modelli personalizzati della barra di navigazione a sinistra.
Crea un modello personalizzato
Inizia creando un modello Speech-to-Text personalizzato e definendo i relativi parametri, come il modello di base e la lingua di trascrizione:
- Fai clic su Crea per creare un modello personalizzato.
- Inserisci un nome modello, che verrà utilizzato per la visualizzazione e a cui verrà fatto riferimento nelle richieste API e nella Google Cloud console Speech.
- Inserisci una descrizione per il modello.
- Seleziona un modello di base più adatto al tuo caso d'uso.
- Seleziona la lingua di trascrizione del modello.
- Seleziona la regione in cui deve avvenire l'addestramento.
- Fai clic su Continua.
Per completare la definizione del job del modello Speech-to-Text personalizzato e avviare l'addestramento, devi definire i set di dati di addestramento e convalida.
- Seleziona un set di dati di add1estramento fornendo un URI di directory Cloud Storage
valido. Assicurati che siano presenti solo file audio e di testo e che
la durata totale dell'audio rispetti i requisiti del set di dati di addestramento.
- Seleziona un set di dati di convalida fornendo un URI di directory Cloud Storage
valido. Assicurati che siano presenti solo file audio e di testo e
che la durata totale dell'audio rispetti i requisiti
del set di dati di convalida.
- Fai clic su Crea per avviare la procedura di addestramento.
- Seleziona un set di dati di convalida fornendo un URI di directory Cloud Storage
valido. Assicurati che siano presenti solo file audio e di testo e
che la durata totale dell'audio rispetti i requisiti
del set di dati di convalida.
Se non vengono indicizzate ore audio sufficienti o se i file non rispettano le linee guida, il job di addestramento non andrà a buon fine.
I job di addestramento possono essere messi in coda dietro ad altri job nel nostro sistema e l'addestramento di un modello può richiedere da un paio di ore a qualche giorno, a seconda delle dimensioni del set di dati. Al termine dell'addestramento del modello, il suo stato verrà contrassegnato come Attivo.
Elimina un modello personalizzato
Prima di iniziare, assicurati che non ci sia traffico instradato al tuo modello Speech-to-Text personalizzato tramite qualsiasi endpoint, perché l'eliminazione impedirà di gestire le richieste.
- Vai alla scheda Modelli della sezione Modelli personalizzati.
- Fai clic per espandere le opzioni e poi su Elimina. Dopo qualche istante, il modello Speech-to-Text personalizzato verrà eliminato, insieme a tutti i relativi endpoint, e non gestirà più alcun traffico.
Elenca i modelli personalizzati
Selezionando Modelli nella sezione Modelli personalizzati , puoi anche elencare tutti i tuoi modelli Speech-to-Text personalizzati, inclusi quelli in fase di addestramento, attivi ed eliminati.
Passaggi successivi
Segui le risorse per sfruttare i modelli vocali personalizzati nella tua applicazione:
- Esegui il deployment e gestisci gli endpoint dei modelli .
- Utilizza i modelli personalizzati
- Valuta i modelli personalizzati