Trascrizione vocale trascrive l'audio parlato in un video o in un segmento video in testo e restituisce blocchi di testo per ogni parte dell'audio trascritto.
Modelli supportati
Video Intelligence supporta solo l'inglese (Stati Uniti). Per altre lingue, utilizza l'API Speech-to-Text, che supporta tutte le lingue disponibili. Per l'elenco delle lingue disponibili, consulta Supporto linguistico nella documentazione di Speech-to-Text.
Per trascrivere il parlato di un video, chiama il
annotate
metodo e specifica
SPEECH_TRANSCRIPTION
nel campo features.
Quando trascrivi il parlato, puoi utilizzare le seguenti funzionalità:
Parole alternative: utilizza l'opzione
maxAlternativesper specificare il numero massimo di opzioni per le traduzioni del testo riconosciuto da includere nella risposta. Questo valore può essere un numero intero compreso tra 1 e 30. Il valore predefinito è 1. L'API restituisce più trascrizioni in ordine decrescente in base al valore di affidabilità della trascrizione. Le trascrizioni alternative non includono voci a livello di parola.Filtro di contenuti inappropriati: utilizza l'opzione
filterProfanityper filtrare i contenuti inappropriati noti nelle trascrizioni. Le parole corrispondenti vengono sostituite con il carattere iniziale della parola seguito da asterischi. Il valore predefinito è false.Suggerimenti per la trascrizione: utilizza l'opzione
speechContextsper fornire frasi comuni o insoliti nell'audio. Queste frasi vengono quindi utilizzate per aiutare il servizio di trascrizione a creare trascrizioni più accurate. Fornisci un suggerimento per la trascrizione come SpeechContext SpeechContext.Selezione della traccia audio: utilizza l'opzione
audioTracksper specificare la traccia da trascrivere da un video multitraccia. Gli utenti possono specificare fino a due tracce. Il valore predefinito è 0. Una volta impostato il codice della lingua su en-US, la richiesta viene indirizzata alla modalità avanzata, addestrata sull'audio in inglese americano; non conosce realmente l'inglese americano o altre lingue in sé. Se inseriamo un audio in spagnolo nel modello avanzato, la trascrizione verrà eseguita, ma potrebbero essere presenti output con punteggi di attendibilità bassi o nessun output, come previsto da un buon modello.Punteggiatura automatica: utilizza l'
enableAutomaticPunctuationopzione per includere la punteggiatura nel testo trascritto. Il valore predefinito è false.Più speaker: utilizza l'opzione
enableSpeakerDiarizationper identificare diversi speaker in un video. Nella risposta, ogni parola riconosciuta include un campospeakerTagche identifica lo speaker a cui è attribuita la parola riconosciuta.
Per risultati ottimali, fornisci audio registrato con una frequenza di campionamento pari o superiore a 16.000 Hz.
Dai un'occhiata al visualizzatore dell'API Video Intelligence per vedere questa funzionalità in azione.
Per esempi di richiesta di trascrizione vocale, consulta Trascrizione vocale.