Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Trascrizione del parlato

Trascrizione vocale trascrive l'audio parlato in un video o in un segmento video in testo e restituisce blocchi di testo per ogni parte dell'audio trascritto.

Modelli supportati

Video Intelligence supporta solo l'inglese (Stati Uniti). Per altre lingue, utilizza l'API Speech-to-Text, che supporta tutte le lingue disponibili. Per l'elenco delle lingue disponibili, consulta Supporto linguistico nella documentazione di Speech-to-Text.

Per trascrivere il parlato di un video, chiama il annotate metodo e specifica SPEECH_TRANSCRIPTION nel campo features.

Quando trascrivi il parlato, puoi utilizzare le seguenti funzionalità:

Parole alternative: utilizza l'opzione maxAlternatives per specificare il numero massimo di opzioni per le traduzioni del testo riconosciuto da includere nella risposta. Questo valore può essere un numero intero compreso tra 1 e 30. Il valore predefinito è 1. L'API restituisce più trascrizioni in ordine decrescente in base al valore di affidabilità della trascrizione. Le trascrizioni alternative non includono voci a livello di parola.
Filtro di contenuti inappropriati: utilizza l'opzione filterProfanity per filtrare i contenuti inappropriati noti nelle trascrizioni. Le parole corrispondenti vengono sostituite con il carattere iniziale della parola seguito da asterischi. Il valore predefinito è false.
Suggerimenti per la trascrizione: utilizza l'opzione speechContexts per fornire frasi comuni o insoliti nell'audio. Queste frasi vengono quindi utilizzate per aiutare il servizio di trascrizione a creare trascrizioni più accurate. Fornisci un suggerimento per la trascrizione come SpeechContext SpeechContext.
Selezione della traccia audio: utilizza l'opzione audioTracks per specificare la traccia da trascrivere da un video multitraccia. Gli utenti possono specificare fino a due tracce. Il valore predefinito è 0. Una volta impostato il codice della lingua su en-US, la richiesta viene indirizzata alla modalità avanzata, addestrata sull'audio in inglese americano; non conosce realmente l'inglese americano o altre lingue in sé. Se inseriamo un audio in spagnolo nel modello avanzato, la trascrizione verrà eseguita, ma potrebbero essere presenti output con punteggi di attendibilità bassi o nessun output, come previsto da un buon modello.
Punteggiatura automatica: utilizza l'enableAutomaticPunctuation opzione per includere la punteggiatura nel testo trascritto. Il valore predefinito è false.
Più speaker: utilizza l'opzione enableSpeakerDiarization per identificare diversi speaker in un video. Nella risposta, ogni parola riconosciuta include un campo speakerTag che identifica lo speaker a cui è attribuita la parola riconosciuta.

Per risultati ottimali, fornisci audio registrato con una frequenza di campionamento pari o superiore a 16.000 Hz.

Dai un'occhiata al visualizzatore dell'API Video Intelligence per vedere questa funzionalità in azione.

Per esempi di richiesta di trascrizione vocale, consulta Trascrizione vocale.

Trascrizione del parlato Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Modelli supportati

Trascrizione del parlato