Questa guida fornisce impostazioni avanzate aggiuntive per le funzionalità vocali. Puoi attivare e disattivare queste impostazioni avanzate andando su Impostazioni agente > Voce e IVR >Speech-to-Textle > Impostazioni avanzate di sintesi vocale.
Queste impostazioni sono disponibili nelle impostazioni dell'agente (si applicano all'intero agente), nelle impostazioni del flusso (si applicano all'intero flusso e sostituiscono le impostazioni dell'agente), nelle impostazioni della pagina (si applicano alla pagina e sostituiscono le impostazioni del flusso e dell'agente) e nelle impostazioni di fulfillment (si applicano al fulfillment e sostituiscono le impostazioni della pagina, del flusso e dell'agente). Un sottoinsieme di queste impostazioni è disponibile a ogni livello, a seconda della pertinenza dell'impostazione per il livello. *Prima di poter configurare queste impostazioni a un livello inferiore, devi prima selezionare la casella Attiva impostazioni vocali avanzate a livello di agente (Impostazioni agente > Voce e IVR > Speech-to-Text > Impostazioni vocali avanzate)*.
Le impostazioni aggiornate a livello di agente non vengono propagate al flusso, alla pagina e all'evasione quando l'opzione Personalizza è selezionata a questi livelli inferiori. Se l'opzione Personalizza comprende più impostazioni e vuoi aggiornarne solo alcune, potresti dover aggiornare anche altre impostazioni se vuoi che siano uguali a quelle a livello di agente.
Disponibilità delle impostazioni per livello
La tabella seguente indica quali impostazioni avanzate di sintesi vocale sono disponibili a ogni livello:
Nome impostazione | Agente | Flow | Pagina | Fulfillment |
---|---|---|---|---|
Selezione del modello (Speech-to-Text) | ✔ | ✔ | ✔ | |
Fine della sensibilità vocale | ✔ | ✔ | ✔ | |
Sensibilità vocale avanzata basata sul timeout | ✔ | ✔ | ✔ | |
Abilitare l'endpoint intelligente | ✔ | |||
Nessun timeout vocale | ✔ | ✔ | ✔ | |
Interruzione | ✔ | ✔ | ✔ | |
Consenti l'annullamento della riproduzione della risposta parziale | ✔ | |||
Bucket di esportazione audio | ✔ | ✔ | ||
DTMF | ✔ | ✔ | ✔ |
Selezione del modello (Speech-to-Text)
Può essere impostato a livello di agente, flusso e pagina.
Imposta il modello vocale utilizzato per il riconoscimento vocale. Questa impostazione è specifica per la lingua, quindi puoi selezionare modelli diversi per lingue diverse. Puoi anche selezionare Override request-level speech model, che farà in modo che il modello selezionato venga utilizzato anche se una chiamata API di runtime specifica un modello diverso.
Per il gateway di telefonia di Conversational Agents (Dialogflow CX), consulta le limitazioni. Per saperne di più, vedi Modelli vocali.
Fine della sensibilità vocale
Può essere impostato a livello di agente, flusso e pagina.
Controlla la sensibilità per il riconoscimento della fine del discorso nell'input audio dell'utente finale. Il valore va da 0 (sensibilità bassa, meno probabilità di terminare la conversazione) a 100 (sensibilità alta, più probabilità di terminare la conversazione).
Sensibilità vocale avanzata basata sul timeout
Può essere impostato a livello di agente e disattivato a livello di flusso e pagina.
Se questa impostazione è attiva, il valore dell'impostazione Sensibilità di fine discorso viene utilizzato come indicatore per stabilire un timeout relativo del silenzio audio per determinare la fine del discorso. Se questa impostazione è disattivata (impostazione predefinita), il valore dell'impostazione Sensibilità alla fine del discorso viene utilizzato per determinare la fine del discorso da parte del modello di ML fornito da Google Cloud Speech-to-Text.
Mentre l'impostazione Fine della sensibilità vocale supporta solo il modello vocale phone_call
per il tag lingua en-US
per impostazione predefinita, l'impostazione Attiva la sensibilità vocale avanzata basata sul timeout consente di configurare la sensibilità vocale per tutte le lingue e tutti i modelli vocali supportati da Dialogflow.
Abilitare l'endpoint intelligente
Può essere impostato solo a livello di agente.
Se questa impostazione è attivata, Conversational Agents (Dialogflow CX) analizzerà l'input utente parziale per determinare la fine del discorso. Ad esempio, se l'utente dice "Vorrei" e si ferma, Conversational Agents (Dialogflow CX) attenderà che l'utente continui la frase.
Ciò è particolarmente utile per la raccolta di parametri numerici, in cui l'utente potrebbe dire "1234" e fare una pausa prima di dire "5678". Per applicare questa impostazione a un parametro specifico, devi configurare l'endpoint intelligente nel modulo del parametro.
Questa impostazione è disponibile solo per il tag di lingua en-US
ed è disattivata per impostazione predefinita.
Nessun timeout vocale
Può essere impostato a livello di agente, flusso e pagina.
La durata in secondi per cui Conversational Agents (Dialogflow CX) smetterà di attendere l'input audio dell'utente finale. Il valore predefinito è 5 secondi e il valore massimo è 60 secondi. Per questo timeout, Conversational Agents (Dialogflow CX) richiama un evento di nessun input.
Interruzione
Può essere impostato a livello di agente, flusso e fulfillment.
Se questa opzione è abilitata, un utente finale può interrompere l'audio di risposta di Conversational Agents (Dialogflow CX). Quando interrotti, Conversational Agents (Dialogflow CX) smetteranno di inviare audio ed elaboreranno il successivoinput utentete finale.
Se nella coda di messaggi sono presenti più messaggi e un messaggio è stato messo in coda da un completamento associato a una pagina, a un flusso o a un agente per cui è attivata l'interruzione, anche per tutti i messaggi successivi nella coda sarà attivata l'interruzione. In questo caso, l'integrazione interromperà la riproduzione audio per tutti i messaggi in coda con l'interruzione abilitata.
Consenti l'annullamento della riproduzione della risposta parziale
Può essere impostato solo a livello di evasione.
Puoi attivare questa impostazione quando la casella Attiva impostazioni vocali avanzate è selezionata in Impostazioni agente > Voce e IVR e la risposta parziale è attivata a livello di evasione. Questa impostazione consente l'annullamento della riproduzione di una risposta parziale.
Se un messaggio nella coda dei messaggi viene creato da un completamento che consente l'annullamento, la riproduzione del messaggio viene annullata se viene aggiunto un altro messaggio alla coda. Questa opzione è utile quando vuoi che un messaggio iniziale avvii la riproduzione, ma che questa venga annullata se un webhook funzionante produce un altro messaggio prima che la riproduzione del messaggio iniziale venga completata.
Bucket di esportazione audio
Può essere impostato a livello di agente e flusso.
Se forniti, tutti i dati audio associati a una richiesta verranno salvati nel bucket Cloud Storage:
Audio salvato | Richieste applicabili |
---|---|
Input audio dell'utente finale | DetectIntent, StreamingDetectIntent, AnalyzeContent, StreamingAnalyzeContent |
Audio di sintesi Text-to-Speech (TTS) per una risposta | AnalyzeContent, StreamingAnalyzeContent |
Concedi il ruolo Storage Object Creator ai seguenti service account nel tuo progetto:
All'account di servizio nel formato
one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com
se utilizzi un'integrazione di telefonia integrata del partner.All'account di servizio del formato
service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com
se utilizzi l'integrazione di Dialogflow CX Phone Gateway. Per trovare questo account di servizio in IAM, seleziona l'opzione Includi concessioni di ruoli fornite da Google.
DTMF
Per saperne di più su questa funzionalità, consulta la documentazione DTMF (Dual-tone multi-frequency signaling).