Utilizzare la trascrizione con la conversione di Speech-to-Text Chirp 3

Chirp 3, l'ultima generazione di modelli generativi multilingue specifici per il riconoscimento vocale automatico (ASR) di Google offerti da Google Cloud's API Speech-to-Text (STT) v2, è disponibile per la trascrizione vocale.

Configura

Segui questi passaggi per attivare la trascrizione con Speech-to-Text Chirp 3.

Console

Quando crei o aggiorni un profilo di conversazione utilizzando la console Assistente agente, segui questi passaggi per configurare le impostazioni di Speech-to-Text in modo da utilizzare il modello Chirp 3.

  1. Fai clic su Profili di conversazione.
  2. Fai clic sul nome del tuo profilo.
  3. Vai alla sezione Configurazione Speech-to-Text.
  4. Scegli Chirp 3 per il modello.
  5. (Facoltativo) Seleziona Utilizza il modello di formato lungo per l'integrazione AA Telephony SipRec se l'audio viene trasmesso tramite l'integrazione di telefonia.
  6. (Facoltativo) Configura Codice lingua e fino a un Codici lingua alternativi per la trascrizione con limitazioni linguistiche.
  7. (Facoltativo) Configura auto come codice lingua per la trascrizione indipendente dalla lingua.
  8. (Facoltativo) Configura Frasi per l'adattamento vocale per migliorare la precisione con l'adattamento del modello.

API REST

Puoi chiamare direttamente l'API per creare o aggiornare un profilo di conversazione. Attiva STT V2 con il campo ConversationProfile.sttConfig.useSttV2, come mostrato nell'esempio seguente. Configurazione di esempio:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

Best practice

Segui questi suggerimenti per ottenere il massimo dalla trascrizione vocale con il modello Chirp 3.

Streaming audio

Per massimizzare il rendimento di Chirp 3, invia l'audio quasi in tempo reale. Ciò significa che se hai X secondi di audio, trasmettilo in streaming in circa X secondi. Suddividi l'audio in piccoli blocchi, ognuno con una dimensione del frame di 100 ms. Per ulteriori best practice sullo streaming audio, consulta la documentazione di Speech-to-Text.

Utilizza l'adattamento vocale

Utilizza la trascrizione con l'adattamento vocale di Chirp 3 solo con le frasi in linea configurate nel profilo di conversazione.

Supporto regionale e linguistico

Chirp 3 è disponibile per tutte le lingue di Speech-to-Text con diversi livelli di preparazione al lancio e in tutte le regioni di Assistente agente, ad eccezione di northamerica-northeast1, northamerica-northeast2 e asia-south1.

Quote

Il numero di richieste di trascrizione che utilizzano il modello Chirp 3 è limitato dalla quota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion con chirp_3 etichettato come tipo di risorsa. Consulta la Google Cloud guida alle quote per informazioni sull'utilizzo delle quote e su come richiedere un aumento della quota.

Per le quote, le richieste di trascrizione agli endpoint globali di Dialogflow si trovano nella regione us-central1.