Usa la transcripción con Chirp 3 de Speech-to-Text

Chirp 3, la generación más reciente de modelos generativos multilingües específicos para el reconocimiento de voz automático (ASR) de Google que ofrece la versión 2 de la API de Speech-to-Text (STT) de Google Cloud, está disponible para la transcripción de voz.

Configurar

Sigue estos pasos para habilitar la transcripción con Speech-to-Text Chirp 3.

Console

Cuando crees o actualices un perfil de conversación con la consola de Agent Assist, sigue estos pasos para configurar los parámetros de Speech-to-Text para usar el modelo Chirp 3.

  1. Haz clic en Perfiles de conversación.
  2. Haz clic en el nombre de tu perfil.
  3. Navega a la sección Configuración de Speech-to-Text.
  4. Elige Chirp 3 para el modelo.
  5. (Opcional) Selecciona Usar el modelo de formato largo para la integración de SipRec de telefonía de AA si el audio se transmite a través de la integración de telefonía.
  6. (Opcional) Configura el código de idioma y hasta un código de idioma alternativo para la transcripción restringida por idioma.
  7. (Opcional) Configura auto como el código de idioma para la transcripción independiente del idioma.
  8. (Opcional) Configura Frases para la adaptación de voz para mejorar la precisión con la adaptación de modelos.

API de REST

Puedes llamar a la API directamente para crear o actualizar un perfil de conversación. Habilita STT V2 con el campo ConversationProfile.sttConfig.useSttV2, como se muestra en el siguiente ejemplo. Configuración de ejemplo:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

Prácticas recomendadas

Sigue estas sugerencias para aprovechar al máximo la transcripción de voz con el modelo Chirp 3.

Reproducción de audio

Para maximizar el rendimiento de Chirp 3, envía audio casi en tiempo real. Esto significa que, si tienes X segundos de audio, transmítelo en aproximadamente X segundos. Divide el audio en fragmentos pequeños, cada uno con un tamaño de fotograma de 100 ms. Para obtener más prácticas recomendadas de transmisión de audio, consulta la documentación de Speech-to-Text.

Usar la adaptación de voz

Usa la transcripción con la adaptación de voz de Chirp 3 solo con frases intercaladas configuradas en el perfil de conversación.

Compatibilidad regional y de idiomas

Chirp 3 está disponible para todos los idiomas de Speech-to-Text con diferentes niveles de preparación para el lanzamiento y en todas las regiones de Agent Assist, excepto northamerica-northeast1, northamerica-northeast2 y asia-south1.

Cuotas

La cantidad de solicitudes de transcripción que usan el modelo Chirp 3 está limitada por la cuota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion con chirp_3 etiquetado como el tipo de recurso. Consulta la Google Cloud guía de cuotas para obtener información sobre el uso de cuotas y cómo solicitar un aumento de cuota.

En el caso de las cuotas, las solicitudes de transcripción a los extremos globales de Dialogflow se encuentran en la región us-central1.