Usar la transcripción con Speech-to-Text Chirp 3

Chirp 3, la última generación de modelos generativos multilingües específicos de reconocimiento automático de voz (RAV) de Google que ofrece la API Speech-to-Text (STT) v2 de Google Cloud, está disponible para la transcripción de voz.

Configurar

Sigue estos pasos para habilitar la transcripción con Speech-to-Text Chirp 3.

Consola

Cuando crees o actualices un perfil de conversación mediante la consola de Agent Assist, sigue estos pasos para configurar los ajustes de Speech-to-Text y usar el modelo Chirp 3.

  1. Haz clic en Perfiles de conversación.
  2. Haz clic en el nombre de tu perfil.
  3. Ve a la sección Configuración de voz a texto.
  4. Elige Chirp 3 como modelo.
  5. (Opcional) Selecciona Usar modelo de formato largo para la integración de SipRec de telefonía de AA si el audio se transmite a través de la integración de telefonía.
  6. (Opcional) Configura el código de idioma y hasta un código de idioma alternativo para la transcripción restringida por idioma.
  7. (Opcional) Configura auto como código de idioma para la transcripción independiente del idioma.
  8. (Opcional) Configura frases para la adaptación del habla y mejora la precisión con la adaptación de modelos.

API REST

Puedes llamar directamente a la API para crear o actualizar un perfil de conversación. Habilita STT V2 con el campo ConversationProfile.sttConfig.useSttV2, tal como se muestra en el siguiente ejemplo. Configuración de ejemplo:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

Prácticas recomendadas

Sigue estas sugerencias para sacar el máximo partido a la transcripción de voz con el modelo Chirp 3.

Streaming de audio

Para maximizar el rendimiento de Chirp 3, envía el audio prácticamente en tiempo real. Esto significa que, si tienes X segundos de audio, debes transmitirlo en aproximadamente X segundos. Divide el audio en fragmentos pequeños, cada uno con un tamaño de fotograma de 100 ms. Para obtener más información sobre las prácticas recomendadas de la transmisión de audio, consulta la documentación de Speech-to-Text.

Usar la adaptación de voz

Usa la transcripción con la adaptación de voz de Chirp 3 solo con frases insertadas configuradas en el perfil de conversación.

Asistencia por regiones e idiomas

Chirp 3 está disponible en todos los idiomas de Speech-to-Text con diferentes niveles de preparación para el lanzamiento y en todas las regiones de Asistencia del agente, excepto northamerica-northeast1, northamerica-northeast2 y asia-south1.

Cuotas

El número de solicitudes de transcripción que usan el modelo Chirp 3 está limitado por la cuota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion, donde chirp_3 es el tipo de recurso. Consulta la Google Cloud guía de cuotas para obtener información sobre el uso de las cuotas y cómo solicitar un aumento.

En el caso de las cuotas, las solicitudes de transcripción a los endpoints globales de Dialogflow se encuentran en la región us-central1.