Chirp 3, la generación más reciente de modelos generativos multilingües específicos para el reconocimiento de voz automático (ASR) de Google que ofrece la versión 2 de la API de Speech-to-Text (STT) de Google Cloud, está disponible para la transcripción de voz.
Configurar
Sigue estos pasos para habilitar la transcripción con Speech-to-Text Chirp 3.
Console
Cuando crees o actualices un perfil de conversación con la consola de Agent Assist, sigue estos pasos para configurar los parámetros de Speech-to-Text para usar el modelo Chirp 3.
- Haz clic en Perfiles de conversación.
- Haz clic en el nombre de tu perfil.
- Navega a la sección Configuración de Speech-to-Text.
- Elige Chirp 3 para el modelo.
- (Opcional) Selecciona Usar el modelo de formato largo para la integración de SipRec de telefonía de AA si el audio se transmite a través de la integración de telefonía.
- (Opcional) Configura el código de idioma y hasta un código de idioma alternativo para la transcripción restringida por idioma.
- (Opcional) Configura auto como el código de idioma para la transcripción independiente del idioma.
- (Opcional) Configura Frases para la adaptación de voz para mejorar la precisión con la adaptación de modelos.
API de REST
Puedes llamar a la API directamente para crear o actualizar un perfil de conversación. Habilita STT V2 con el campo ConversationProfile.sttConfig.useSttV2, como se muestra en el siguiente ejemplo.
Configuración de ejemplo:
{ "name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f "displayName": "CONVERSATION_PROFILE_NAME", "automatedAgentConfig": { }, "humanAgentAssistantConfig": { "notificationConfig": { "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID", "messageFormat": "JSON" }, "humanAgentSuggestionConfig": { "featureConfigs": [{ "enableEventBasedSuggestion": true, "suggestionFeature": { "type": "ARTICLE_SUGGESTION" }, "conversationModelConfig": { } }] }, "messageAnalysisConfig": { } }, "sttConfig": { "model": "chirp_3", "useSttV2": true, }, "languageCode": "en-US" }
Prácticas recomendadas
Sigue estas sugerencias para aprovechar al máximo la transcripción de voz con el modelo Chirp 3.
Reproducción de audio
Para maximizar el rendimiento de Chirp 3, envía audio casi en tiempo real. Esto significa que, si tienes X segundos de audio, transmítelo en aproximadamente X segundos. Divide el audio en fragmentos pequeños, cada uno con un tamaño de fotograma de 100 ms. Para obtener más prácticas recomendadas de transmisión de audio, consulta la documentación de Speech-to-Text.
Usar la adaptación de voz
Usa la transcripción con la adaptación de voz de Chirp 3 solo con frases intercaladas configuradas en el perfil de conversación.
Compatibilidad regional y de idiomas
Chirp 3 está disponible para todos los idiomas de Speech-to-Text con diferentes niveles de preparación para el lanzamiento y en todas las regiones de Agent Assist, excepto northamerica-northeast1, northamerica-northeast2 y asia-south1.
Cuotas
La cantidad de solicitudes de transcripción que usan el modelo Chirp 3 está limitada por la cuota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion con chirp_3 etiquetado como el tipo de recurso. Consulta la Google Cloud guía de cuotas para obtener información sobre el uso de cuotas y cómo solicitar un aumento de cuota.
En el caso de las cuotas, las solicitudes de transcripción a los extremos globales de Dialogflow se encuentran en la región us-central1.