O Chirp 3, a geração mais recente dos modelos generativos multilingues específicos do reconhecimento de voz automático (ASR) da Google oferecidos pela API Speech-to-Text (STT) v2 da Google Cloud's, está disponível para a transcrição de voz.
Configurar
Siga estes passos para ativar a transcrição com o Speech-to-Text Chirp 3.
Consola
Quando cria ou atualiza um perfil de conversa através da consola do Agent Assist, siga estes passos para configurar as definições de conversão de voz em texto de modo a usar o modelo Chirp 3.
- Clique em Perfis de conversas.
- Clique no nome do seu perfil.
- Navegue para a secção Configuração de voz para texto.
- Escolha Chirp 3 para o modelo.
- (Opcional) Selecione Usar modelo de formulário longo para integração de SipRec de telefonia de AA se o áudio for transmitido através da integração de telefonia.
- (Opcional) Configure o código do idioma e até um código do idioma alternativo para a transcrição restrita por idioma.
- (Opcional) Configure auto como o código de idioma para a transcrição independente do idioma.
- (Opcional) Configure expressões para a adaptação da voz para melhorar a precisão com a adaptação do modelo.
API REST
Pode chamar a API diretamente para criar ou atualizar um perfil de conversa. Ative o STT V2 com o campo ConversationProfile.sttConfig.useSttV2, conforme mostrado no exemplo seguinte.
Exemplo de configuração:
{ "name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f "displayName": "CONVERSATION_PROFILE_NAME", "automatedAgentConfig": { }, "humanAgentAssistantConfig": { "notificationConfig": { "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID", "messageFormat": "JSON" }, "humanAgentSuggestionConfig": { "featureConfigs": [{ "enableEventBasedSuggestion": true, "suggestionFeature": { "type": "ARTICLE_SUGGESTION" }, "conversationModelConfig": { } }] }, "messageAnalysisConfig": { } }, "sttConfig": { "model": "chirp_3", "useSttV2": true, }, "languageCode": "en-US" }
Práticas recomendadas
Siga estas sugestões para tirar o máximo partido da transcrição de voz com o modelo Chirp 3.
Streaming de áudio
Para maximizar o desempenho do Chirp 3, envie áudio em tempo quase real. Isto significa que, se tiver X segundos de áudio, deve transmiti-lo em aproximadamente X segundos. Divida o áudio em pequenos fragmentos, cada um com um tamanho de frame de 100 ms. Para ver mais práticas recomendadas de streaming de áudio, consulte a documentação do Speech-to-Text.
Use a adaptação de voz
Use a transcrição com a adaptação de voz do Chirp 3 apenas com expressões incorporadas configuradas no perfil de conversa.
Suporte regional e de idiomas
O Chirp 3 está disponível para todos os idiomas de conversão de voz em texto com diferentes níveis de prontidão para lançamento e em todas as regiões do Agent Assist, exceto northamerica-northeast1, northamerica-northeast2 e asia-south1.
Quotas
O número de pedidos de transcrição que usam o modelo Chirp 3 é limitado pela quota de SttV2StreamingRequestsPerMinutePerResourceTypePerRegion com chirp_3 etiquetado como o tipo de recurso. Consulte o Google Cloud guia de quotas para obter informações sobre a utilização de quotas e como pedir um aumento da quota.
Para as quotas, os pedidos de transcrição aos pontos finais globais do Dialogflow estão na região us-central1.