O Chirp 3, a geração mais recente dos modelos generativos multilíngues de reconhecimento de fala automático (ASR, na sigla em inglês) do Google oferecidos pela Google CloudAPI Speech-to-Text (STT) v2, está disponível para transcrição de voz.
Configurar
Siga estas etapas para ativar a transcrição com o Speech-to-Text Chirp 3.
Console
Ao criar ou atualizar um perfil de conversa usando o console do Agent Assist, siga estas etapas para configurar as definições do Speech-to-Text para usar o modelo Chirp 3.
- Clique em Perfis de conversa.
- Clique no nome do seu perfil.
- Navegue até a seção Configuração de conversão de voz em texto.
- Escolha Chirp 3 para o modelo.
- (Opcional) Selecione Usar o modelo de formato longo para integração de telefonia AA SipRec se o áudio for transmitido pela integração de telefonia.
- (Opcional) Configure o código de idioma e até um código de idioma alternativo para transcrição restrita por idioma.
- (Opcional) Configure auto como o código de idioma para transcrição independente de idioma.
- (Opcional) Configure Frases para adaptação de fala para melhorar a precisão com a adaptação de modelo.
API REST
É possível chamar a API diretamente para criar ou atualizar um perfil de conversa. Ative a STT V2 com o campo ConversationProfile.sttConfig.useSttV2, conforme mostrado no exemplo a seguir.
Exemplo de configuração:
{ "name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f "displayName": "CONVERSATION_PROFILE_NAME", "automatedAgentConfig": { }, "humanAgentAssistantConfig": { "notificationConfig": { "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID", "messageFormat": "JSON" }, "humanAgentSuggestionConfig": { "featureConfigs": [{ "enableEventBasedSuggestion": true, "suggestionFeature": { "type": "ARTICLE_SUGGESTION" }, "conversationModelConfig": { } }] }, "messageAnalysisConfig": { } }, "sttConfig": { "model": "chirp_3", "useSttV2": true, }, "languageCode": "en-US" }
Práticas recomendadas
Siga estas sugestões para aproveitar ao máximo a transcrição de voz com o modelo Chirp 3.
Streaming de áudio
Para maximizar a performance do Chirp 3, envie áudio quase em tempo real. Isso significa que, se você tiver X segundos de áudio, faça o streaming em aproximadamente X segundos. Divida o áudio em pequenos blocos, cada um com um tamanho de frame de 100 ms. Para mais práticas recomendadas de streaming de áudio, consulte a documentação do Speech-to-Text.
Usar a adaptação de fala
Use a transcrição com a adaptação de fala do Chirp 3 apenas com frases inline configuradas no perfil de conversa.
Suporte regional e de idiomas
O Chirp 3 está disponível para todos os idiomas do Speech-to-Text com diferentes níveis de prontidão de lançamento e em todas as regiões do Agent Assist, exceto northamerica-northeast1, northamerica-northeast2 e asia-south1.
Cotas
O número de solicitações de transcrição usando o modelo Chirp 3 é limitado pela cota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion com chirp_3 rotulado como o tipo de recurso. Consulte o Google Cloud guia de cotas para informações sobre o uso de cotas e como solicitar um aumento de cotas.
Para cotas, as solicitações de transcrição para os endpoints globais do Dialogflow estão na região us-central1.