Usar a transcrição com o Chirp 3 de conversão da Speech-to-Text

O Chirp 3, a geração mais recente dos modelos generativos multilíngues de reconhecimento de fala automático (ASR, na sigla em inglês) do Google oferecidos pela Google CloudAPI Speech-to-Text (STT) v2, está disponível para transcrição de voz.

Configurar

Siga estas etapas para ativar a transcrição com o Speech-to-Text Chirp 3.

Console

Ao criar ou atualizar um perfil de conversa usando o console do Agent Assist, siga estas etapas para configurar as definições do Speech-to-Text para usar o modelo Chirp 3.

  1. Clique em Perfis de conversa.
  2. Clique no nome do seu perfil.
  3. Navegue até a seção Configuração de conversão de voz em texto.
  4. Escolha Chirp 3 para o modelo.
  5. (Opcional) Selecione Usar o modelo de formato longo para integração de telefonia AA SipRec se o áudio for transmitido pela integração de telefonia.
  6. (Opcional) Configure o código de idioma e até um código de idioma alternativo para transcrição restrita por idioma.
  7. (Opcional) Configure auto como o código de idioma para transcrição independente de idioma.
  8. (Opcional) Configure Frases para adaptação de fala para melhorar a precisão com a adaptação de modelo.

API REST

É possível chamar a API diretamente para criar ou atualizar um perfil de conversa. Ative a STT V2 com o campo ConversationProfile.sttConfig.useSttV2, conforme mostrado no exemplo a seguir. Exemplo de configuração:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

Práticas recomendadas

Siga estas sugestões para aproveitar ao máximo a transcrição de voz com o modelo Chirp 3.

Streaming de áudio

Para maximizar a performance do Chirp 3, envie áudio quase em tempo real. Isso significa que, se você tiver X segundos de áudio, faça o streaming em aproximadamente X segundos. Divida o áudio em pequenos blocos, cada um com um tamanho de frame de 100 ms. Para mais práticas recomendadas de streaming de áudio, consulte a documentação do Speech-to-Text.

Usar a adaptação de fala

Use a transcrição com a adaptação de fala do Chirp 3 apenas com frases inline configuradas no perfil de conversa.

Suporte regional e de idiomas

O Chirp 3 está disponível para todos os idiomas do Speech-to-Text com diferentes níveis de prontidão de lançamento e em todas as regiões do Agent Assist, exceto northamerica-northeast1, northamerica-northeast2 e asia-south1.

Cotas

O número de solicitações de transcrição usando o modelo Chirp 3 é limitado pela cota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion com chirp_3 rotulado como o tipo de recurso. Consulte o Google Cloud guia de cotas para informações sobre o uso de cotas e como solicitar um aumento de cotas.

Para cotas, as solicitações de transcrição para os endpoints globais do Dialogflow estão na região us-central1.