Chirp 3, la dernière génération de modèles génératifs multilingues de reconnaissance vocale automatique de Google, proposée par Google Cloudl'API Speech-to-Text (STT) v2 de , est disponible pour la transcription vocale.
Configurer
Suivez ces étapes pour activer la transcription avec Speech-to-Text Chirp 3.
Console
Lorsque vous créez ou mettez à jour un profil de conversation à l'aide de la console Agent Assist, procédez comme suit pour configurer les paramètres Speech-to-Text afin d'utiliser le modèle Chirp 3.
- Cliquez sur Profils de conversation.
- Cliquez sur le nom de votre profil.
- Accédez à la section Speech to Text Config (Configuration Speech-to-Text).
- Choisissez Chirp 3 pour le modèle.
- (Facultatif) Sélectionnez Use Long Form Model for AA Telephony SipRec Integration (Utiliser le modèle de formulaire long pour l'intégration AA Telephony SipRec) si l'audio est transmis via l'intégration téléphonique.
- (Facultatif) Configurez le code de langue et jusqu'à un code de langue alternatif pour la transcription limitée à une langue.
- (Facultatif) Configurez auto comme code de langue pour la transcription indépendante de la langue.
- (Facultatif) Configurez Phrases for speech adaptation (Phrases pour l'adaptation vocale) afin d'améliorer la précision grâce à l'adaptation du modèle.
API REST
Vous pouvez appeler directement l'API pour créer ou mettre à jour un profil de conversation. Activez STT V2 avec le ConversationProfile.sttConfig.useSttV2 champ, comme illustré dans l'exemple suivant.
Exemple de configuration :
{ "name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f "displayName": "CONVERSATION_PROFILE_NAME", "automatedAgentConfig": { }, "humanAgentAssistantConfig": { "notificationConfig": { "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID", "messageFormat": "JSON" }, "humanAgentSuggestionConfig": { "featureConfigs": [{ "enableEventBasedSuggestion": true, "suggestionFeature": { "type": "ARTICLE_SUGGESTION" }, "conversationModelConfig": { } }] }, "messageAnalysisConfig": { } }, "sttConfig": { "model": "chirp_3", "useSttV2": true, }, "languageCode": "en-US" }
Bonnes pratiques
Suivez ces suggestions pour tirer le meilleur parti de la transcription vocale avec le modèle Chirp 3.
Streaming audio
Pour maximiser les performances de Chirp 3, envoyez l'audio en temps quasi réel. Cela signifie que si vous avez X secondes d'audio, diffusez-le en streaming en X secondes environ. Divisez votre audio en petits blocs, chacun avec une taille de frame de 100 ms. Pour en savoir plus sur les bonnes pratiques de streaming audio, consultez la documentation Speech-to-Text.
Utiliser l'adaptation vocale
N'utilisez la transcription avec l'adaptation vocale Chirp 3 qu'avec des phrases intégrées configurées dans le profil de conversation.
Régions et langues disponibles
Chirp 3 est disponible pour toutes les langues Speech-to-Text avec différents niveaux de préparation au lancement, et dans toutes les régions Agent Assist, à l'exception de northamerica-northeast1, northamerica-northeast2 et asia-south1.
Quotas
Le nombre de requêtes de transcription à l'aide du modèle Chirp 3 est limité par le SttV2StreamingRequestsPerMinutePerResourceTypePerRegion quota, avec chirp_3 libellé comme type de ressource. Consultez le Google Cloud guide sur les quotas pour en savoir plus sur l'utilisation des quotas et sur la procédure à suivre pour demander une augmentation de quota.
Pour les quotas, les requêtes de transcription adressées aux points de terminaison Dialogflow globaux se trouvent dans la région us-central1.