שימוש בתמלול עם Speech-to-Text Chirp 3

‫Chirp 3, הדור האחרון של מודלים גנרטיביים ספציפיים לזיהוי דיבור אוטומטי (ASR) רב-לשוני של Google, שזמינים ב- Google CloudSpeech-to-Text (STT) API v2, זמין לתמלול קולי.

הגדרה

כדי להפעיל תמלול באמצעות Speech-to-Text Chirp 3:

המסוף

כשיוצרים או מעדכנים פרופיל שיחה באמצעות מסוף Agent Assist, פועלים לפי השלבים הבאים כדי להגדיר את ההגדרות של Speech-to-Text לשימוש במודל Chirp 3.

  1. לוחצים על פרופילים של שיחות.
  2. לוחצים על שם הפרופיל.
  3. עוברים לקטע Speech to Text Config (הגדרת המרת דיבור לטקסט).
  4. בוחרים במודל Chirp 3.
  5. (אופציונלי) בוחרים באפשרות Use Long Form Model for AA Telephony SipRec Integration (שימוש במודל ארוך לשיחות טלפון עם שילוב של SipRec) אם האודיו מועבר דרך שילוב טלפוניה.
  6. (אופציונלי) מגדירים קוד שפה ועד קוד שפה חלופי אחד לתמליל מוגבל לשפה.
  7. (אופציונלי) מגדירים את auto כקוד השפה עבור תמלול ללא תלות בשפה.
  8. (אופציונלי) מגדירים ביטויים להתאמת דיבור כדי לשפר את הדיוק באמצעות התאמת מודל.

‫API בארכיטקטורת REST

אפשר לקרוא ל-API ישירות כדי ליצור או לעדכן פרופיל שיחה. מפעילים את STT V2 באמצעות השדה ConversationProfile.sttConfig.useSttV2, כמו בדוגמה הבאה. הגדרה לדוגמה:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

שיטות מומלצות

כדי להפיק את המרב מתמלול קולי באמצעות מודל Chirp 3, כדאי לפעול לפי ההצעות הבאות.

סטרימינג של אודיו

כדי למקסם את הביצועים של Chirp 3, מומלץ לשלוח אודיו כמעט בזמן אמת. כלומר, אם יש לכם X שניות של אודיו, הסטרימינג יימשך בערך X שניות. כדאי לחלק את האודיו לחלקים קטנים, כל אחד בגודל של 100 אלפיות השנייה. למידע נוסף על שיטות מומלצות לסטרימינג של אודיו, אפשר לעיין במסמכי התיעוד של Speech-to-Text.

שימוש בהתאמה של הדיבור

אפשר להשתמש בתמלול עם התאמת הדיבור של Chirp 3 רק עם ביטויים מוטבעים שהוגדרו בפרופיל השיחה.

שימוש ללא סטרימינג מורחב

כשמשתמשים ב-Chirp 3 לתמלול קולי, לא מומלץ להפעיל את הזרמת נתונים מורחבת. כדי להשתמש בהזרמה מורחבת, צריך מודל שתומך בהגדרה של דיבור רציף.

תמיכה אזורית ותמיכה בשפות

‫Chirp 3 זמין לכל השפות של 'דיבור לטקסט' עם רמות שונות של מוכנות להשקה, ובכל האזורים שבהם זמין Agent Assist חוץ מnorthamerica-northeast1, northamerica-northeast2 ו-asia-south1.

מכסות

מספר הבקשות לתמלול באמצעות מודל Chirp 3 מוגבל על ידי מכסת SttV2StreamingRequestsPerMinutePerResourceTypePerRegion, כאשר chirp_3 מסומן כסוג המשאב. מידע על ניצול המכסות ועל אופן שליחת בקשה להגדלת מכסה זמין ב Google Cloud מדריך המכסות.

בנוגע למכסות, בקשות תמלול לנקודות הקצה של Dialogflow באזור הגיאוגרפי us-central1 בארה"ב ובאזור הגיאוגרפי הגלובלי נכללות באזור us-central1.