העלאת נתוני שיחות

נתוני השיחות מתקבלים כתמלילים (תשובה מהירה) וכנתוני תמלילים בתוספת הערות (סיכום). כדי להשתמש בתשובה מהירה ובסיכום במהלך זמן הריצה, צריך לספק נתוני שיחות משלכם.

בדף הזה מוסבר איך להשתמש במערכי נתונים ציבוריים ואיך לעצב נתונים משלכם כדי להעלות אותם ל-Cloud Storage. צריך לספק את נתוני השיחות כקבצי טקסט בפורמט JSON.

פורמט הנתונים של תשובה מהירה

אפשר להשתמש בתשובות חכמות בשילוב עם כל תכונה של Agent Assist או כתכונה עצמאית. כדי להטמיע את התכונה 'תשובה מהירה', צריך לספק ל-Agent Assist נתוני שיחות.

פורמט נתוני הסיכום

אפשר להשתמש בסיכום בשילוב עם כל תכונה של Agent Assist או כתכונה עצמאית. כדי להטמיע את סיכום השיחה, צריך לספק ל-Agent Assist נתוני שיחה שכוללים הערות. ההערה היא סיכום של תמליל השיחה שמשויך אליה. ההערות משמשות לאימון מודל שאפשר להשתמש בו כדי ליצור סיכומים לסוכנים בסוף כל שיחה עם משתמש קצה.

עיצוב הערות

מודלים מותאמים אישית של סיכום ב-Agent Assist מאומנים באמצעות מערכי נתונים של שיחות. מערך נתונים של שיחות מכיל את התמליל שהעליתם ואת נתוני ההערות.

לפני שמתחילים להעלות נתונים, צריך לוודא שכל תמליל שיחה הוא בפורמט JSON, שיש לו הערה משויכת והוא מאוחסן במאגר Google Cloud Storage.

כדי ליצור הערות, מוסיפים מחרוזות צפויות key וvalue לשדה annotation שמשויך לכל שיחה בקבוצת הנתונים. כדי לקבל את התוצאות הטובות ביותר, נתוני האימון של ההערות צריכים לעמוד בהנחיות הבאות:

  1. המספר המינימלי המומלץ של אנוטציות לאימון הוא 1,000. מספר המינימום שמוגדר הוא 100.
  2. נתוני האימון לא יכולים להכיל פרטים אישיים מזהים (PII).
  3. ההערות לא יכולות לכלול מידע על מגדר, גזע או גיל.
  4. אסור להשתמש בשפה רעילה או גסה בהערות.
  5. ההערות לא יכולות להכיל מידע שלא ניתן להסיק מהתמליל של השיחה הרלוונטית.
  6. כל הערה יכולה להכיל עד 3 קטעים. אתם יכולים לבחור את השמות של הקטעים.
  7. ההערות צריכות להיות כתובות בצורה נכונה מבחינת איות ודקדוק.

בדוגמה הבאה מוצג הפורמט של תמליל שיחה עם הערות משויכות:

{
  "entries": [
    {
      "text": "How can I help?",
      "role": "AGENT"
    },
    {
      "text": "I cannot login",
      "role": "CUSTOMER"
    },
    {
      "text": "Ok, let me confirm. Are you experiencing issues accessing your account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "CUSTOMER"
    },
    {
      "text": "Got it. Do you still have access to the registered email for the account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "AGENT"
    },
    {
      "text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
      "role": "AGENT"
    },
    {
      "text": "That's nice",
      "role": "CUSTOMER"
    },
    {
      "text": "Is there anything else I can help",
      "role": "AGENT"
    },
    {
      "text": "No that's all",
      "role": "CUSTOMER"
    },
    {
      "text": "Thanks for calling. You have a nice day",
      "role": "AGENT"
    }
  ],
  "conversation_info": {
    "annotations": [
      {
        "annotation": {
          "conversation_summarization_suggestion": {
            "text_sections": [
              {
                "key": "Situation",
                "value": "Customer was unable to login to account"
              },
              {
                "key": "Action",
                "value": "Agent sent an email with password reset instructions"
              },
              {
                "key": "Outcome",
                "value": "Problem was resolved"
              }
            ]
          }
        }
      }
    ]
  }
}

נתוני תמליל השיחה

צריך לספק את נתוני שיחות הטקסט בקבצים בפורמט JSON, כאשר כל קובץ מכיל נתונים של שיחה אחת. בהמשך מפורט פורמט ה-JSON הנדרש.

שיחה

האובייקט ברמה העליונה של נתוני השיחה.

שדה סוג תיאור
conversation_info ConversationInfo { } זה שינוי אופציונלי. מטא-נתונים של השיחה.
entries ערך [ ] חובה. ההודעות בשיחה, בסדר כרונולוגי.

ConversationInfo

המטא-נתונים של השיחה.

שדה סוג תיאור
קטגוריות קטגוריה [ ] זה שינוי אופציונלי. קטגוריות מותאמות אישית לנתוני השיחה.

קטגוריה

קטגוריית נתונים של שיחות. אם תספקו קטגוריות עם נתוני השיחות שלכם, הן ישמשו לזיהוי נושאים בשיחות. אם לא תספקו קטגוריות, המערכת תסווג את השיחות באופן אוטומטי על סמך התוכן.

שדה סוג תיאור
display_name מחרוזת חובה. השם המוצג של הקטגוריה.

הערך

נתונים של הודעה אחת בשיחה.

שדה סוג תיאור
טקסט מחרוזת חובה. הטקסט של הודעת השיחה. צריך להקפיד על שימוש נכון באותיות רישיות בכל הטקסט. איכות המודל עלולה להיפגע באופן משמעותי אם כל האותיות בטקסט הן אותיות רישיות או קטנות. אם השדה הזה יישאר ריק, תוחזר שגיאה.
user_id מספר שלם זה שינוי אופציונלי. מספר שמזהה את המשתתף בשיחה. לכל משתתף צריך להיות מזהה user_id יחיד, שבו הוא משתמש שוב ושוב אם הוא משתתף בכמה שיחות.
תפקיד מחרוזת חובה. התפקיד של המשתתף בשיחה. אחת מהאפשרויות הבאות: AGENT,‏ CUSTOMER.
start_timestamp_usec מספר שלם אופציונלי אם השיחה משמשת רק לעזרה בשאלות נפוצות, להצעת מאמרים ולסיכום, אחרת חובה. חותמת הזמן של תחילת תור השיחה במיקרו-שניות.

דוגמה

בהמשך מוצגת דוגמה לקובץ נתוני שיחה.

{
  "conversation_info":{
    "categories":[
      {
        "display_name":"Category 1"
      }
    ]
  },
  "entries": [
    {
      "start_timestamp_usec": 1000000,
      "text": "Hello, I'm calling in regards to ...",
      "role": "CUSTOMER",
      "user_id": 1
    },
    {
      "start_timestamp_usec": 5000000,
      "text": "Yes, I can answer your question ...",
      "role": "AGENT",
      "user_id": 2
    },
    ...
  ]
}

העלאת שיחות ל-Cloud Storage

צריך לספק את נתוני השיחות שלכם בקטגוריה של Cloud Storage שנמצאת בפרויקט Google Cloud Platform שלכם. כשיוצרים את הקטגוריה:

  • חשוב לוודא שבחרתם את הפרויקט ב-Google Cloud Platform שבו אתם משתמשים ב-Dialogflow.
  • שימוש בסוג האחסון הרגיל.
  • מגדירים את מיקום הדלי למיקום הקרוב ביותר למיקום שלכם. תצטרכו את מזהה המיקום (לדוגמה, us-west1) כשמספקים את נתוני השיחה, לכן חשוב לשים לב לבחירה שלכם.
  • תצטרכו גם את שם ה-bucket כשמספקים את נתוני השיחות.

פועלים לפי ההוראות שבמדריך למתחילים בנושא Cloud Storage כדי ליצור קטגוריה ולהעלות קבצים.