יצירת מערך נתונים של שיחות

מערך נתונים של שיחות מכיל נתוני תמליל של שיחות, והוא משמש לאימון של מודל מותאם אישית של תשובה מהירה או סיכום. תשובה מהירה משתמשת בתמלילי השיחות כדי להציע תשובות טקסט לנציגים אנושיים שמנהלים שיחה עם משתמש קצה. מודלים מותאמים אישית לסיכום עוברים אימון על מערכי נתונים של שיחות שמכילים תמלילים ונתוני הערות. הם משתמשים בהערות כדי ליצור סיכומים של שיחות לסוכנים אנושיים אחרי שהשיחה מסתיימת.

יש שתי דרכים ליצור מערך נתונים: באמצעות תהליכי העבודה של הדרכה במסוף, או באמצעות יצירה ידנית של מערך נתונים במסוף באמצעות הכרטיסייה נתונים -> מערכי נתונים. מומלץ להשתמש במדריכים של המסוף כאפשרות ראשונה. כדי להשתמש במדריכים של המסוף, עוברים אל מסוף Agent Assist ולוחצים על הלחצן תחילת העבודה מתחת לתכונה שרוצים לבדוק.

בדף הזה מוסבר איך ליצור מערך נתונים באופן ידני.

לפני שמתחילים

  1. פועלים לפי ההוראות להגדרת Dialogflow כדי להפעיל את Dialogflow בפרויקט Google Cloud Platform.

  2. לפני שמתחילים את המדריך הזה, מומלץ לקרוא את הדף היסודות של Agent Assist.

  3. אם אתם מטמיעים תשובות חכמות באמצעות נתוני תמליל משלכם, חשוב לוודא שהתמלילים הם בפורמט JSON שצוין ומאוחסנים בקטגוריה של Google Cloud Storage. מערך נתונים של שיחות צריך להכיל לפחות 30,000 שיחות, אחרת אימון המודל ייכשל. ככלל, ככל שתנהלו יותר שיחות, כך איכות המודל תהיה טובה יותר. מומלץ להסיר שיחות עם פחות מ-20 הודעות או פחות מ-3 תורות שיחה (שינויים שבהם המשתתף משמיע אמירה). מומלץ גם להסיר הודעות מבוטים או הודעות שנוצרו אוטומטית על ידי מערכות (לדוגמה, 'הסוכן נכנס לחדר הצ'אט'). מומלץ להעלות נתונים של לפחות 3 חודשים של שיחות כדי להבטיח כיסוי של כמה שיותר תרחישי שימוש. מספר השיחות המקסימלי במערך נתונים של שיחות הוא 1,000,000.

  4. אם אתם מטמיעים סיכום באמצעות תמליל משלכם ונתוני הערות, חשוב לוודא שהתמלילים הם בפורמט שצוין ומאוחסנים בקטגוריה של Google Cloud Storage. המספר המינימלי המומלץ של אנוטציות לאימון הוא 1,000. מספר המינימום שמוגדר הוא 100.

  5. עוברים אל מסוף Agent Assist. בוחרים את הפרויקט ב-Google Cloud Platform ולוחצים על האפשרות Data (נתונים) בתפריט שבשוליים הימניים של הדף. בתפריט Data מוצגים כל הנתונים. יש שתי כרטיסיות, אחת למערכי נתונים של שיחות ואחת למאגרי ידע.

  6. לוחצים על הכרטיסייה conversation datasets (מערכי נתונים של שיחות) ואז על הלחצן +Create new (יצירת חדש) בפינה השמאלית העליונה של הדף conversation datasets.

יצירת מערך נתונים של שיחות

  1. מזינים שם ותיאור (אופציונלי) למערך הנתונים החדש. בשדה Conversation data, מזינים את ה-URI של דלי האחסון שמכיל את תמלילי השיחות. ב-Agent Assist יש תמיכה בשימוש בסימן * להתאמה של תווים כלליים לחיפוש. הפורמט של ה-URI צריך להיות:

    gs://<bucket name>/<object name>
    

    לדוגמה:

    gs://mydata/conversationjsons/conv0*.json
    gs://mydatabucket/test/conv.json
    
  2. לוחצים על יצירה. מערך הנתונים החדש יופיע עכשיו ברשימת מערכי הנתונים בדף התפריט נתונים בכרטיסייה מערכי נתונים של שיחות.

המאמרים הבאים

אימון מודל של תשובה חכמה או של סיכום על מערך נתונים אחד או יותר של שיחות באמצעות מסוף Agent Assist.