Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

מבוא לנתונים טבלאיים

בדף הזה מוצגות דרכים לעיבוד נתונים טבלאיים באמצעות AutoML. כדי להבין את ההבדלים העיקריים בין AutoML לבין אימון מותאם אישית, אפשר לעיין במאמר בנושא בחירת שיטת אימון.

תרחישים לדוגמה לשימוש בנתונים טבלאיים

נניח שאתם עובדים במחלקת השיווק של קמעונאי דיגיטלי. אתם והצוות שלכם יוצרים תוכנית אימייל בהתאמה אישית שמבוססת על פרסונות של לקוחות. יצרתם את דמויות הקונים, והאימיילים השיווקיים מוכנים לשליחה. עכשיו אתם צריכים ליצור מערכת שמסווגת את הלקוחות לכל דמות קונה על סמך העדפות הקניות והתנהגות ההוצאות שלהם, גם אם הם לקוחות חדשים. כדי למקסם את מעורבות הלקוח, כדאי גם לחזות את הרגלי ההוצאות שלהם כדי שתוכלו לבצע אופטימיזציה של מועדי שליחת האימיילים.
מבוא לטבלה

בתור קמעונאים דיגיטליים, יש לכם נתונים על הלקוחות ועל הרכישות שהם ביצעו. אבל מה לגבי לקוחות חדשים? בגישות מסורתיות אפשר לחשב את הערכים האלה עבור לקוחות קיימים עם היסטוריית רכישות ארוכה, אבל הגישות האלה לא מתאימות ללקוחות עם מעט נתונים היסטוריים. מה אם הייתם יכולים ליצור מערכת שתנבא את הערכים האלה ותגדיל את המהירות שבה אתם מציגים תוכניות שיווק בהתאמה אישית לכל הלקוחות שלכם?

למזלנו, למידת מכונה ו-Agent Platform ממוקמות היטב כדי לפתור את הבעיות האלה.

במדריך הזה מוסבר איך Agent Platform פועל עם מערכי נתונים ומודלים של AutoML, ומוצגים סוגי הבעיות ש-Agent Platform נועד לפתור.

איך פועלת Agent Platform?

Agent Platform משתמשת בלמידת מכונה מפוקחת כדי להשיג את התוצאה הרצויה. הפרטים הספציפיים של האלגוריתם ושיטות האימון משתנים בהתאם לסוג הנתונים ולתרחיש השימוש. יש הרבה תת-קטגוריות שונות של למידת מכונה שפותרות בעיות שונות ועובדות במסגרת אילוצים שונים.

מאמנים מודל למידת מכונה עם נתונים לדוגמה. פלטפורמת הסוכנים משתמשת בנתונים טבלאיים (מובְנים) כדי לאמן מודל למידת מכונה, במטרה להסיק מסקנות לגבי נתונים חדשים. עמודה אחת ממערך הנתונים, שנקראת היעד, היא מה שהמודל ילמד לחזות. חלק ממספר העמודות האחרות של הנתונים הן נתוני קלט (שנקראים תכונות) שהמודל ילמד מהם דפוסים. אתם יכולים להשתמש באותן תכונות קלט כדי ליצור כמה סוגים של מודלים, רק על ידי שינוי של עמודת היעד ואפשרויות ההדרכה. בדוגמה של שיווק באימייל, המשמעות היא שאפשר ליצור מודלים עם אותן תכונות קלט אבל עם מסקנות שונות לגבי היעד. מודל אחד יכול לחזות את פרסונת הלקוח (יעד קטגורי), מודל אחר יכול לחזות את ההוצאה החודשית שלו (יעד מספרי), ומודל נוסף יכול לחזות את הביקוש היומי למוצרים שלכם בשלושת החודשים הבאים (סדרה של יעדים מספריים).
איך פועלת טבלת AutoML

תהליך עבודה ב-Agent Platform

Agent Platform משתמשת בתהליך עבודה סטנדרטי של למידת מכונה:

איסוף הנתונים: קובעים אילו נתונים צריך לאימון ולבדיקה של המודל, בהתאם לתוצאה שרוצים להשיג.
הכנת הנתונים: מוודאים שהפורמט של הנתונים תקין ושהם מסומנים בצורה נכונה.
אימון: הגדרת פרמטרים ובניית המודל.
הערכה: בודקים את מדדי המודל.
פריסה וחיזוי: הופכים את המודל לזמין לשימוש.

לפני שמתחילים לאסוף את הנתונים, כדאי לחשוב על הבעיה שמנסים לפתור. ההגדרות האלה משפיעות על דרישות הנתונים.

תהליך הכנת נתונים

הערכת תרחיש השימוש

מתחילים עם הבעיה: מה התוצאה שרוצים להשיג?

איזה סוג נתונים יש בעמודת היעד? כמה נתונים זמינים לכם? בהתאם לתשובות שלכם, Agent Platform יוצרת את המודל הנדרש כדי לפתור את תרחיש השימוש שלכם:

מודלים של סיווג בינארי חוזים תוצאה בינארית (אחת משתי קטגוריות). משתמשים בסוג המודל הזה לשאלות שהתשובה עליהן היא כן או לא. לדוגמה, יכול להיות שתרצו ליצור מודל סיווג בינארי כדי לחזות אם לקוח ירכוש מינוי. באופן כללי, בעיה של סיווג בינארי דורשת פחות נתונים מאשר סוגים אחרים של מודלים.
מודלים של סיווג רב-מחלקתי חוזים מחלקה אחת מתוך שלוש מחלקות נפרדות או יותר. משתמשים בסוג המודל הזה לסיווג. לדוגמה, אם אתם קמעונאים, יכול להיות שתרצו לבנות מודל סיווג רב-מחלקתי כדי לפלח את הלקוחות לפי פרסונות שונות.
מודלים של רגרסיה חוזים ערך רציף. לדוגמה, אם אתם קמעונאים, יכול להיות שתרצו ליצור מודל רגרסיה כדי לחזות כמה לקוח יוציא בחודש הבא.
מודלים של חיזוי חוזים רצף של ערכים. לדוגמה, אם אתם קמעונאים, יכול להיות שתרצו לחזות את הביקוש היומי למוצרים שלכם ל-3 החודשים הבאים, כדי שתוכלו להכין מראש את מלאי המוצרים.

חיזוי נתונים טבלאיים שונה מסיווג ומנסיגה בשני היבטים מרכזיים:

בסיווג וברגרסיה, הערך החזוי של היעד תלוי רק בערכים של עמודות התכונות באותה שורה. בתחזיות, הערכים החזויים תלויים גם בערכי ההקשר של היעד והמאפיינים.
בבעיות של רגרסיה וסיווג, הפלט הוא ערך אחד. בבעיות של חיזוי, הפלט הוא רצף של ערכים.

איסוף הנתונים

אחרי שמגדירים את תרחיש השימוש, אוספים את הנתונים שמאפשרים ליצור את המודל הרצוי.

קבוצת נתונים לבדיקה אחרי שמגדירים את תרחיש השימוש, צריך לאסוף נתונים כדי לאמן את המודל. השגת נתונים והכנתם הם שלבים חשובים מאוד בבניית מודל של למידת מכונה. הנתונים שזמינים לכם קובעים את סוג הבעיות שתוכלו לפתור. כמה נתונים זמינים לך? האם הנתונים רלוונטיים לשאלות שאתם מנסים לענות עליהן? כשמבצעים איסוף של נתונים, חשוב לזכור את הנקודות הבאות.

בחירת ישויות רלוונטיות

תכונה היא מאפיין קלט שמשמש לאימון המודל. התכונות הן האופן שבו המודל מזהה דפוסים כדי להסיק מסקנות, ולכן הן צריכות להיות רלוונטיות לבעיה. לדוגמה, כדי ליצור מודל שמנבא אם עסקה בכרטיס אשראי היא שמקורה בתרמית או לא, צריך ליצור קבוצת נתונים שמכילה פרטי עסקה כמו הקונה, המפיץ, הסכום, התאריך והשעה והפריטים שנרכשו. תכונות מועילות אחרות יכולות להיות מידע היסטורי על הקונה והמוכר, ועל התדירות שבה הפריט שנרכש היה מעורב בהונאה. אילו תכונות נוספות עשויות להיות רלוונטיות?

נחזור לתרחיש לדוגמה מהמבוא בנושא שיווק באימייל בענף הקמעונאות. הנה כמה עמודות של מאפיינים שאולי תצטרכו:

רשימת פריטים שנרכשו (כולל מותגים, קטגוריות, מחירים והנחות)
מספר הפריטים שנרכשו (ביום האחרון, בשבוע האחרון, בחודש האחרון, בשנה האחרונה)
סכום הכסף שהוצא (ביום האחרון, בשבוע האחרון, בחודש האחרון, בשנה האחרונה)
לכל פריט, המספר הכולל שנמכר בכל יום
לכל פריט, סך המלאי בכל יום
אם אתם מריצים מבצע ליום מסוים
פרופיל דמוגרפי ידוע של קונה

הכללת מספיק נתונים

לכלול מספיק נתונים באופן כללי, ככל שיש לכם יותר דוגמאות לאימון, כך התוצאה טובה יותר. כמות נתוני הדוגמה הנדרשת משתנה בהתאם למורכבות הבעיה שאתם מנסים לפתור. לא תצטרכו כמות גדולה של נתונים כדי לקבל מודל מדויק של סיווג בינארי, בהשוואה למודל רב-סיווגי, כי קל יותר לחזות סיווג אחד מתוך שניים מאשר מתוך הרבה.

אין נוסחה מושלמת, אבל יש מינימום מומלץ של נתוני דוגמה:

בעיית סיווג: 50 שורות כפול מספר התכונות
בעיה בתחזיות:

‫5,000 שורות כפול מספר התכונות
‫10 ערכים ייחודיים בעמודת המזהה של סדרת הזמן כפול מספר התכונות

בעיית רגרסיה: 200 כפול מספר התכונות

תיעוד וריאציה

מערך הנתונים צריך לשקף את המגוון של תחום הבעיה. ככל שהמודל רואה יותר דוגמאות מגוונות במהלך האימון, כך הוא יכול להכליל בקלות רבה יותר דוגמאות חדשות או פחות נפוצות. תארו לעצמכם שהמודל הקמעונאי שלכם אומן רק באמצעות נתוני רכישות מהחורף. האם הוא יוכל לחזות בהצלחה את ההעדפות או את התנהגויות הרכישה של בגדי קיץ?

הכנת הנתונים

הכנת נתונים אחרי שמזהים את הנתונים הזמינים, צריך לוודא שהם מוכנים לאימון. אם הנתונים מוטים או מכילים ערכים חסרים או שגויים, זה משפיע על איכות המודל. לפני שמתחילים לאמן את המודל, כדאי לשקול את הנקודות הבאות. מידע נוסף

מניעת דליפת נתונים ו-training-serving skew

זליגת נתונים מתרחשת כשמשתמשים בתכונות קלט במהלך האימון ש "מזליגות" מידע על היעד שמנסים לחזות, שלא זמין כשהמודל מופעל בפועל. אפשר לזהות את זה כשכוללים כמאפיין קלט תכונה שיש לה קורלציה גבוהה עם עמודת היעד. לדוגמה, אם אתם בונים מודל לחיזוי אם לקוח יירשם למינוי בחודש הבא, ואחד ממאפייני הקלט הוא תשלום עתידי על מינוי מאותו לקוח. הדבר עלול להוביל לביצועים טובים של המודל במהלך הבדיקות, אבל לא כשהוא נפרס בסביבת הייצור, כי פרטי התשלום של המינוי העתידי לא זמינים בזמן הצגת המודל.

training-serving skew הוא מצב שבו תכונות הקלט שמשמשות בזמן האימון שונות מאלה שמועברות למודל בזמן ההצגה, וכתוצאה מכך איכות המודל בסביבת הייצור נמוכה. לדוגמה, בניית מודל לחיזוי טמפרטורות לפי שעה, אבל אימון המודל עם נתונים שמכילים רק טמפרטורות שבועיות. דוגמה נוספת: תמיד מספקים את הציונים של התלמיד בנתוני האימון כשמנסים לחזות נשירה של תלמיד, אבל לא מספקים את המידע הזה בזמן ההצגה.

חשוב להבין את נתוני האימון כדי למנוע דליפת נתונים ו-training-serving skew:

לפני שמשתמשים בנתונים, חשוב להבין מה המשמעות שלהם ולקבוע אם כדאי להשתמש בהם כמאפיין
בודקים את המתאם בכרטיסייה Train (אימון). צריך לסמן מתאמים גבוהים לבדיקה.
הטיה בין אימון להצגה: מוודאים שאתם מספקים למודל רק תכונות קלט שזמינות בדיוק באותו פורמט בזמן ההצגה.

ניקוי נתונים חסרים, חלקיים ולא עקביים

בנתונים לדוגמה, בדרך כלל יש ערכים חסרים ולא מדויקים. כדאי להקדיש זמן לבדיקה ולשיפור של איכות הנתונים לפני שמשתמשים בהם לאימון. ככל שיש יותר ערכים חסרים, כך הנתונים פחות שימושיים לאימון של מודל למידת מכונה.

בודקים אם חסרים ערכים בנתונים ומתקנים אותם אם אפשר, או משאירים את הערך ריק אם העמודה מוגדרת כעמודה שיכולה להכיל ערך null. Agent Platform יכולה לטפל בערכים חסרים, אבל סביר יותר שתקבלו תוצאות אופטימליות אם כל הערכים יהיו זמינים.
לצורך חיזוי, צריך לוודא שהמרווח בין שורות האימון עקבי. Agent Platform יכולה להזין ערכים חסרים, אבל סביר יותר שתקבלו תוצאות אופטימליות אם כל השורות יהיו זמינות.
מנקים את הנתונים על ידי תיקון או מחיקה של שגיאות או רעשי רקע בנתונים. מוודאים שהנתונים עקביים: בודקים את האיות, הקיצורים והפורמט.

ניתוח הנתונים אחרי הייבוא

אחרי הייבוא של מערך הנתונים, Agent Platform מספקת סקירה כללית שלו. בודקים את קבוצת הנתונים המיובאת כדי לוודא שלכל עמודה הוקצה סוג המשתנה הנכון. Agent Platform תזהה אוטומטית את סוג המשתנה על סמך ערכי העמודות, אבל מומלץ לבדוק כל אחד מהם. כדאי גם לבדוק את מאפיין המציין אם ערך יכול להיות ריק (nullability) של כל עמודה, שקובעת אם עמודה יכולה להכיל ערכים חסרים או ערכי null.

אימון מודל

אחרי שמייבאים את מערך הנתונים, השלב הבא הוא לאמן מודל. Agent Platform תייצר מודל מהימן של למידת מכונה עם הגדרות ברירת המחדל של האימון, אבל יכול להיות שתרצו לשנות חלק מהפרמטרים בהתאם לתרחיש השימוש שלכם.

כדאי לבחור כמה שיותר עמודות של מאפיינים לאימון, אבל חשוב לבדוק כל אחת מהן כדי לוודא שהיא מתאימה לאימון. חשוב לזכור את הנקודות הבאות כשבוחרים תכונות:

לא כדאי לבחור עמודות של תכונות שייצרו רעשי רקע, כמו עמודות של מזהים שהוקצו באופן אקראי עם ערך ייחודי לכל שורה.
חשוב להבין כל עמודה של מאפיין ואת הערכים שלה.
אם יוצרים כמה מודלים ממערך נתונים אחד, צריך להסיר עמודות יעד שלא קשורות לבעיית ההסקה הנוכחית.
נזכרים בעקרונות ההוגנות: האם אתם מאמנים את המודל באמצעות תכונה שעלולה להוביל לקבלת החלטות מוטה או לא הוגנת לגבי קבוצות מוחלשות?

איך Agent Platform משתמשת במערך הנתונים שלכם

קבוצת הנתונים תחולק לקבוצות אימון, אימות ובדיקה. החלוקה שמוגדרת כברירת מחדל ב-Agent Platform תלויה בסוג המודל שמאמנים. אפשר גם לציין את החלוקות (חלוקות ידניות) אם יש צורך בכך. מידע נוסף זמין במאמר מידע על חלוקת נתונים למודלים של AutoML. קבוצות נתונים לאימון, לאימות ולבדיקה

קבוצת נתונים לאימון

רוב הנתונים צריכים להיות בקבוצת נתונים לאימון. אלה הנתונים שהמודל 'רואה' במהלך האימון: הם משמשים ללימוד הפרמטרים של המודל, כלומר המשקלים של הקשרים בין הצמתים של הרשת הנוירונית.

קבוצת נתונים לתיקוף

קבוצת נתונים לתיקוף, שנקראת לפעמים גם קבוצת הפיתוח, משמשת גם במהלך תהליך האימון. אחרי שמסגרת הלמידה של המודל משלבת נתוני אימון במהלך כל איטרציה של תהליך האימון, היא משתמשת בביצועים של המודל במערך האימות כדי לכוונן את ההיפרפרמטרים של המודל, שהם משתנים שמציינים את המבנה של המודל. אם ניסיתם להשתמש בקבוצת נתונים לאימון כדי לכוונן את ההיפרפרמטרים, סביר להניח שהמודל יתמקד יתר על המידה בנתונים לאימון, ויתקשה להכליל דוגמאות שלא תואמות לו בדיוק. שימוש במערך נתונים חדש יחסית לצורך כוונון עדין של מבנה המודל, מאפשר למודל לבצע הכללה טובה יותר.

קבוצת נתונים לבדיקה

קבוצת הנתונים לבדיקה לא מעורבת בתהליך האימון בכלל. אחרי שהמודל סיים את האימון שלו, Agent Platform משתמש בקבוצת הנתונים לבדיקה כאתגר חדש לגמרי עבור המודל. הביצועים של המודל שלכם בקבוצת נתונים לבדיקה אמורים לתת לכם מושג די טוב לגבי הביצועים של המודל שלכם בנתונים מהעולם האמיתי.

הערכה, בדיקה ופריסה של המודל

הערכת המודל

הערכת מודל אחרי אימון המודל, תקבלו סיכום של הביצועים שלו. מדדי הערכת המודל מבוססים על הביצועים של המודל בהשוואה לפלח של מערך הנתונים (מערך הנתונים של הבדיקה). יש כמה מדדים ומושגים מרכזיים שכדאי להביא בחשבון כשקובעים אם המודל מוכן לשימוש עם נתונים אמיתיים.

מדדי סיווג

סף הניקוד

נניח שיש מודל למידת מכונה שמנבא אם לקוח יקנה מעיל בשנה הבאה. מה רמת הוודאות שנדרשת מהמודל כדי לחזות שלקוח מסוים יקנה מעיל? במודלים של סיווג, לכל מסקנה מוקצה ציון מהימנות – הערכה מספרית של מידת הוודאות של המודל לגבי נכונות הסיווג. סף הציון הוא המספר שקובע מתי ציון מסוים מומר להחלטה חיובית או שלילית. כלומר, זה הערך שבו המודל קובע: "כן, ציון רמת הביטחון הזה גבוה מספיק כדי להסיק שהלקוח הזה ירכוש מעיל בשנה הקרובה".
הערכת ערכי סף

אם ערך הסף של הציון נמוך, קיים סיכון שהמודל יבצע סיווג שגוי. לכן, ערך הסף של הניקוד צריך להתבסס על תרחיש שימוש נתון.

תוצאות של הסקה

אחרי שמחילים את ערך הסף של הניקוד, ההסקות שהמודל מבצע ישתייכו לאחת מארבע קטגוריות. כדי להבין את הקטגוריות האלה, נחזור לדוגמה של מודל סיווג בינארי של מעיל. בדוגמה הזו, הסיווג החיובי (מה שהמודל מנסה לחזות) הוא שהלקוח ירכוש מעיל בשנה הקרובה.

חיובי אמיתי: המודל חוזה נכון את המחלקה החיובית. המודל חזה בצורה נכונה שלקוח רכש מעיל.
תוצאה חיובית שגויה: המודל חוזה באופן שגוי את המחלקה החיובית. המודל חזה שלקוח רכש מעיל, אבל הוא לא רכש.
שלילי אמיתי: המודל חוזה נכון את המחלקה השלילית. המודל חזה בצורה נכונה שלקוח לא רכש מעיל.
שלילי שגוי: המודל חוזה באופן שגוי מחלקה שלילית. המודל חזה שלקוח לא ירכוש מעיל, אבל הוא כן רכש.

תוצאות של תחזיות

דיוק וזיכרון

מדדי הדיוק וההחזרה עוזרים להבין באיזו מידה המודל מצליח ללכוד מידע ומה הוא משמיט. מידע נוסף על דיוק ועל היקף החיפוש

דיוק הוא החלק מתוך ההסקות החיוביות שהיו נכונות. מתוך כל ההסקות לגבי רכישה של לקוח, מהו החלק שהיה רכישות בפועל?
היזכרות היא החלק היחסי של השורות עם התווית הזו שהמודל חזה בצורה נכונה. מתוך כל הרכישות של הלקוחות שאפשר היה לזהות, כמה אחוזים זוהו?

בהתאם לתרחיש השימוש, יכול להיות שתצטרכו לבצע אופטימיזציה לדיוק או לריקול.

מדדים אחרים של סיווג

AUC PR: השטח מתחת לעקומת הדיוק וההחזרה (PR). הערך הזה נע בין אפס לאחד, כאשר ערך גבוה יותר מציין מודל באיכות גבוהה יותר.
AUC ROC: השטח מתחת לעקומת מאפייני ההפעלה של המקלט (ROC). הערך נע בין אפס לאחד, וככל שהערך גבוה יותר, המודל איכותי יותר.
דיוק: החלק היחסי של מסקנות הסיווג שהופקו על ידי המודל שהיו נכונות.
הפסד לוגריתמי: האנטרופיה הצולבת בין ההסקות של המודל לבין ערכי היעד. הטווח נע בין אפס לאינסוף, כאשר ערך נמוך יותר מציין מודל באיכות גבוהה יותר.
ציון F1: הממוצע ההרמוני של הדיוק וההחזרה. המדד F1 שימושי אם אתם מחפשים איזון בין דיוק לבין היזכרות, ויש התפלגות לא אחידה של מחלקות.

מדדים של תחזיות ורגרסיה

אחרי שהמודל נוצר, Agent Platform מספקת מגוון של מדדים סטנדרטיים לבדיקה. אין תשובה מושלמת לשאלה איך להעריך את המודל. כדאי לשקול את מדדי ההערכה בהקשר של סוג הבעיה ושל המטרות שרוצים להשיג באמצעות המודל. הרשימה הבאה היא סקירה כללית של חלק מהמדדים ש-Agent Platform יכול לספק.

שגיאה ממוצעת מוחלטת (MAE)

‫MAE הוא ההפרש המוחלט הממוצע בין ערכי היעד לבין הערכים החזויים. המדד הזה מודד את הגודל הממוצע של השגיאות – ההפרש בין ערך היעד לבין הערך החזוי – בקבוצה של מסקנות. בנוסף, מכיוון שהפונקציה משתמשת בערכים מוחלטים, היא לא מתייחסת לכיוון הקשר ולא מציינת ביצועים נמוכים או גבוהים מדי. כשמעריכים את MAE, ערך קטן יותר מצביע על מודל באיכות גבוהה יותר (0 מייצג מודל חיזוי מושלם).

שורש טעות ריבועית ממוצעת (RMSE)

ה-RMSE הוא השורש הריבועי של ההפרש הממוצע בריבוע בין ערכי היעד לבין הערכים החזויים. המדד RMSE רגיש יותר לערכים חריגים מהמדד MAE, ולכן אם אתם חוששים משגיאות גדולות, כדאי להשתמש במדד RMSE כדי להעריך את השגיאות. בדומה ל-MAE, ערך קטן יותר מציין מודל באיכות גבוהה יותר (0 מייצג מודל חיזוי מושלם).

שורש טעות ריבועית ממוצעת לוגריתמית (RMSLE)

‫RMSLE הוא RMSE בקנה מידה לוגריתמי. המדד RMSLE רגיש יותר לשגיאות יחסיות מאשר לשגיאות מוחלטות, וחשוב לו יותר להעריך ביצועים נמוכים מדי מאשר ביצועים גבוהים מדי.

כמות חלוקה שנצפתה (חיזוי בלבד)

עבור קוונטיל יעד נתון, הקוונטיל שנצפה מציג את החלק בפועל של הערכים שנצפו מתחת לערכי ההסקה של הקוונטיל שצוין. הכמותון שנצפה מראה עד כמה המודל קרוב לכמותון היעד. הבדל קטן יותר בין שני הערכים מצביע על מודל באיכות גבוהה יותר.

‪ Scaled pinball loss (forecasting only)

מדד לאיכות של מודל בקוונטיל יעד נתון. מספר נמוך יותר מציין מודל באיכות גבוהה יותר. אפשר להשוות את מדד ההפסד של פינבול בקנה מידה שונה באחוזונים שונים כדי לקבוע את הדיוק היחסי של המודל בין האחוזונים השונים האלה.

בדיקת המודל

הדרך העיקרית לקבוע אם המודל מוכן לפריסה היא להעריך את מדדי המודל, אבל אפשר גם לבדוק אותו באמצעות נתונים חדשים. מעלים נתונים חדשים כדי לבדוק אם ההסקות של המודל תואמות לציפיות שלכם. על סמך מדדי ההערכה או הבדיקה עם נתונים חדשים, יכול להיות שתצטרכו להמשיך לשפר את הביצועים של המודל.

פריסת המודל

כשמרוצים מהביצועים של המודל, אפשר להשתמש בו. יכול להיות שהמשמעות היא שימוש בהיקף ייצור, או שאולי מדובר בבקשת הסקה חד-פעמית. בהתאם לתרחיש לדוגמה שלכם, תוכלו להשתמש במודל בדרכים שונות.

היסק באצווה

הסקת מסקנות באצווה שימושית כשרוצים להגיש הרבה בקשות להסקת מסקנות בבת אחת. הסקת מסקנות באצווה היא אסינכרונית, כלומר המודל ימתין עד שיעבד את כל בקשות הסקת המסקנות לפני שיחזיר קובץ CSV או טבלת BigQuery עם ערכי הסקת המסקנות.

היקש אונליין

פורסים את המודל כדי שיהיה זמין לבקשות הסקה באמצעות API בארכיטקטורת REST. הסקת מסקנות אונליין היא סינכרונית (בזמן אמת), כלומר היא תחזיר במהירות מסקנה, אבל היא מקבלת רק בקשת מסקנה אחת לכל קריאה ל-API. הסקת מסקנות אונליין שימושית אם המודל שלכם הוא חלק מאפליקציה וחלקים מהמערכת שלכם תלויים בהסקת מסקנות מהירה.

הסרת המשאבים

כדי להימנע מחיובים לא רצויים, מומלץ לבטל את הפריסה של המודל כשלא משתמשים בו.

אחרי שמסיימים להשתמש במודל, מומלץ למחוק את המשאבים שיצרתם כדי להימנע מחיובים לא רצויים בחשבון.