עיבוד מקדים ידני של תכונות

אפשר להשתמש בסעיף TRANSFORM של הצהרת CREATE MODEL בשילוב עם פונקציות של עיבוד מקדים ידני כדי להגדיר עיבוד מקדים של נתונים בהתאמה אישית. אפשר גם להשתמש בפונקציות האלה של עיבוד מקדים ידני מחוץ לסעיף TRANSFORM.

אם רוצים להפריד בין עיבוד מקדים של נתונים לבין אימון מודל, אפשר ליצור מודל לביצוע טרנספורמציות בלבד שמבצע רק טרנספורמציות של נתונים באמצעות פסוקית TRANSFORM.

אפשר להשתמש בפונקציה ML.TRANSFORM כדי להגביר את השקיפות של העיבוד המקדים של התכונות. הפונקציה הזו מאפשרת להחזיר את הנתונים שעברו עיבוד מראש מסעיף TRANSFORM של מודל, כדי שתוכלו לראות את נתוני האימון בפועל שמשמשים לאימון המודל, וגם את נתוני החיזוי בפועל שמשמשים להצגת המודל.

מידע על תמיכה בעיבוד מקדים של תכונות ב-BigQuery ML זמין במאמר סקירה כללית על עיבוד מקדים של תכונות.

סוגים של פונקציות לעיבוד מראש

יש כמה סוגים של פונקציות לעיבוד מראש:

  • פונקציות סקלריות פועלות על שורה אחת. לדוגמה, ML.BUCKETIZE.
  • פונקציות שמחזירות טבלה פועלות על כל השורות ומחזירות טבלה. לדוגמה, ML.FEATURES_AT_TIME.
  • פונקציות אנליטיות פועלות על כל השורות ומחזירות את התוצאה לכל שורה על סמך הנתונים הסטטיסטיים שנאספו בכל השורות. לדוגמה, ML.QUANTILE_BUCKETIZE.

    חובה להשתמש תמיד בסעיף OVER() ריק עם פונקציות ניתוח ML.

    כשמשתמשים בפונקציות אנליטיות של ML בתוך פסקה TRANSFORM במהלך האימון, אותם נתונים סטטיסטיים מוחלים באופן אוטומטי על הקלט בתחזית.

בקטעים הבאים מפורטות הפונקציות הזמינות לעיבוד מקדים.

פונקציות כלליות

כדי לנקות את הנתונים, משתמשים בפונקציה הבאה בביטויים מספריים או במחרוזות:

פונקציות מספריות

אפשר להשתמש בפונקציות הבאות בביטויים מספריים כדי לבצע רגולריזציה של הנתונים:

פונקציות קטגוריות

אפשר להשתמש בפונקציות הבאות על נתונים שמחולקים לקטגוריות:

פונקציות טקסט

אפשר להשתמש בפונקציות הבאות בביטויים של מחרוזות טקסט:

פונקציות שקשורות לתמונות

אפשר להשתמש בפונקציות הבאות על נתוני תמונות:

מגבלות ידועות

המאמרים הבאים

מידע נוסף על פונקציות והצהרות SQL נתמכות עבור מודלים שתומכים בעיבוד מקדים ידני של תכונות זמין במסמכים הבאים: