עיבוד מקדים ידני של תכונות

אפשר להשתמש בסעיף TRANSFORM של הצהרת CREATE MODEL בשילוב עם פונקציות ידניות של עיבוד מקדים כדי להגדיר עיבוד מקדים של נתונים בהתאמה אישית. אפשר גם להשתמש בפונקציות האלה של עיבוד מקדים ידני מחוץ לסעיף TRANSFORM.

אם רוצים להפריד בין עיבוד מקדים של נתונים לבין אימון מודלים, אפשר ליצור מודל לביצוע טרנספורמציות בלבד שרק מבצע טרנספורמציות של נתונים באמצעות פסוקית TRANSFORM.

אתם יכולים להשתמש בפונקציה ML.TRANSFORM כדי להגביר את השקיפות של העיבוד המקדים של התכונות. הפונקציה הזו מאפשרת להחזיר את הנתונים שעברו עיבוד מראש מסעיף TRANSFORM של מודל, כדי שתוכלו לראות את נתוני האימון בפועל שמשמשים לאימון המודל, וגם את נתוני החיזוי בפועל שמשמשים להצגת המודל.

במאמר סקירה כללית על עיבוד מקדים של תכונות מוסבר על התמיכה בעיבוד מקדים של תכונות ב-BigQuery ML.

סוגים של פונקציות לעיבוד מקדים

יש כמה סוגים של פונקציות לעיבוד מראש:

  • פונקציות סקלריות פועלות על שורה אחת. לדוגמה, ML.BUCKETIZE.
  • פונקציות שמחזירות טבלה פועלות על כל השורות ומחזירות טבלה. לדוגמה, ML.FEATURES_AT_TIME.
  • פונקציות אנליטיות פועלות על כל השורות, ומחזירות את התוצאה לכל שורה על סמך הנתונים הסטטיסטיים שנאספו בכל השורות. לדוגמה, ML.QUANTILE_BUCKETIZE.

    חובה להשתמש תמיד בסעיף OVER() ריק עם פונקציות ניתוח ML.

    כשמשתמשים בפונקציות אנליטיות של ML בתוךTRANSFORM פסקה במהלך האימון, אותם נתונים סטטיסטיים מוחלים באופן אוטומטי על הקלט בתחזית.

בקטעים הבאים מפורטות הפונקציות הזמינות לעיבוד מקדים.

פונקציות כלליות

כדי לנקות את הנתונים, משתמשים בפונקציה הבאה בביטויים מספריים או במחרוזות:

פונקציות מספריות

אפשר להשתמש בפונקציות הבאות בביטויים מספריים כדי לבצע רגולריזציה של הנתונים:

פונקציות קטגוריות

אפשר להשתמש בפונקציות הבאות כדי לסווג נתונים לקטגוריות:

פונקציות טקסט

אפשר להשתמש בפונקציות הבאות בביטויים של מחרוזות טקסט:

פונקציות של תמונות

אפשר להשתמש בפונקציות הבאות על נתוני תמונות:

מגבלות ידועות

המאמרים הבאים

מידע נוסף על פונקציות והצהרות SQL נתמכות עבור מודלים שתומכים בעיבוד מקדים ידני של מאפיינים זמין במסמכים הבאים: