מבוא ללמידת מכונה ב-BigQuery
BigQuery ML מאפשר לכם ליצור ולהפעיל מודלים של למידת מכונה (ML) באמצעות שאילתות GoogleSQL או באמצעות מסוף Google Cloud . מודלים של BigQuery ML מאוחסנים במערכי נתונים של BigQuery, בדומה לטבלאות ולתצוגות מפורטות. בנוסף, BigQuery ML מאפשר לכם לגשת למודלים של Vertex AI ולממשקי Cloud AI כדי לבצע משימות של בינה מלאכותית (AI) כמו יצירת טקסט או תרגום מכונה. Gemini for Google Cloud מספק גם עזרה מבוססת-AI למשימות ב-BigQuery. רשימה של תכונות מבוססות-AI ב-BigQuery זמינה במאמר סקירה כללית על Gemini ב-BigQuery.
בדרך כלל, כדי להפעיל ML או AI על מערכי נתונים גדולים צריך ידע נרחב בתכנות ובמסגרות ML. הדרישות האלה מגבילות את פיתוח הפתרונות לקבוצה קטנה מאוד של אנשים בכל חברה, והן לא כוללות אנליסטים של נתונים שמבינים את הנתונים אבל יש להם ידע מוגבל ב-ML ומומחיות מוגבלת בתכנות. עם זאת, בעזרת BigQuery ML, משתמשי SQL יכולים להשתמש בכלים הקיימים ובמיומנויות של SQL שהם רכשו כדי ליצור ולבדוק מודלים, וגם כדי ליצור תוצאות מ-LLM ומממשקי Cloud AI API.
אפשר להשתמש ביכולות של BigQuery ML באמצעות:
- ממשק המשתמש של מסוף Google Cloud , כדי לעבוד עם מודלים באמצעות ממשק משתמש. (תצוגה מקדימה)
- Google Cloud עורך השאילתות במסוף, כדי לעבוד עם מודלים באמצעות שאילתות SQL.
- כלי שורת הפקודה של BigQuery
- BigQuery API בארכיטקטורת REST
- מחברות Colab Enterprise משולבות ב-BigQuery
- כלים חיצוניים כמו מחברת Jupyter או פלטפורמת בינה עסקית
היתרונות של BigQuery ML
ל-BigQuery ML יש כמה יתרונות בהשוואה לגישות אחרות לשימוש בלמידת מכונה (ML) או ב-AI עם מחסן נתונים בענן:
- BigQuery ML מאפשר לכל אחד להשתמש ב-ML וב-AI, ומעניק לנתחי נתונים, שהם המשתמשים העיקריים במחסן הנתונים, את האפשרות ליצור ולהפעיל מודלים באמצעות כלים קיימים של בינה עסקית וגיליונות אלקטרוניים. ניתוח נתונים לחיזוי יכול לעזור בקבלת החלטות עסקיות בכל רחבי הארגון.
- לא צריך לתכנת פתרון ML או AI באמצעות Python או Java. אתם יכולים לאמן מודלים ולגשת למשאבי AI באמצעות SQL – שפה שמנתחי נתונים מכירים.
BigQuery ML מגדיל את מהירות פיתוח המודלים והחדשנות על ידי הסרת הצורך להעביר נתונים ממחסן הנתונים. במקום זאת, BigQuery ML מביא את ה-ML אל הנתונים, מה שמציע את היתרונות הבאים:
- המורכבות פוחתת כי נדרשים פחות כלים.
- המהירות שבה אפשר להגיע למוצר מוגמר גבוהה יותר, כי לא צריך להעביר ולעצב כמויות גדולות של נתונים בשביל מסגרות למידת מכונה שמבוססות על Python כדי לאמן מודל ב-BigQuery.
למידע נוסף, אפשר לצפות בסרטון איך לפתח מודלים של למידת מכונה מהר יותר באמצעות BigQuery ML.
ידע מומלץ
באמצעות הגדרות ברירת המחדל בהצהרות CREATE MODEL ובפונקציות ההיקש, אפשר ליצור מודלים של BigQuery ML ולהשתמש בהם גם בלי ידע רב בלמידת מכונה. עם זאת, ידע בסיסי במחזור החיים של פיתוח ML, כמו הנדסת פיצ'רים (feature engineering) ואימון מודלים, עוזר לבצע אופטימיזציה של הנתונים ושל המודל כדי להשיג תוצאות טובות יותר. כדי להכיר את התהליכים והטכניקות של ML, מומלץ להיעזר במקורות המידע הבאים:
- קורס מקוצר על למידת מכונה
- מבוא ללמידת מכונה
- ניקוי נתונים
- Feature Engineering
- למידת מכונה ברמה בינונית
עבודה עם סדרות זמן
אתם יכולים להשתמש במודלים TimesFM, ARIMA_PLUS ו-ARIMA_PLUS_XREG כדי לבצע תחזיות וזיהוי חריגות בנתונים של סדרות זמנים.
ביצוע ניתוח הגורמים לאנומליות
אתם יכולים ליצור מודל של ניתוח תרומה כדי ליצור תובנות לגבי שינויים במדדי מפתח בנתונים הרב-ממדיים שלכם. לדוגמה, תוכלו לגלות אילו נתונים תרמו לשינוי בהכנסות.
מודלים נתמכים
מודל ב-BigQuery ML מייצג את מה שמערכת למידת מכונה למדה מנתוני אימון. בקטעים הבאים מתוארים סוגי המודלים שנתמכים ב-BigQuery ML. מידע נוסף על יצירת הקצאות של הזמנות לסוגים שונים של מודלים זמין במאמר הקצאת משבצות לעומסי עבודה של BigQuery ML.
מודלים שעברו אימון פנימי
המודלים הבאים מוטמעים ב-BigQuery ML:
- ניתוח התרומה נועד לקבוע את ההשפעה של מאפיין אחד או יותר על הערך של מדד נתון. לדוגמה, אפשר לראות את ההשפעה של המיקום של החנות ותאריך המכירה על ההכנסות מהחנות. מידע נוסף מופיע במאמר סקירה כללית על ניתוח תרומות.
- רגרסיה לינארית משמשת לחיזוי הערך של מדד מספרי עבור נתונים חדשים באמצעות מודל שאומן על נתונים דומים מרחוק. התוויות הן ערכים ממשיים, כלומר הן לא יכולות להיות אינסוף חיובי, אינסוף שלילי או NaN (לא מספר).
- רגרסיה לוגיסטית מתאימה לסיווג של שני ערכים אפשריים או יותר, למשל אם קלט הוא
low-value, medium-valueאוhigh-value. לכל תווית יכולים להיות עד 50 ערכים ייחודיים. - K-means clustering is for data segmentation. לדוגמה, המודל הזה מזהה פלחי לקוחות. K-means היא טכניקה של למידה לא מפוקחת, ולכן אימון המודל לא דורש תוויות או פיצול נתונים לאימון או להערכה.
- פירוק מטריצות משמש ליצירת מערכות להמלצות על מוצרים. אתם יכולים ליצור המלצות למוצרים על סמך היסטוריית ההתנהגות של הלקוחות, העסקאות ודירוגי המוצרים, ואז להשתמש בהמלצות האלה כדי ליצור חוויות לקוח מותאמות אישית.
- ניתוח רכיבים עיקריים (PCA) הוא תהליך של חישוב הרכיבים העיקריים ושימוש בהם כדי לבצע שינוי בסיס בנתונים. בדרך כלל משתמשים בשיטה הזו כדי לצמצם את המימדיות על ידי הקרנת כל נקודה על הגרף רק על כמה מהרכיבים העיקריים הראשונים, כדי לקבל נתונים במימד נמוך יותר תוך שמירה על כמה שיותר מהשונות של הנתונים.
האפשרות 'סדרות עיתיות' מיועדת לביצוע תחזיות של סדרות עיתיות ולזיהוי אנומליות. מודלים של סדרות זמן
ARIMA_PLUSו-ARIMA_PLUS_XREGמציעים כמה אפשרויות כוונון, ומטפלים באופן אוטומטי באנומליות, במגמות עונתיות ובחגים.אם אתם לא רוצים לנהל מודל משלכם לתחזית של סדרת זמנים, אתם יכולים להשתמש בפונקציה
AI.FORECASTעם מודל סדרת הזמנים TimesFM המובנה של BigQuery ML (גרסת Preview) כדי לבצע תחזית.
אתם יכולים לבצע הרצה יבשה על הצהרות CREATE MODEL של מודלים שאומנו באופן פנימי כדי לקבל הערכה של כמות הנתונים שהם יעבדו אם תפעילו אותם.
מודלים שעברו אימון חיצוני
המודלים הבאים הם חיצוניים ל-BigQuery ML ועברו אימון ב-Vertex AI:
- רשת נוירונים עמוקה (DNN) משמשת ליצירת רשתות נוירונים עמוקות שמבוססות על TensorFlow, עבור מודלים של סיווג ורגרסיה.
- Wide & Deep שימושי לבעיות כלליות של רגרסיה וסיווג בהיקף נרחב עם נתוני קלט דלילים (תכונות קטגוריות עם מספר גדול של ערכי תכונות אפשריים), כמו מערכות המלצה, חיפוש ודירוג.
- Autoencoder משמש ליצירת מודלים מבוססי TensorFlow עם תמיכה בייצוגים של נתונים דלילים. אפשר להשתמש במודלים ב-BigQuery ML למשימות כמו זיהוי אנומליות ללא פיקוח והפחתת ממדים לא לינארית.
- Boosted trees (עצים מחוזקים) משמש ליצירת מודלים של סיווג ורגרסיה שמבוססים על XGBoost.
- יער אקראי משמש לבניית עצי החלטה מרובים של שיטות למידה לצורך סיווג, רגרסיה ומשימות אחרות בזמן האימון.
- AutoML הוא שירות של למידת מכונה מפוקחת שיוצר ופורס מודלים של סיווג ורגרסיה על נתונים טבלאיים במהירות גבוהה ובקנה מידה גדול.
אי אפשר לבצע הרצה יבשה על הצהרות CREATE MODEL של מודלים שאומנו חיצונית כדי לקבל אומדן של כמות הנתונים שהם יעבדו אם תפעילו אותם.
מודלים מרחוק
אתם יכולים ליצור ב-BigQuery מודלים מרוחקים שמשתמשים במודלים שנפרסו ב-Vertex AI.
כדי להפנות למודל שנפרס, צריך לציין את נקודת הקצה של ה-HTTPS של המודל בהצהרת CREATE MODEL של המודל המרוחק.
הצהרות CREATE MODEL של מודלים מרוחקים לא מעבדות בייטים ולא כרוכות בחיובים ב-BigQuery.
מודלים מיובאים
בעזרת BigQuery ML אפשר לייבא מודלים מותאמים אישית שאומנו מחוץ ל-BigQuery, ואז לבצע חיזוי בתוך BigQuery. אפשר לייבא את המודלים הבאים ל-BigQuery מ-Cloud Storage:
- Open Neural Network Exchange (ONNX) הוא פורמט תקני פתוח לייצוג של מודלים של למידת מכונה. באמצעות ONNX, אפשר להפוך מודלים שאומנו באמצעות מסגרות פופולריות של למידת מכונה כמו PyTorch ו-scikit-learn לזמינים ב-BigQuery ML.
- TensorFlow היא ספריית תוכנה חינמית בקוד פתוח ללמידת מכונה ולבינה מלאכותית. אפשר להשתמש ב-TensorFlow למגוון רחב של משימות, אבל היא מתמקדת במיוחד באימון של רשתות נוירונים עמוקות ובמסקנות לגביהן. אפשר לטעון מודלים של TensorFlow שאומנו בעבר ל-BigQuery בתור מודלים של BigQuery ML, ואז לבצע חיזוי ב-BigQuery ML.
- TensorFlow Lite היא גרסה קלה של TensorFlow לפריסה במכשירים ניידים, במיקרו-בקרים ובמכשירי קצה אחרים. TensorFlow מבצע אופטימיזציה של מודלים קיימים של TensorFlow כדי להקטין את גודל המודל ולזרז את ההסקה.
- XGBoost היא ספרייה מבוזרת של שיטת חיזוק גרדיאנט שעברה אופטימיזציה. היא מתוכננת להיות יעילה, גמישה וניידת במיוחד. הוא מיישם אלגוריתמים של למידת מכונה במסגרת חיזוק הגרדיאנט.
הצהרות CREATE MODEL של מודלים מיובאים לא מעבדות בייטים ולא כרוכות בחיובים ב-BigQuery.
ב-BigQuery ML, אפשר להשתמש במודל עם נתונים מכמה מערכי נתונים ב-BigQuery לאימון ולחיזוי.
מדריך לבחירת מודל
הורדה של עץ ההחלטות לבחירת המודל
BigQuery ML ו-Vertex AI
BigQuery ML משולב עם Vertex AI, שהיא פלטפורמה מקצה לקצה ל-AI ול-ML ב- Google Cloud. אתם יכולים לרשום את המודלים של BigQuery ML במאגר המודלים כדי לפרוס אותם לנקודות קצה לצורך חיזוי אונליין. מידע נוסף:
- מידע נוסף על שימוש במודלים של BigQuery ML עם Vertex AI זמין במאמר ניהול מודלים של BigQuery ML באמצעות Vertex AI.
- אם אתם לא מכירים את Vertex AI ורוצים לקבל מידע נוסף על השילוב שלו עם BigQuery ML, תוכלו לעיין במאמר Vertex AI למשתמשי BigQuery.
- מומלץ לצפות בסרטון How to simplify AI models with Vertex AI and BigQuery ML (איך מפשטים מודלים של AI באמצעות Vertex AI ו-BigQuery ML).
BigQuery ML ו-Colab Enterprise
עכשיו אפשר להשתמש ב-notebooks של Colab Enterprise כדי לבצע תהליכי עבודה של ML ב-BigQuery. מחברות מאפשרות לכם להשתמש ב-SQL, ב-Python ובספריות ובשפות פופולריות אחרות כדי לבצע את משימות ה-ML שלכם. מידע נוסף זמין במאמר יצירת מחברות.
אזורים נתמכים
BigQuery ML נתמך באותם אזורים שבהם נתמך BigQuery. מידע נוסף זמין במאמר מיקומים ב-BigQuery ML.
תמחור
החיוב הוא על משאבי החישוב שבהם אתם משתמשים לאימון מודלים ולהרצת שאילתות על מודלים. סוג המודל שיוצרים משפיע על המקום שבו המודל מאומן ועל התמחור שחל על הפעולה הזו. שאילתות שמופעלות על מודלים תמיד מורצות ב-BigQuery, והן כפופות לתמחור של BigQuery Compute. מכיוון שמודלים מרוחקים מבצעים קריאות למודלים של Vertex AI, גם שאילתות שמופנות למודלים מרוחקים כרוכות בחיוב מ-Vertex AI.
החיוב על האחסון שבו נעשה שימוש במודלים מאומנים מתבצע לפי תמחור האחסון ב-BigQuery.
מידע נוסף זמין במאמר תמחור ב-BigQuery ML.
מכסות
בנוסף למגבלות הספציפיות ל-BigQuery ML, שאילתות שמשתמשות בפונקציות ובמשפטים של BigQuery ML כפופות למכסות ולמגבלות על עבודות שאילתה ב-BigQuery.CREATE MODEL
מגבלות
- BigQuery ML לא זמין במהדורת Standard.
המאמרים הבאים
- כדי להתחיל להשתמש ב-BigQuery ML, אפשר לעיין במאמר בנושא יצירת מודלים של למידת מכונה ב-BigQuery ML.
- מידע נוסף על למידת מכונה ו-BigQuery ML זמין במקורות המידע הבאים:
- מידע על MLOps עם מרשם המודלים זמין במאמר ניהול מודלים של BigQuery ML ב-Vertex AI.
מידע נוסף על פונקציות והצהרות SQL נתמכות לסוגים שונים של מודלים זמין במאמרים הבאים: