מבוא ללמידת מכונה ב-BigQuery

‫BigQuery ML מאפשר לכם ליצור ולהפעיל מודלים של למידת מכונה (ML) באמצעות שאילתות GoogleSQL או באמצעות מסוף Google Cloud . מודלים של BigQuery ML מאוחסנים במערכי נתונים של BigQuery, בדומה לטבלאות ולתצוגות מפורטות. בנוסף, BigQuery ML מאפשר לכם לגשת למודלים של Gemini Enterprise Agent Platform ולממשקי Cloud AI API כדי לבצע משימות של בינה מלאכותית (AI) כמו יצירת טקסט או תרגום מכונה. ‫Gemini for Google Cloud מספק גם עזרה מבוססת-AI למשימות ב-BigQuery. כדי לראות רשימה של תכונות מבוססות-AI ב-BigQuery, אפשר לעיין במאמר סקירה כללית על Gemini ב-BigQuery.

בדרך כלל, כדי להפעיל ML או AI על מערכי נתונים גדולים צריך ידע רב בתכנות ובמסגרות ML. הדרישות האלה מגבילות את פיתוח הפתרונות למספר קטן מאוד של אנשים בכל חברה, והן לא כוללות אנליסטים של נתונים שמבינים את הנתונים אבל יש להם ידע מוגבל ב-ML ומומחיות מוגבלת בתכנות. עם זאת, באמצעות BigQuery ML, משתמשי SQL יכולים להשתמש בכלים הקיימים ובמיומנויות של SQL שהם רכשו כדי ליצור ולבדוק מודלים, וכדי ליצור תוצאות ממודלים של LLM ומממשקי Cloud AI API.

אפשר להשתמש ביכולות של BigQuery ML באמצעות:

היתרונות של BigQuery ML

ל-BigQuery ML יש כמה יתרונות בהשוואה לגישות אחרות לשימוש ב-ML או ב-AI עם מחסן נתונים מבוסס-ענן:

  • ‫BigQuery ML מאפשר לנתח נתונים, שהם המשתמשים העיקריים במחסן הנתונים, ליצור ולהריץ מודלים באמצעות כלים קיימים של בינה עסקית וגיליונות אלקטרוניים, ובכך הופך את השימוש ב-ML וב-AI לנגיש יותר. ניתוח חיזוי יכול לעזור בקבלת החלטות עסקיות בכל רחבי הארגון.
  • אין צורך לתכנת פתרון ML או AI באמצעות Python או Java. אתם יכולים לאמן מודלים ולגשת למשאבי AI באמצעות SQL – שפה שמוכרת לנתוני ניתוח.
  • BigQuery ML מגדיל את מהירות פיתוח המודלים והחדשנות על ידי הסרת הצורך להעביר נתונים ממחסן הנתונים. במקום זאת, BigQuery ML מביא את ה-ML אל הנתונים, מה שמציע את היתרונות הבאים:

    • המורכבות פוחתת כי נדרשים פחות כלים.
    • המהירות שבה אפשר להגיע לייצור גדלה, כי לא צריך להעביר ולעצב כמויות גדולות של נתונים למסגרות ML מבוססות Python כדי לאמן מודל ב-BigQuery.

    למידע נוסף, אפשר לצפות בסרטון How to accelerate machine learning development with BigQuery ML (איך לפתח למידת מכונה מהר יותר באמצעות BigQuery ML).

באמצעות הגדרות ברירת המחדל בהצהרות CREATE MODEL ובפונקציות ההסקה, אפשר ליצור מודלים של BigQuery ML ולהשתמש בהם גם בלי ידע רב בלמידת מכונה. עם זאת, ידע בסיסי במחזור החיים של פיתוח ML, כמו הנדסת תכונות ואימון מודלים, יעזור לכם לבצע אופטימיזציה של הנתונים ושל המודל כדי להשיג תוצאות טובות יותר. כדי להכיר את הטכניקות והתהליכים של ML, מומלץ להשתמש במקורות המידע הבאים:

עבודה עם סדרות זמן

אתם יכולים להשתמש במודלים TimesFM,‏ ARIMA_PLUS ו-ARIMA_PLUS_XREG כדי לבצע תחזיות וזיהוי חריגות בנתונים של סדרות זמנים.

ביצוע ניתוח הגורמים לאנומליות

אתם יכולים ליצור מודל של ניתוח תרומה כדי להפיק תובנות לגבי שינויים במדדי מפתח בנתונים הרב-ממדיים שלכם. לדוגמה, תוכלו לגלות אילו נתונים תרמו לשינוי בהכנסות.

מודלים נתמכים

מודל ב-BigQuery ML מייצג את מה שמערכת למידת מכונה למדה מנתוני האימון. בקטעים הבאים מתוארים סוגי המודלים שנתמכים ב-BigQuery ML. מידע נוסף על יצירת הקצאות של הזמנות לסוגים שונים של מודלים זמין במאמר הקצאת משבצות לעומסי עבודה של BigQuery ML.

מודלים שעברו אימון פנימי

המודלים הבאים מוטמעים ב-BigQuery ML:

  • ניתוח התרומה נועד לקבוע את ההשפעה של מאפיין אחד או יותר על הערך של מדד נתון. לדוגמה, אפשר לראות את ההשפעה של מיקום החנות ותאריך המכירה על ההכנסות מהחנות. מידע נוסף מופיע במאמר סקירה כללית על ניתוח תרומות.
  • רגרסיה לינארית משמשת לחיזוי הערך של מדד מספרי עבור נתונים חדשים באמצעות מודל שאומן על נתונים דומים מרחוק. התוויות הן ערכים ממשיים, כלומר הן לא יכולות להיות אינסוף חיובי, אינסוף שלילי או NaN (לא מספר).
  • רגרסיה לוגיסטית מתאימה לסיווג של שני ערכים אפשריים או יותר, למשל אם קלט הוא low-value, ‏ medium-value או high-value. לכל תווית יכולים להיות עד 50 ערכים ייחודיים.
  • K-means clustering is for data segmentation. לדוגמה, המודל הזה מזהה פלחי לקוחות. ‫K-means היא טכניקה של למידה לא מפוקחת, ולכן אימון המודל לא דורש תוויות או פיצול נתונים לאימון או להערכה.
  • פירוק מטריצות משמש ליצירת מערכות להמלצות על מוצרים. אתם יכולים ליצור המלצות למוצרים על סמך היסטוריית ההתנהגות של הלקוחות, העסקאות ודירוגי המוצרים, ואז להשתמש בהמלצות האלה כדי ליצור חוויות לקוח מותאמות אישית.
  • ניתוח רכיבים עיקריים (PCA) הוא תהליך של חישוב הרכיבים העיקריים ושימוש בהם כדי לבצע שינוי בסיס בנתונים. בדרך כלל משתמשים בשיטה הזו כדי לצמצם את מספר הממדים. כל נקודה על הגרף מוקרנת רק על כמה מהרכיבים העיקריים הראשונים כדי לקבל נתונים עם פחות ממדים, תוך שמירה על כמה שיותר מהשונות של הנתונים.
  • האפשרות 'סדרת זמנים' מיועדת לביצוע חיזויים של סדרות זמנים ולזיהוי אנומליות. מודלים של סדרות זמן ARIMA_PLUS ו-ARIMA_PLUS_XREG מציעים כמה אפשרויות כוונון, ומטפלים באופן אוטומטי באנומליות, במגמות עונתיות ובחגים.

    אם אתם לא רוצים לנהל מודל משלכם לתחזית של סדרת זמנים, אתם יכולים להשתמש בפונקציה AI.FORECAST עם מודל TimesFM מובנה של סדרת זמנים ב-BigQuery ML (גרסת Preview) כדי לבצע תחזית.

אתם יכולים לבצע הרצה יבשה של הצהרות CREATE MODEL עבור מודלים שאומנו באופן פנימי, כדי לקבל הערכה לגבי כמות הנתונים שהם יעבדו אם תפעילו אותם.

מודלים שעברו אימון חיצוני

המודלים הבאים הם חיצוניים ל-BigQuery ML ועברו אימון ב-Agent Platform:

  • רשת נוירונים עמוקה (DNN) משמשת ליצירת רשתות נוירונים עמוקות שמבוססות על TensorFlow, עבור מודלים של סיווג ורגרסיה.
  • מודל Wide & Deep שימושי לבעיות כלליות של רגרסיה וסיווג בהיקף נרחב עם נתוני קלט דלילים (מאפיינים קטגוריים עם מספר גדול של ערכי מאפיינים אפשריים), כמו מערכות המלצה, חיפוש ודירוג.
  • Autoencoder משמש ליצירת מודלים מבוססי TensorFlow עם תמיכה בייצוגים של נתונים דלילים. אתם יכולים להשתמש במודלים ב-BigQuery ML למשימות כמו זיהוי אנומליות ללא פיקוח והפחתת ממדים לא לינארית.
  • Boosted trees משמש ליצירת מודלים של סיווג ורגרסיה שמבוססים על ‫XGBoost.
  • יער אקראי משמש לבניית עצי החלטה של שיטות למידה מרובות לצורך סיווג, רגרסיה ומשימות אחרות בזמן האימון.
  • AutoML הוא שירות של למידת מכונה מפוקחת (supervised ML) שיוצר ופורס מודלים של סיווג ורגרסיה בנתונים טבלאיים במהירות גבוהה ובקנה מידה גדול.

אי אפשר לבצע הרצה יבשה על הצהרות CREATE MODEL של מודלים שאומנו חיצונית כדי לקבל אומדן של כמות הנתונים שהם יעבדו אם תפעילו אותם.

מודלים מרוחקים

אתם יכולים ליצור מודלים מרוחקים ב-BigQuery שמשתמשים במודלים שנפרסו ב-Agent Platform. כדי להפנות למודל שנפרס, צריך לציין את נקודת הקצה של ה-HTTPS של המודל בהצהרת CREATE MODEL של המודל המרוחק.

הצהרות CREATE MODEL של מודלים מרוחקים לא מעבדות בייטים ולא כרוכות בחיובים ב-BigQuery.

מודלים מיובאים

בעזרת BigQuery ML אפשר לייבא מודלים מותאמים אישית שאומנו מחוץ ל-BigQuery, ואז לבצע חיזוי בתוך BigQuery. אפשר לייבא את המודלים הבאים ל-BigQuery מ-Cloud Storage:

  • Open Neural Network Exchange (ONNX) הוא פורמט תקני פתוח לייצוג של מודלים של למידת מכונה. באמצעות ONNX, אפשר להפוך מודלים שאומנו באמצעות מסגרות פופולריות של למידת מכונה כמו PyTorch ו-scikit-learn לזמינים ב-BigQuery ML.
  • TensorFlow היא ספריית תוכנה חינמית בקוד פתוח ללמידת מכונה ולבינה מלאכותית. אפשר להשתמש ב-TensorFlow למגוון משימות, אבל היא מתמקדת במיוחד באימון ובהסקת מסקנות של רשתות נוירונים עמוקות. אפשר לטעון מודלים של TensorFlow שאומנו בעבר ל-BigQuery בתור מודלים של BigQuery ML, ואז לבצע חיזוי ב-BigQuery ML.
  • TensorFlow Lite היא גרסה קלה של TensorFlow לפריסה במכשירים ניידים, במיקרו-בקרים ובמכשירי קצה אחרים. ‫TensorFlow מבצע אופטימיזציה של מודלים קיימים של TensorFlow כדי להקטין את גודל המודל ולזרז את ההסקה.
  • XGBoost היא ספריית חיזוק גרדיאנט מבוזרת שעברה אופטימיזציה, והיא יעילה, גמישה וניידת במיוחד. הוא מיישם אלגוריתמים של למידת מכונה במסגרת חיזוק הגרדיאנט.

הצהרות CREATE MODEL של מודלים מיובאים לא מעבדות בייטים ולא כרוכות בחיובים ב-BigQuery.

ב-BigQuery ML, אפשר להשתמש במודל עם נתונים מכמה מערכי נתונים של BigQuery לאימון ולחיזוי.

מדריך לבחירת מודל

עץ ההחלטות הזה ממפה מודלים של ML לפעולות שרוצים לבצע. הורדה של עץ ההחלטות לבחירת המודל

‫BigQuery ML ופלטפורמת הסוכנים

‫BigQuery ML משתלב עם Agent Platform, שהיא פלטפורמה מקצה לקצה ל-AI ול-ML ב- Google Cloud. אתם יכולים לרשום את המודלים של BigQuery ML במאגר המודלים כדי לפרוס אותם לנקודות קצה לצורך חיזוי אונליין. מידע נוסף:

‫BigQuery ML ו-Colab Enterprise

עכשיו אפשר להשתמש ב-notebooks של Colab Enterprise כדי לבצע תהליכי עבודה של ML ב-BigQuery. מחברות מאפשרות לכם להשתמש ב-SQL, ב-Python ובספריות ובשפות פופולריות אחרות כדי לבצע את משימות ה-ML שלכם. מידע נוסף זמין במאמר יצירת מחברות.

אזורים נתמכים

‫BigQuery ML נתמך באותם אזורים שבהם נתמך BigQuery. מידע נוסף זמין במאמר מיקומים ב-BigQuery ML.

תמחור

החיוב הוא על משאבי המחשוב שבהם אתם משתמשים לאימון מודלים ולהרצת שאילתות במודלים. סוג המודל שיוצרים משפיע על המקום שבו המודל מאומן ועל התמחור שחל על הפעולה הזו. שאילתות שמופעלות על מודלים תמיד מורצות ב-BigQuery, והן כפופות לתמחור של BigQuery Compute. מכיוון שמודלים מרוחקים מבצעים קריאות למודלים של Agent Platform, גם שאילתות שמופנות למודלים מרוחקים כרוכות בחיובים מ-Agent Platform.

החיוב על האחסון שבו נעשה שימוש במודלים מאומנים מתבצע לפי תמחור האחסון ב-BigQuery.

מידע נוסף זמין במאמר תמחור ב-BigQuery ML.

מכסות

בנוסף למגבלות הספציפיות ל-BigQuery ML, שאילתות שמשתמשות בפונקציות ובמשפטים של BigQuery ML כפופות למכסות ולמגבלות על עבודות שאילתה ב-BigQuery.CREATE MODEL

מגבלות

המאמרים הבאים