אם מגדירים חלוקה למחיצות וסידור באשכולות ביעד BigQuery, אפשר לשפר את ביצועי השאילתות ולשלוט בעלויות. חלוקה למחיצות וסידור באשכולות מאפשרים לצמצם את כמות הנתונים ש-BigQuery צריך לסרוק במהלך ביצוע השאילתה.
חלוקת טבלה למחיצות
חלוקת טבלה למחיצות מחלקת את הטבלה לפלחים שנקראים מחיצות, וכך קל יותר לנהל את הנתונים ולבצע עליהם שאילתות. כדי לחלק טבלאות למחיצות, מציינים עמודת מחיצה שמשמשת לפילוח הטבלה.
Datastream תומך בשלושה סוגים של חלוקה למחיצות בטבלאות BigQuery:
חלוקה למחיצות לפי זמן ההטמעה: אפשר לחלק טבלה למחיצות לפי הזמן שבו Datastream מטמיע את הנתונים ב-BigQuery. אפשר לבחור רמת פירוט לפי שעה, יום, חודש או שנה לחלוקה למחיצות לפי זמן ההוספה. רמת הפירוט שמוגדרת כברירת מחדל היא 'יומית'.
חלוקה למחיצות לפי יחידת זמן: אפשר לחלק טבלה למחיצות על סמך עמודת מקור עם סוג נתונים ש-Datastream ממפה לאחד מסוגי הנתונים הבאים ב-BigQuery:
DATE,DATETIMEאוTIMESTAMP. מידע על מיפוי של סוגי נתונים ממקור לסוגי נתונים ב-BigQuery זמין במאמר מיפוי של סוגי נתונים ב-BigQuery.בהתאם לסוג הנתונים ב-BigQuery שאליו ממופה עמודת המקור, אפשר לבחור אחד מסוגי הגרנולריות הבאים:
-
DAY,MONTH,YEAR: עבור סוג הנתוניםDATE.
HOUR,DAY,MONTH,YEAR: עבור סוגי הנתוניםDATETIMEו-TIMESTAMP.
-
חלוקה למחיצות לפי טווח מספרים שלמים: אפשר לחלק טבלה למחיצות לפי עמודת מקור עם סוג נתונים ש-Datastream ממפה לסוג הנתונים
INTEGERב-BigQuery. תצטרכו לספק את הפרטים הבאים:- התחלה: ערך ההתחלה של טווח המחיצה הראשון (כולל).
- סיום: ערך הסיום של טווח המחיצה האחרון (לא כולל).
- מרווח: רוחב הטווח של כל מחיצה.
מידע נוסף זמין במאמר בנושא חלוקה למחיצות של טווח מספרים שלמים.
מידע על הגדרת חלוקה למחיצות של מקור הנתונים מופיע במאמר בנושא הגדרת מידע על מסד נתוני המקור של מקור הנתונים.
קיבוץ טבלאות
האשכולות ממיינים את הנתונים בטבלה על סמך הערכים בעמודות האשכולות, וממקמים נתונים עם ערכים דומים באותו מקום. שאילתות שמסננות לפי העמודות המקובצות סורקות רק את בלוקי הנתונים הרלוונטיים במקום את כל הטבלה או את מחיצת הטבלה. כך אפשר לשפר את ביצועי השאילתות ולהפחית את העלויות שלהן.
אפשר ליצור אשכולות בטבלאות BigQuery לפי עד ארבע עמודות. הסדר שבו מציינים את העמודות קובע את סדר המיון של הנתונים.
אפשר ליצור אשכולות בטבלה על סמך עמודת מקור מסוג נתונים ש-Datastream ממפה לאחד מסוגי הנתונים הבאים ב-BigQuery:
BIGNUMERICBOOLEANDATEDATETIMEGEOGRAPHYINT64NUMERICRANGESTRINGTIMESTAMP
מידע על מיפוי סוגי נתונים ממקורות ל-BigQuery זמין במאמר בנושא מיפוי סוגי נתונים ב-BigQuery.
מידע על הגדרת אשכולות לזרם זמין במאמר בנושא הגדרת מידע על מסד הנתונים של המקור לזרם.
מגבלות
מידע על מגבלות החלוקה למחיצות ב-BigQuery מופיע במאמר מבוא לטבלאות מחולקות למחיצות.
מידע על מגבלות של יצירת אשכולות ב-BigQuery זמין במאמר מבוא לטבלאות עם אשכולים.
במאמר מכסות ומגבלות מפורטות מגבלות המכסות שחלות על טבלאות מחולקות למחיצות ב-BigQuery.
בנוסף, המגבלות הבאות חלות כשמשתמשים ב-Datastream:
- חלוקה למחיצות וסידור באשכולות מתבצעים רק כש-Datastream יוצר טבלה חדשה ב-BigQuery. אם רוצים להגדיר או לשנות הגדרות של חלוקה למחיצות ושל אשכולות בטבלה שכבר קיימת, צריך קודם למחוק אותה מ-BigQuery, ואז להגדיר או לשנות את ההגדרות שלה ב-Datastream.
- במקורות MongoDB, אפשר לבצע חלוקה של הטבלאות רק לפי זמן ההטמעה.
- אין תמיכה באשכולות במסדי נתונים של MongoDB.
המאמרים הבאים
- מידע נוסף על חלוקה למחיצות ב-BigQuery זמין במאמרים מבוא לטבלאות מחולקות למחיצות וניהול טבלאות מחולקות למחיצות.
- מידע נוסף על אשכולות ב-BigQuery זמין במאמרים מבוא לטבלאות עם אשכולים וניהול טבלאות עם אשכולים.
- מידע נוסף על סטרימינג זמין במאמר מחזור החיים של סטרימינג.
- במאמר יצירת זרם מוסבר איך ליצור זרם.
- מידע נוסף על BigQuery זמין במאמר יעד BigQuery.