מבוא לניהול BigQuery
במאמר הזה מוסבר על משימות ניהול ב-BigQuery ועל התכונות של BigQuery שיעזרו לכם לבצע אותן.
אדמינים של BigQuery בדרך כלל מבצעים את סוגי המשימות הבאים:
- ניהול משאבים, כמו פרויקטים, מערכי נתונים וטבלאות.
- מאבטחים את המשאבים כך שהגישה אליהם תוגבל רק למשתמשים שזקוקים לה.
- ניהול עומסי עבודה (workloads), כמו משימות, שאילתות וקיבולת מחשוב (הזמנות).
- מעקב אחרי משאבים, כולל מכסות, משימות ושימוש במחשוב.
- אופטימיזציה של עומסי עבודה לביצועים הכי טובים תוך שליטה בעלויות.
- פתרון בעיות שקשורות להודעות שגיאה, לחיוב ולמכסות.
במאמר הזה מוסבר על התכונות ש-BigQuery מספק כדי לעזור לכם לבצע את המשימות האלה.
כדי לראות סיור בתכונות של ניהול נתונים ב-BigQuery ישירות במסוף, לוחצים על Take the tour. Google Cloud
כלים
ב-BigQuery יש כמה ממשקים שבהם אפשר להשתמש למשימות ניהול.
לעתים קרובות אפשר לבצע משימה מסוימת באמצעות כמה כלים, כך שאתם יכולים לבחור את הכלי שהכי מתאים לכם. לדוגמה, אפשר ליצור טבלה באמצעות החלונית Explorer במסוףGoogle Cloud , באמצעות פקודה bq mk --table או באמצעות הצהרת CREATE TABLE SQL.
- Google Cloud console. במסוף Google Cloud יש כמה דפים שמוקדשים לניהול BigQuery. מידע נוסף מופיע במאמר בנושא שימוש במסוף. Google Cloud
הצהרות SQL. בדף BigQuery במסוףGoogle Cloud יש עורך שאילתות שבו אפשר לבצע משימות ניהול באמצעות הצהרות DDL ו-DCL. מידע נוסף זמין במאמרים בנושא שפת הגדרת נתונים (DDL) ושפת בקרת נתונים (DCL).
אפשר להשתמש בפרוצדורות מאוחסנות כדי להפוך לאוטומטיות משימות ניהול שמשתמשות בהצהרות SQL. מידע נוסף מופיע במאמר בנושא עבודה עם פרוצדורות מאוחסנות.
פקודות
bq. כלי שורת הפקודה של BigQuery מאפשר לכם לבצע משימות ניהול רבות באמצעות פקודותbq. אפשר להשתמש בכלי שורת הפקודה של BigQuery כדי לבצע משימות שלא נתמכות במסוף Google Cloud , כדי ליצור אב טיפוס של יכולות לפני שמקודדים אותן בשאילתות או בשיטות API, או אם אתם מעדיפים לעבוד בממשק שורת פקודה. מידע נוסף זמין במאמר בנושא שימוש בכלי שורת הפקודה של BigQuery.
ניהול משאבים
המשאבים ב-BigQuery כוללים ארגונים, תיקיות, פרויקטים, מערכי נתונים וטבלאות. בקטע הזה מוסבר איך לנהל את המשאבים של הארגון.
מידע על היררכיית המשאבים ב-BigQuery זמין במאמר ארגון משאבי BigQuery. בפרט, אתם יכולים ליצור משאב מסוג Organization, שמאפשר לכם לבצע משימות מסוימות, כמו הגדרת אמצעי בקרה לגישה, ברמת הארגון.
ניהול מערכי נתונים
מערכי נתונים הם קונטיינרים לטבלאות. אפשר ליצור טבלאות במערך נתונים ואז לנהל אותן כקבוצה. לדוגמה, אפשר להגדיר את זמן התפוגה של טבלת ברירת המחדל של מערך נתונים, שתחול על כל הטבלאות במערך הנתונים, אלא אם מבטלים אותה. אפשר להעתיק קבוצה של טבלאות על ידי יצירת עותק של מערך הנתונים שלהן, ואפשר לשלוט בגישה לטבלאות ברמת מערך הנתונים.
מידע נוסף על ניהול מערכי נתונים זמין במאמרים הבאים:
- מידע נוסף על יצירה, העתקה, העברה ועדכון של מערכי נתונים זמין במאמר מבוא למערכי נתונים.
- מידע נוסף על בקרת גישה ברמת מערך הנתונים זמין במאמרים שליטה בגישה למערכי נתונים ומערכי נתונים מורשים.
ניהול טבלאות
ב-BigQuery, הנתונים מאוחסנים בטבלאות שאפשר להריץ עליהן שאילתות. אתם יכולים ליצור טבלאות, לטעון נתונים לטבלאות ממקורות מסוגים שונים ובפורמטים שונים, לחלק טבלאות למחיצות על סמך עמודה ספציפית או על סמך זמן ההטמעה, לאגד טבלאות, לעדכן את מאפייני הטבלה ולייצא נתונים מהטבלה.
מידע נוסף על ניהול טבלאות זמין במאמרים הבאים:
- מידע נוסף על טעינת נתונים לטבלאות ב-BigQuery זמין במאמר מבוא לטעינת טבלאות.
- מידע נוסף על ניהול טבלאות וייצוא נתונים מטבלאות זמין במאמר מבוא לטבלאות.
- מידע נוסף על חלוקה למחיצות ועל טבלאות מקובצות זמין במאמרים מבוא לטבלאות מחולקות למחיצות ומבוא לטבלאות מקובצות.
הוספת תוויות למשאבים
כדי לארגן את המשאבים ב-BigQuery, אפשר להוסיף תוויות למערכי הנתונים, לטבלאות ולתצוגות. תוויות הן צמדי מפתח/ערך שאפשר לצרף למשאב. אחרי שמתייגים את המשאבים, אפשר לחפש אותם לפי ערכי התוויות. לדוגמה, אפשר להשתמש בתוויות כדי לקבץ מערכי נתונים לפי מחלקה. לשם כך, מוסיפים תוויות כמו dept:sales, dept:marketing או dept:analytics.
לאחר מכן תוכלו לפרט את החיובים לפי מחלקה באמצעות התוויות.
מידע נוסף זמין במאמר מבוא לתוויות.
קבלת מידע על משאבים
אפשר לקבל מידע על משאבי BigQuery באמצעות שאילתות על תצוגות INFORMATION_SCHEMA. BigQuery מספק views לכל סוג משאב. לדוגמה, התצוגה INFORMATION_SCHEMA.TABLES מכילה מידע על הטבלאות שלכם.
הנה כמה דוגמאות למידע שאפשר לקבל באמצעות שאילתות של תצוגות INFORMATION_SCHEMA:
- לראות מתי נוצרה טבלה.
- קבלת השמות וסוגי הנתונים של כל עמודה בטבלה.
- למצוא את כל העבודות שפועלות בפרויקט.
- קבלת רשימה של תמונות המצב של הטבלה שנוצרו מטבלת בסיס.
- למערך נתונים, לטבלה, לתצוגה או לשגרה, מקבלים את הצהרת ה-DDL שאפשר להשתמש בה כדי ליצור את המשאב.
- קבלת האפשרויות ששימשו ליצירת טבלה (לדוגמה, table expiration).
- איך מוצאים את העמודות של חלוקה למחיצות וקיבוץ לאשכולות בטבלה
- קבלת המקום השמור שהוקצה לפרויקט וקיבולת המקום שלו.
מידע נוסף זמין במאמר מבוא ל-BigQueryINFORMATION_SCHEMA.
העתקת נתונים
יכול להיות שתרצו ליצור עותקים של הנתונים שלכם מסיבות שונות, כמו הגנה מפני טעות אנוש או שמירת נתונים להשוואה בעתיד. ב-BigQuery יש כמה אפשרויות להעתקת נתונים מטבלה מנקודת זמן מסוימת.
מסע בזמן. יכול להיות שתצטרכו לגשת למצב של טבלה כפי שהיה בשלב מסוים במהלך השבוע האחרון, למשל אם הנתונים נפגמו בגלל טעות אנוש. ב-BigQuery נשמרים נתונים היסטוריים של הטבלאות למשך שבעה ימים. אפשר לגשת לנתונים היסטוריים עדכניים של טבלה באמצעות התכונה 'מסע בזמן'.
מידע נוסף זמין במאמר בנושא גישה לנתונים היסטוריים באמצעות תכונת Time Travel.
תמונות מצב של טבלאות. אם רוצים לגשת למצב של טבלה מלפני יותר משבוע, כדאי ליצור תמונות מצב של הטבלה באופן תקופתי. תמונות מצב של טבלאות הן עותקים קלים לקריאה בלבד, שמאפשרים לשמור את מצב הטבלאות ללא הגבלת זמן. לדוגמה, באמצעות תמונות מצב של טבלאות אפשר להשוות בין הנתונים הנוכחיים של טבלה לבין הנתונים מתחילת השנה, ואי אפשר לעשות את זה באמצעות תכונת ההחזרה בזמן. תחויבו רק על אחסון הנתונים ששונים בין טבלת הבסיס לבין תמונת המצב של הטבלה.
מידע נוסף זמין במאמר מבוא לצילומי מצב של טבלאות.
שיבוטים של טבלאות. אם רוצים ליצור עותק קל משקל של טבלה שאפשר לכתוב בו, אפשר להשתמש בשיבוטים של טבלאות. משלמים רק על אחסון הנתונים ששונים בין טבלת הבסיס לבין שיבוט הטבלה שלה. לדוגמה, אפשר ליצור שיבוטים של טבלאות בסביבת בדיקה כדי להתנסות בעותקים של נתוני ייצור בלי להשפיע על נתוני הייצור ובלי לשלם על אחסון של עותקים מלאים של הטבלאות.
מידע נוסף זמין במאמר בנושא מבוא לשיבוט טבלאות.
מעקב אחר שושלת נתונים
Data lineage היא תכונה של Knowledge Catalog שמאפשרת לעקוב אחרי תנועת הנתונים במערכות: מאיפה הם מגיעים, לאן הם מועברים ואילו טרנספורמציות מוחלות עליהם. מידע נוסף על האופן שבו אפשר לעקוב אחרי תנועת הנתונים בפרויקט באמצעות Data Lineage זמין במאמר מידע על Data Lineage ב-Knowledge Catalog.
משאבים מאובטחים
האבטחה ב-BigQuery מבוססת על Google Cloud ניהול זהויות והרשאות גישה (IAM). ב-BigQuery אפשר לשלוט בגישה למשאבים ברמות רבות, כולל גישה לארגון, לתיקיות, לפרויקטים, למערכי נתונים, לטבלאות, לעמודות בטבלה ולשורות בטבלה.
מידע על שליטה בגישה למשאבי BigQuery זמין במאמר סקירה כללית של אבטחת נתונים וניהול נתונים.
ניהול עומסי עבודה
מערכת BigQuery מבצעת הרבה משימות בשם המשתמשים, כולל קליטה, שליחת שאילתות וייצוא של נתונים. כל משימה מתבצעת על ידי משימה ב-BigQuery. בקטע הזה מוסבר איך אפשר לעקוב אחרי המשימות של הארגון ולנהל אותן.
ניהול משרות
משימות הן פעולות ש-BigQuery מריץ בשם המשתמש כדי לטעון, לייצא, לשלוח שאילתות או להעתיק נתונים. כשמשתמש מפעיל אחת מהמשימות האלה באמצעות מסוףGoogle Cloud , כלי שורת הפקודה של BigQuery, הצהרת SQL או קריאה ל-API, מערכת BigQuery יוצרת באופן אוטומטי ג'וב לביצוע המשימה.
אדמינים ב-BigQuery יכולים לעקוב אחרי העבודות בארגון, לנהל אותן ולפתור בעיות כדי לוודא שהן פועלות בצורה חלקה.
מידע נוסף מופיע במאמר בנושא ניהול משימות.
ניהול הזמנות
כש-BigQuery מריץ שאילתות, הוא משתמש ביחידות של מחשוב שנקראות משבצות זמן. מערכת BigQuery מחשבת כמה משבצות נדרשות להרצת כל שאילתה, בהתאם לגודל ולמורכבות של השאילתה.
ב-BigQuery יש שני מודלים לתמחור של חריצי הזיכרון שמריצים את השאילתות:
- חיוב על פי דרישה. השאילתות שלכם משתמשות במאגר משותף של משבצות, ואתם מחויבים על מספר הבייטים שהשאילתות מעבדות. מידע נוסף על מגבלות חיוב לפי דרישה זמין במאמר בנושא עבודות של שאילתות.
- חיוב לפי קיבולת. אתם מקצים הזמנה או התחייבות לקיבולת למהדורה, וכל מהדורה מגיעה עם קבוצת תכונות ומחיר משלה כדי לספק לכם את סביבת העבודה הטובה ביותר.
מודלים התמחור האלה חלים על כל פרויקט בנפרד, כך שאפשר להשתמש בחיוב על פי דרישה בחלק מהפרויקטים ובחיוב לפי קיבולת בחלק אחר.
בחיוב על פי דרישה, אחרי שמיציתם את השימוש בחינם שמוקצה לכם מדי חודש, אתם מחויבים על מספר הבייטים שכל שאילתה מעבדת. התפוקה מוגבלת למכסת משבצות זמן מוגדרת מראש, שמשותפת בין השאילתות שמופעלות בפרויקט.
בחיוב לפי מהדורות BigQuery, אתם מקצים יחידות קיבולת לארגון באמצעות מקומות שמורים עם התאמה אוטומטית לעומס והתחייבויות לשימוש אופציונליות, אבל זולות יותר. לכל מהדורה יש מחיר משלה וסט תכונות משלה. מידע נוסף על מהדורות BigQuery והתכונות שמשויכות אליהן זמין במאמר מבוא למהדורות BigQuery.
למידע נוסף על ניהול קיבולת מחשוב לעיבוד השאילתות, אפשר לעיין במסמכים הבאים:
במאמר מבוא להזמנות מוסבר על יחידות קיבולת ועל ההבדלים בין חיוב על פי דרישה לבין חיוב על בסיס קיבולת.
במאמר התחייבויות לשימוש במשבצות זמן מוסברות האפשרויות השונות לחיוב לפי קיבולת (התחייבויות חודשיות או שנתיות).
כדי ליצור מאגרי משבצות שמבוססים על קיבולת, שנקראים הזמנות של יחידות קיבולת (Slot), אפשר לעיין במאמר עבודה עם הזמנות של יחידות קיבולת.
במאמר עבודה עם הקצאות של הזמנות מוסבר איך להקצות הזמנות של משבצות לפרויקטים ספציפיים.
כדי להעריך את מספר הסלוטים הנכון להקצאה לעומסי העבודה, אפשר לעיין במאמר בנושא הערכת דרישות קיבולת הסלוטים.
מעקב אחרי משאבים
Google Cloud אפשר לעקוב אחרי המשאבים שלכם, כולל משאבי BigQuery. בקטע הזה מתוארותGoogle Cloud יכולות המעקב והביקורת שרלוונטיות ל-BigQuery.
מידע נוסף זמין במאמר מבוא לניטור ב-BigQuery.
לוח הבקרה של Cloud Monitoring
ב-Cloud Monitoring יש לוח בקרה לניטור BigQuery. לוח הבקרה הזה מאפשר לכם לראות מידע על אירועים ב-BigQuery, על מערכי נתונים, על טבלאות, על פרויקטים, על זמני שאילתות ועל ניצול משבצות.
מידע נוסף זמין במאמר בנושא הצגת לוח הבקרה של Monitoring.
תרשימים והתראות לניהול
אתם יכולים להשתמש ב-Cloud Monitoring כדי ליצור תרשימים בהתאמה אישית על סמך המשאבים, המדדים וכל צבירה שתציינו.
מידע נוסף זמין במאמר בנושא לוחות בקרה ותרשימים.
אפשר גם ליצור מדיניות התראות שתשלח לכם התראה אם ההתראה שהגדרתם תופעל. לדוגמה, אתם יכולים ליצור התראה שתשלח אימייל לכתובת אימייל ספציפית אם זמן ההפעלה של שאילתה חורג ממגבלה ספציפית.
מידע נוסף מופיע במאמר בנושא יצירת התראה.
מעקב אחרי הזמנות
בדף ניהול קיבולת במסוףGoogle Cloud אפשר לעקוב אחרי השימוש במשבצות. אתם יכולים לראות את ההתחייבויות שלכם לקיבולת ולבדוק לאילו משבצות שוריינו מקומות. אתם יכולים גם להשתמש בכלי להערכת יחידות הקיבולת (בגרסת Preview) כדי להעריך את דרישות הקיבולת של הארגון על סמך היסטוריית הביצועים.
מידע נוסף זמין במאמר בנושא מעקב אחרי הזמנות ב-BigQuery.
מכסות
Google Cloud מגדיר מגבלות על השימוש במשאבים, כולל משאבי BigQuery, כדי להבטיח שימוש הוגן במשאבים משותפים ולהגן עליכם מפני עלויות גבוהות מדי. אתם יכולים לראות את השימוש שלכם במשאבי BigQuery שיש להם מכסות, ולבקש מכסה גבוהה יותר אם צריך, באמצעות מסוף Google Cloud .
מידע נוסף זמין במאמר מכסות ומגבלות ב-BigQuery.
יומני ביקורת
יומני הביקורת של Cloud שומרים רשומה של Google Cloud אירועים, כולל אירועים ב-BigQuery. אתם יכולים להשתמש בLogs Explorer כדי להריץ שאילתות ביומנים לגבי אירועים שקשורים למשימות, למערכי נתונים, להעברות ועוד ב-BigQuery. בלוח הבקרה Logs מוצג מידע על שגיאות מהזמן האחרון, ואפשר להשתמש במדדים שמבוססים על יומנים כדי לספור את הרשומות ביומן שתואמות למסנן נתון.
מידע נוסף זמין במאמרי העזרה בנושא רישום ביומן שלGoogle Cloud .
אופטימיזציה של עומסי עבודה
אתם יכולים לבצע אופטימיזציה של ההגדרות ב-BigQuery כדי לשלוט בעלויות של אחסון ועיבוד שאילתות.
במאמר אופטימיזציה של אחסון ב-BigQuery מוסבר איך לנהל את עלויות האחסון ב-BigQuery.
לקבלת עזרה בניהול עלויות העיבוד ב-BigQuery, אפשר לעיין במאמר ניהול העלויות ב-BigQuery.
לקבלת עזרה באופטימיזציה של שאילתות BigQuery, אפשר לעיין במאמר מבוא לאופטימיזציה של ביצועי שאילתות.
מידע כללי על העלויות ב-BigQuery זמין במאמרים תמחור BigQuery ושאלות בנושא חיוב ב-BigQuery.
הנחיות בנושא אמינות
במאמר הזה מוסבר על המהימנות של BigQuery, כולל תובנות לגבי הזמינות, העמידות, עקביות הנתונים, עקביות הביצועים ושחזור הנתונים ב-BigQuery, וגם סקירה של שיקולים בנוגע לטיפול בשגיאות. מידע נוסף על אמינות ותכנון התאוששות מאסון זמין במאמר הסבר על אמינות.
פתרון בעיות
בנוסף לתכונות שמתוארות במסמך הזה למעקב ולניהול של מערכת BigQuery בארגון, יש גם את המקורות הבאים לפתרון בעיות שעשויות להתעורר:
לקבלת עזרה נוספת, אפשר לעיין במאמר בנושא קבלת תמיכה.
המאמרים הבאים
- סדרת סרטונים בנושאים שונים שקשורים לניהול BigQuery זמינה במאמר BigQuery admin reference guide: recap.