סקירה כללית על ניתוח הנתונים ב-BigQuery

במאמר הזה מוסבר איך BigQuery מעבד שאילתות, ומוצגות כמה תכונות שימושיות להבנה ולניתוח של הנתונים.

‫BigQuery מותאם להרצת שאילתות ניתוחיות במערכי נתונים גדולים, כולל טרה-בייט של נתונים בשניות ופטה-בייט בדקות. הבנת היכולות של BigQuery והאופן שבו הוא מעבד שאילתות יכולה לעזור לכם למקסם את ההשקעות בניתוח הנתונים.

תהליכי עבודה אנליטיים

‫BigQuery תומך בכמה תהליכי עבודה לניתוח נתונים:

  • ניתוח אד-הוק. ב-BigQuery נעשה שימוש ב-GoogleSQL, ניב ה-SQL ב-BigQuery, כדי לתמוך בניתוח אד-הוק. אפשר להריץ שאילתות במסוף Google Cloud או באמצעות כלים של צד שלישי שמשתלבים עם BigQuery.

  • ניתוח נתונים גיאו-מרחביים. ב-BigQuery נעשה שימוש בסוגי נתונים גיאוגרפיים ובפונקציות גיאוגרפיות של GoogleSQL כדי לאפשר לכם לנתח נתונים גיאו-מרחביים ולהציג אותם באופן חזותי. מידע על סוגי הנתונים והפונקציות האלה זמין במאמר מבוא לניתוח נתונים גיאוספציאליים.

  • ניתוח גרפים. BigQuery Graph מאפשר לכם ליצור מודל של הנתונים כגרף עם צמתים וקשתות. אפשר להשתמש ב-Graph Query Language (GQL) כדי למצוא קשרים מורכבים ומוסתרים בין נקודות נתונים, שקשה למצוא באמצעות SQL.

  • חיפוש נתונים אתם יכולים ליצור אינדקס לנתונים כדי לבצע חיפושים גמישים ומותאמים לטקסט לא מובנה או לנתוני JSON חצי מובנים.

  • חיפוש Google Cloud משאבים. שימוש בחיפוש בשפה טבעית (גרסת Preview) כדי לגלות משאבים מתוך BigQuery. Google Cloud

  • למידת מכונה.BigQuery ML משתמש בשאילתות GoogleSQL כדי לאפשר לכם ליצור ולהפעיל מודלים של למידת מכונה (ML) ב-BigQuery.

  • בינה עסקית. BigQuery BI Engine הוא שירות מהיר לניתוח נתונים בזיכרון, שמאפשר ליצור דוחות ולוחות בקרה אינטראקטיביים ועשירים בלי לפגוע בביצועים, בהתאמה, באבטחה או ברעננות הנתונים.

  • עזרה מ-AI. אתם יכולים להשתמש ב-Gemini ב-BigQuery כדי להכין את הנתונים ולחקור אותם, ליצור שאילתות SQL וקוד Python, ולהציג את התוצאות באופן ויזואלי.

עיון בנתונים

בעזרת BigQuery תוכלו להבין את הנתונים לפני שתתחילו לכתוב שאילתות SQL. אם אתם רוצים למצוא נתונים, לא מכירים את הנתונים שלכם, לא יודעים אילו שאלות לשאול או שאתם צריכים עזרה בכתיבת SQL, אתם יכולים להשתמש בתכונות הבאות:

  • Knowledge Catalog איתורGoogle Cloud משאבים מתוך BigQuery, כמו מערכי נתונים וטבלאות.

  • כלי לניתוח טבלאות.מאפשר לכם לנתח באופן חזותי את טווח הערכים והתדירות שלהם בטבלה, וליצור שאילתות באופן אינטראקטיבי.

  • תובנות מנתונים. ליצור שאלות בשפה טבעית לגבי הנתונים, יחד עם שאילתות ה-SQL שיענו על השאלות האלה.

  • סריקת פרופיל נתונים. תוכלו לראות מאפיינים סטטיסטיים של הנתונים, כולל ערכים ממוצעים, ייחודיים, מקסימליים ומינימליים.

  • קנבס נתונים. אפשר לשלוח שאילתות לנתונים בשפה טבעית, להציג את התוצאות בתרשימים ולשאול שאלות המשך.

שאילתות

הדרך העיקרית לנתח נתונים ב-BigQuery היא להריץ שאילתת SQL. דיאלקט GoogleSQL תומך ב-SQL:2011 וכולל תוספים שתומכים בניתוח גיאו-מרחבי וב-ML.

מקורות נתונים

ב-BigQuery אפשר להריץ שאילתות על סוגי מקורות הנתונים הבאים:

  • נתונים שמאוחסנים ב-BigQuery. אפשר לטעון נתונים ל-BigQuery, לשנות נתונים קיימים באמצעות הצהרות של שפת טיפול בנתונים (DML) או לכתוב תוצאות של שאילתה בטבלה. אתם יכולים לשאול שאילתות לגבי נתונים היסטוריים מנקודת זמן מסוימת במסגרת חלון הנסיעה בזמן.

    אפשר לשלוח שאילתות לנתונים שמאוחסנים במיקומים באזור יחיד או במספר אזורים. שאילתה שמאחזרת נתונים שמאוחסנים ביותר ממיקום אחד יכולה להיחשב כשאילתה עם אחזור נתונים גלובלי (בגרסת Preview). שאילתות שמפנות לנתונים בכמה מיקומים תמיד נחשבות לשאילתות גלובליות, גם אם אזור אחד הוא מיקום של אזור יחיד והאזור השני הוא מיקום של מספר אזורים שמכיל את המיקום של האזור היחיד.

  • נתונים חיצוניים. אפשר להריץ שאילתות על מגוון מקורות נתונים חיצוניים, כמו Cloud Storage, או על שירותי מסדי נתונים, כמו Spanner או Cloud SQL. מידע על הגדרת קישורים למקורות חיצוניים זמין במאמר מבוא למקורות נתונים חיצוניים

  • נתונים מרובי עננים (multi-cloud). אפשר לשלוח שאילתות לנתונים שמאוחסנים בעננים ציבוריים אחרים, כמו AWS או Azure. מידע על הגדרת חיבורים ל-Amazon Simple Storage Service ‏ (Amazon S3) או ל-Azure Blob Storage זמין במאמר מבוא ל-BigQuery Omni.

  • מערכי נתונים ציבוריים. אתם יכולים לנתח כל אחת מקבוצות הנתונים שזמינות במאגר הנתונים הציבורי.

  • שיתוף ב-BigQuery (לשעבר Analytics Hub). אתם יכולים לפרסם מערכי נתונים ב-BigQuery ונושאים ב-Pub/Sub ולהירשם אליהם כדי לשתף נתונים בין גבולות ארגוניים. מידע נוסף זמין במאמר מבוא ל-BigQuery sharing.

סוגי שאילתות

אתם יכולים להריץ שאילתות על נתוני BigQuery באמצעות אחד מסוגי משימות השאילתות הבאים:

  • משימות של שאילתות אינטראקטיביות. כברירת מחדל, BigQuery מריץ שאילתות כמשימות של שאילתות אינטראקטיביות, שמיועדות להתחיל לפעול כמה שיותר מהר.

  • משימות של שאילתות באצווה. לשאילתות אצווה יש עדיפות נמוכה יותר מאשר לשאילתות אינטראקטיביות. כשפרויקט או הזמנה משתמשים בכל משאבי ה-Compute הזמינים, סביר יותר ששאילתות באצ' יתווספו לתור וישארו בו. אחרי שמתחילים להריץ שאילתה באצווה, היא פועלת כמו שאילתה אינטראקטיבית. מידע נוסף זמין במאמר בנושא תורים של שאילתות.

  • עבודות של שאילתות מתמשכות. בעזרת המשימות האלה, השאילתה פועלת באופן רציף, ומאפשרת לכם לנתח נתונים נכנסים ב-BigQuery בזמן אמת, ואז לכתוב את התוצאות בטבלה ב-BigQuery או לייצא את התוצאות ל-Bigtable או ל-Pub/Sub. אתם יכולים להשתמש ביכולת הזו כדי לבצע משימות רגישות לזמן, כמו יצירת תובנות ופעולה מיידית על בסיסן, הפעלת הסקה של למידת מכונה (ML) בזמן אמת ויצירת צינורות נתונים מבוססי-אירועים.

אפשר להריץ משימות של שאילתות בדרכים הבאות:

שאילתות עם כמה הצהרות

אפשר להריץ כמה הצהרות ברצף, עם מצב משותף, באמצעות שאילתות עם כמה הצהרות. שאילתות עם כמה הצהרות משמשות לעיתים קרובות בפרוצדורות מאוחסנות ותומכות בהצהרות של שפה פרוצדורלית, שמאפשרות להגדיר משתנים וליישם זרימת בקרה.

שאילתות שנשמרו ושיתפו

ב-BigQuery אפשר לשמור שאילתות ולשתף שאילתות עם משתמשים אחרים.

כששומרים שאילתה, היא יכולה להיות פרטית (רק אתם יכולים לראות אותה), משותפת ברמת הפרויקט (רק גורמים ספציפיים יכולים לראות אותה) או ציבורית (כל אחד יכול לראות אותה). מידע נוסף על עבודה עם שאילתות שמורות

איך BigQuery מעבד שאילתות

כמה תהליכים מתרחשים כשמריצים שאילתה ב-BigQuery:

  • עץ הביצוע. כשמריצים שאילתה, BigQuery יוצר עץ ביצוע שמחלק את השאילתה לשלבים. השלבים האלה יכולים לפעול במקביל.

  • שכבת shuffle. השלבים מתקשרים ביניהם באמצעות שכבת shuffle מהירה ומבוזרת שמאחסנת נתונים זמניים שנוצרו על ידי העובדים של שלב מסוים. כשזה אפשרי, שכבת ה-shuffle משתמשת בטכנולוגיות כמו רשת פטה-ביט ו-RAM כדי להעביר נתונים במהירות לצמתי עובדים.

  • תוכנית שאילתות. כש-BigQuery מקבל את כל המידע שהוא צריך כדי להריץ שאילתה, הוא יוצר תוכנית שאילתות. אפשר לראות את תוכנית השאילתות במסוף Google Cloud ולהשתמש בה כדי לפתור בעיות או לשפר את הביצועים של השאילתה.

  • תרשים של ביצוע השאילתה. אתם יכולים לעיין במידע על תוכנית השאילתות בפורמט גרפי לכל שאילתה, בין אם היא פועלת או שהיא הסתיימה, ולראות תובנות לגבי הביצועים שיעזרו לכם לבצע אופטימיזציה של השאילתות.

  • מעקב אחרי שאילתות ותכנון דינמי. בנוסף לעובדים שמבצעים את העבודה של תוכנית השאילתה עצמה, עובדים נוספים עוקבים אחרי ההתקדמות הכוללת של העבודה בכל המערכת ומכוונים אותה. ככל שהשאילתה מתקדמת, יכול להיות ש-BigQuery ישנה באופן דינמי את תוכנית השאילתה כדי להתאים אותה לתוצאות של השלבים השונים.

  • תוצאות של שאילתות. כששאילתה מסתיימת, BigQuery כותב את התוצאות לאחסון קבוע ומחזיר אותן למשתמש. העיצוב הזה מאפשר ל-BigQuery להציג תוצאות ששמורות במטמון בפעם הבאה שהשאילתה הזו מורצת.

ביצועים ושאילתות מקבילות

הביצועים של שאילתות שמופעלות שוב ושוב על אותם נתונים יכולים להשתנות בגלל האופי המשותף של סביבת BigQuery, השימוש בתוצאות שאילתות שנשמרו במטמון או בגלל ש-BigQuery משנה באופן דינמי את תוכנית השאילתות בזמן שהשאילתה פועלת. במערכת עמוסה טיפוסית שבה הרבה שאילתות רצות בו-זמנית, BigQuery משתמש בכמה תהליכים כדי לצמצם את השונות בביצועי השאילתות:

  • מערכת BigQuery מריצה הרבה שאילתות במקביל ויכולה להוסיף שאילתות לתור להרצה כשהמשאבים זמינים.

  • כשהשאילתות מתחילות ומסתיימות, BigQuery מחלק מחדש את המשאבים באופן הוגן בין שאילתות חדשות לבין שאילתות שפועלות. התהליך הזה מבטיח שביצועי השאילתות לא יהיו תלויים בסדר שבו השאילתות נשלחות, אלא במספר השאילתות שמופעלות בזמן נתון.

אופטימיזציה של שאילתות

כשמריצים שאילתה, אפשר לראות את תוכנית השאילתה במסוף Google Cloud . אפשר גם לבקש פרטי הרצה באמצעות תצוגות INFORMATION_SCHEMA.JOBS* או ה-method jobs.get ב-API בארכיטקטורת REST.

תוכנית השאילתות כוללת פרטים על השלבים של השאילתה. הפרטים האלה יכולים לעזור לכם לזהות דרכים לשיפור הביצועים של השאילתות. לדוגמה, אם אתם מבחינים בשלב שכותב הרבה יותר פלט משלבים אחרים, יכול להיות שאתם צריכים לסנן בשלב מוקדם יותר בשאילתה.

למידע נוסף על תוכנית השאילתה ואופטימיזציה של השאילתה, אפשר לעיין במקורות המידע הבאים:

מעקב אחרי שאילתות

מעקב ורישום ביומן חיוניים להפעלת אפליקציות אמינות בענן. עומסי עבודה של BigQuery לא יוצאים מכלל זה, במיוחד אם עומס העבודה כולל נפחים גדולים או שהוא קריטי. ‫BigQuery מספק מדדים, יומנים ותצוגות שונות של מטא-נתונים כדי לעזור לכם לעקוב אחרי השימוש ב-BigQuery.

מידע נוסף זמין במקורות המידע הבאים:

תמחור של שאילתות

ב-BigQuery יש שני מודלים לתמחור של ניתוח נתונים:

מידע על שני מודלים של תמחור ועל הזמנות של תמחור לפי קיבולת זמין במאמר מבוא להזמנות.

מכסות ואמצעי בקרה על עלויות של שאילתות

ב-BigQuery יש מכסות ברמת הפרויקט להרצת שאילתות. מידע על מכסות של שאילתות זמין במאמר מכסות ומגבלות.

כדי לשלוט בעלויות של שאילתות, ב-BigQuery יש כמה אפשרויות, כולל מכסות בהתאמה אישית והתראות חיוב. מידע נוסף זמין במאמר בנושא יצירת אמצעי בקרת עלויות בהתאמה אישית.

תכונות של ניתוח נתונים

‫BigQuery תומך בניתוח תיאורי וחיזוי אנליטי, ועוזר לכם לחקור את הנתונים באמצעות כלים מבוססי-AI, ‏ SQL, למידת מכונה, מחברות (notebooks) ושילובים אחרים של צד שלישי.

BigQuery Studio

BigQuery Studio עוזר לכם לגלות ולנתח נתונים ב-BigQuery, ולהסיק מהם מסקנות באמצעות התכונות הבאות:

BigQuery ML

‫BigQuery ML מאפשר לכם להשתמש ב-SQL ב-BigQuery כדי לבצע למידת מכונה (ML) וניתוח נתונים לחיזוי. מידע נוסף זמין במאמר מבוא ל-BigQuery ML.

הסוכן לניתוח נתונים שימושי לשיחה מאפשר לכם לשוחח עם הנתונים באמצעות שפה טבעית. הסוכן הזה מורכב ממקור נתונים אחד או יותר ומקבוצה של הוראות ספציפיות לתרחישי שימוש לעיבוד הנתונים. ניתוח נתונים שימושי לשיחה תומך בשימוש בחלק מהפונקציות של BigQuery ML.

שילוב של כלי Analytics

בנוסף להרצת שאילתות ב-BigQuery, אתם יכולים לנתח את הנתונים באמצעות כלי ניתוח ובינה עסקית שמשתלבים עם BigQuery, כמו:

  • Looker. ‫Looker היא פלטפורמה ארגונית לבינה עסקית (BI), לאפליקציות נתונים ולניתוח נתונים מוטמעים. פלטפורמת Looker פועלת עם הרבה מאגרי נתונים, כולל BigQuery. מידע על חיבור Looker ל-BigQuery זמין במאמר שימוש ב-Looker.

  • Data Studio. אחרי שמריצים שאילתה, אפשר להפעיל את Data Studio ישירות מ-BigQuery במסוףGoogle Cloud . אחר כך, ב-Data Studio תוכלו ליצור תרשימים וטבלאות ולעיין בנתונים שמוחזרים מהשאילתה. מידע על Data Studio זמין במאמר סקירה כללית של Data Studio.

  • גיליונות מקושרים. אפשר גם להפעיל את התכונה 'גיליונות מקושרים' ישירות מ-BigQuery ב-Console. 'גיליונות מקושרים' מריצים שאילתות ב-BigQuery בשמכם בעת ההפעלה הידנית, או לפי לוח זמנים מוגדר. התוצאות של השאילתות האלה נשמרות בגיליון האלקטרוני לצורך ניתוח ושיתוף. מידע על גיליונות מקושרים זמין במאמר שימוש בגיליונות מקושרים.

  • Tableau. אפשר להתחבר למערך נתונים מ-Tableau. שימוש ב-BigQuery כדי להפעיל את התרשימים, מרכזי הבקרה והמחשות ויזואליות אחרות של נתונים.

שילוב של כלי צד שלישי

יש כמה כלי ניתוח של צד שלישי שפועלים עם BigQuery. לדוגמה, אפשר לקשר את Tableau לנתוני BigQuery ולהשתמש בכלי ההדמיה שלו כדי לנתח ולשתף את הניתוח. מידע נוסף על שיקולים לשימוש בכלים של צד שלישי מופיע במאמר בנושא שילוב של כלים של צד שלישי.

מנהלי התקנים של ODBC ו-JDBC זמינים ואפשר להשתמש בהם כדי לשלב את האפליקציה עם BigQuery. מטרת הדרייברים האלה היא לעזור למשתמשים לנצל את היכולות של BigQuery באמצעות כלים ותשתית קיימים. מידע על הגרסה האחרונה ועל בעיות מוכרות זמין במאמר בנושא מנהלי התקנים של ODBC ו-JDBC ל-BigQuery.

ספריות pandas כמו pandas-gbq מאפשרות לכם ליצור אינטראקציה עם נתונים של BigQuery במסמכי notebook של Jupyter. מידע על הספרייה הזו ועל ההבדלים בינה לבין ספריית הלקוח של BigQuery Python זמין במאמר השוואה ל-pandas-gbq.

אפשר גם להשתמש ב-BigQuery עם מחברות אחרות ועם כלי ניתוח. מידע נוסף זמין במאמר בנושא כלים פרוגרמטיים לניתוח.

רשימה מלאה של שותפים של BigQuery בתחום האנליטיקה ובתחומים טכנולוגיים נוספים זמינה בדף המוצר של BigQuery בקטע שותפים.

המאמרים הבאים