מבוא לטרנספורמציה של נתונים

במאמר הזה מוסבר על הדרכים השונות שבהן אפשר להמיר נתונים בטבלאות BigQuery.

מידע נוסף על שילוב נתונים זמין במאמר מבוא לטעינה, לשינוי ולייצוא של נתונים.

שיטות לטרנספורמציה של נתונים

אפשר לבצע טרנספורמציה של נתונים ב-BigQuery בדרכים הבאות:

  • משתמשים בשפת טיפול בנתונים (DML) כדי לשנות את הנתונים בטבלאות BigQuery.
  • משתמשים בתצוגות חומריות כדי לשמור במטמון באופן אוטומטי את התוצאות של שאילתה, וכך לשפר את הביצועים והיעילות.
  • אפשר להשתמש בשאילתות מתמשכות כדי לנתח נתונים נכנסים בזמן אמת ולהוסיף את שורות הפלט לטבלה ב-BigQuery או לייצא אותן ל-Pub/Sub או ל-Bigtable.
  • אפשר להשתמש בצינורות נתונים של BigQuery או ב-Dataform כדי לפתח, לבדוק, לשלוט בגרסאות ולתזמן צינורות נתונים ב-BigQuery.
  • כדי לנקות את הנתונים לצורך ניתוח, אפשר להשתמש בהכנת נתונים עם המלצות להמרת נתונים שנוצרו על ידי AI ומודעות להקשר. הכנת הנתונים מתבצעת באמצעות Dataform API.

בטבלה הבאה מוצגות המאפיינים השונים של כל שיטת טרנספורמציה.

שיטת הטרנספורמציה יעד ההחלפה שיטת ההגדרה תדירות השינוי
שפת טיפול בנתונים (DML) טבלה (במקום) SQL DML פעולות שהמשתמשים יוזמים או מתזמנים
תצוגות מהותיות תצוגה מהותית שאילתת SQL רענון אוטומטי או ידני
שאילתות מתמשכות Table, ‏ Pub/Sub topic, ‏ Bigtable table שאילתת SQL עם EXPORT DATA הערכה מתמשכת
Dataform טבלה Dataform core (SQLX) מתוזמן (צינורות עיבוד נתונים)
צינורות נתונים של BigQuery טבלה צינורות נתונים של BigQuery מתוזמן (צינורות עיבוד נתונים)
הכנת נתונים טבלה כלי עריכה חזותי מתוזמנת

אפשר גם לבדוק את היסטוריית השינויים של טבלה ב-BigQuery כדי לבחון את השינויים שבוצעו בטבלה בטווח זמן מסוים.

טרנספורמציה של נתונים באמצעות DML

אפשר להשתמש בשפת טיפול בנתונים (DML) כדי לשנות נתונים בטבלאות BigQuery. הצהרות DML הן שאילתות GoogleSQL שמשמשות לשינוי נתונים קיימים בטבלה כדי להוסיף או למחוק שורות, לשנות נתונים בשורות קיימות או למזג נתונים עם ערכים מטבלה אחרת. יש תמיכה בטרנספורמציות של DML גם בטבלאות מחולקות.

אפשר להריץ כמה הצהרות DML בו-זמנית, כש-BigQuery מכניס לתור כמה הצהרות DML שמבצעות טרנספורמציה של הנתונים אחת אחרי השנייה. ‫BigQuery מנהל את אופן ההפעלה של הצהרות DML בו-זמניות, על סמך סוג השינוי.

טרנספורמציה של נתונים באמצעות תצוגות חומריות

תצוגות מהותיות הן תצוגות שמחושבות מראש ושומרות במטמון באופן תקופתי את התוצאות של שאילתת SQL, כדי לשפר את הביצועים והיעילות. ‫BigQuery משתמש בתוצאות שחושבו מראש מתצוגות חומריות, ובכל הזדמנות קורא רק שינויים מטבלאות הבסיס כדי לחשב תוצאות עדכניות.

תצוגות חומריות מחושבות מראש ברקע כשטבלאות הבסיס משתנות. כל שינוי מצטבר בנתונים מטבלאות הבסיס מתווסף באופן אוטומטי לתצוגות החומריות, ללא צורך בפעולה מצד המשתמש.

טרנספורמציה של נתונים באמצעות שאילתות מתמשכות

שאילתות מתמשכות הן הצהרות SQL שמופעלות באופן רציף. שאילתות רציפות מאפשרות לכם לנתח נתונים נכנסים ב-BigQuery בזמן אמת. אפשר להוסיף את שורות הפלט שנוצרו על ידי שאילתה מתמשכת לטבלה ב-BigQuery או לייצא אותן ל-Pub/Sub או ל-Bigtable.

טרנספורמציה של נתונים באמצעות Dataform

‫Dataform מאפשר לכם לנהל את הטרנספורמציה של הנתונים בתהליך החילוץ, הטעינה והטרנספורמציה (ELT) של שילוב הנתונים. אחרי שמחלצים נתונים גולמיים ממערכות המקור וטוענים אותם ל-BigQuery, אפשר להשתמש ב-Dataform כדי להפוך אותם לחבילה מאורגנת, שנבדקה ומתועדת של טבלאות. ב-DML אתם משתמשים בגישה אימפרטיבית, שבה אתם אומרים ל-BigQuery בדיוק איך להפוך את הנתונים, אבל ב-Dataform אתם כותבים הצהרות שבהן Dataform קובע את השינוי שצריך לבצע כדי להגיע למצב הזה.

ב-Dataform, אתם יכולים לפתח, לבדוק ולנהל גרסאות של תהליכי עבודה של SQL לשינוי נתונים, החל מהצהרות על מקורות נתונים ועד לטבלאות פלט, תצוגות או תצוגות חומריות. אפשר לפתח תהליכי עבודה של SQL באמצעות Dataform Core או JavaScript טהור. ‫Dataform core היא שפת-על מבוססת קוד פתוח שמרחיבה את SQL באמצעות SQLX ו-JavaScript. אתם יכולים להשתמש ב-Dataform Core כדי לנהל תלות, להגדיר בדיקות אוטומטיות של איכות הנתונים ולתעד תיאורים של טבלאות או עמודות בתוך הקוד.

‫Dataform שומר את קוד זרימת העבודה של SQL במאגרים ומשתמש ב-Git כדי לעקוב אחרי שינויים בקבצים. סביבות עבודה לפיתוח ב-Dataform מאפשרות לכם לעבוד על התוכן של המאגר בלי להשפיע על העבודה של משתמשים אחרים שעובדים באותו מאגר. אפשר לקשר מאגרי Dataform לספקי Git של צד שלישי, כולל Azure DevOps Services,‏ Bitbucket,‏ GitHub ו-GitLab.

אפשר להריץ או לתזמן תהליכי עבודה של SQL באמצעות הגדרות של גרסאות Dataform והגדרות של תהליכי עבודה. אפשר גם לתזמן הפעלות באמצעות Cloud Composer, או באמצעות Workflows ו-Cloud Scheduler. במהלך ההרצה,‏ Dataform מריץ שאילתות SQL ב-BigQuery לפי סדר התלות של האובייקטים בתהליך העבודה של SQL. אחרי ההרצה, אפשר להשתמש בטבלאות ובתצוגות המפורטות שהגדרתם לניתוח ב-BigQuery.

מידע נוסף על יצירת תהליכי עבודה של SQL לטרנספורמציה של נתונים ב-Dataform זמין במאמרים סקירה כללית של Dataform ותכונות של Dataform.

שינוי נתונים באמצעות צינורות נתונים של BigQuery

צינורות נתונים של BigQuery מבוססים על Dataform ומאפשרים ליצור ולנהל טרנספורמציה של נתונים בתהליכי חילוץ, טעינה וטרנספורמציה (ELT) או חילוץ, טרנספורמציה וטעינה (ETL).

אתם יכולים ליצור ולנהל צינורות נתונים של BigQuery באופן ויזואלי ב-BigQuery Studio.

מידע נוסף על יצירת צינורות נתונים של BigQuery

הכנת נתונים ב-BigQuery

כדי להפחית את הטרחה של הכנת הנתונים, BigQuery מאפשר לכם לנקות את הנתונים באמצעות הצעות לשינוי שנוצרו על ידי Gemini. הכנת נתונים ב-BigQuery כוללת את העזרה הבאה:

  • החלת טרנספורמציות וכללים לאיכות הנתונים
  • סטנדרטיזציה והעשרה של נתונים
  • אוטומציה של מיפוי סכימות

אפשר לאמת את התוצאות בתצוגה מקדימה של הנתונים לפני שמבצעים את השינויים בכל הנתונים.

למידע נוסף, קראו את המאמר מבוא להכנת נתונים ב-BigQuery.

המאמרים הבאים