מבוא להכנת נתונים ב-BigQuery

במסמך הזה מתואר תהליך הכנת נתונים בעזרת AI ב-BigQuery. הכנת נתונים היא תכונה של BigQuery שמשתמשת ב-Gemini ב-BigQuery כדי לנתח את הנתונים שלכם ולספק הצעות חכמות לניקוי, לשינוי ולשיפור שלהם. אתם יכולים לצמצם באופן משמעותי את הזמן והמאמץ שנדרשים למשימות ידניות של הכנת נתונים. תזמון ההכנות של הנתונים מבוסס על Dataform.

יתרונות

  • אתם יכולים לצמצם את הזמן שמושקע בפיתוח פייפליינים של נתונים באמצעות הצעות לטרנספורמציה שנוצרות על ידי Gemini ומותאמות להקשר.
  • אתם יכולים לאמת את התוצאות שנוצרו בתצוגה מקדימה ולקבל הצעות לניקוי נתונים, לשיפור איכות הנתונים ולמיפוי סכמות אוטומטי.
  • Dataform מאפשר לכם להשתמש בתהליך של אינטגרציה רציפה ופיתוח רציף (CI/CD), ותומך בשיתוף פעולה בין צוותים לצורך בדיקות קוד וניהול גרסאות.

נקודות כניסה להכנת נתונים

אפשר ליצור ולנהל הכנות של נתונים בדף BigQuery Studio (ראו פתיחת עורך הכנת הנתונים ב-BigQuery).

כשפותחים טבלה בהכנת נתונים ב-BigQuery, מופעלת משימה ב-BigQuery באמצעות פרטי הכניסה שלכם. ההרצה יוצרת שורות לדוגמה מהטבלה שנבחרה וכותבת את התוצאות לטבלה זמנית באותו פרויקט. ‫Gemini משתמש בנתונים לדוגמה ובסכימה כדי ליצור הצעות להכנת הנתונים שמוצגות בכלי לעריכת הכנת הנתונים.

תצוגות בכלי לעריכת הכנת הנתונים

הכנת הנתונים מופיעה ככרטיסיות בדף BigQuery. בכל כרטיסייה יש סדרה של כרטיסיות משנה, או תצוגות של הכנת נתונים, שבהן אפשר לפתח ולנהל את הכנת הנתונים.

תצוגת נתונים

כשיוצרים הכנת נתונים חדשה, נפתחת כרטיסייה של עורך הכנת הנתונים, שבה מוצגת תצוגת הנתונים שמכילה מדגם מייצג של הטבלה. כדי לעבור לתצוגת הנתונים של הכנות נתונים קיימות, לוחצים על צומת בתצוגת הגרף של צינור הכנת הנתונים.

בתצוגת הנתונים אפשר:

  • כדי ליצור שלבים להכנת הנתונים, צריך ליצור אינטראקציה עם הנתונים.
  • יישום ההצעות מ-Gemini.
  • כדי לשפר את איכות ההצעות של Gemini, מזינים ערכים לדוגמה בתאים.

מעל כל עמודה בטבלה, פרופיל סטטיסטי (היסטוגרמה) מציג את המספר של כל אחד מהערכים המובילים בעמודה בשורות התצוגה המקדימה.

תצוגת הנתונים בכלי לעריכת תהליכים להכנת נתונים

תצוגת תרשים

תצוגת הגרף היא סקירה כללית חזותית של הכנת הנתונים. הוא מופיע ככרטיסייה בדף BigQuery במסוף, כשפותחים הכנה של נתונים. בתרשים מוצגים צמתים לכל השלבים בצינור להכנת הנתונים. אפשר לבחור צומת בתרשים כדי להגדיר את שלבי הכנת הנתונים שהוא מייצג.

תצוגת גרף בעורך של הכנת הנתונים

תצוגת סכימה

בתצוגת הסכימה של הכנת הנתונים מוצגת הסכימה הנוכחית של שלב הכנת הנתונים הפעיל. הסכימה שמוצגת תואמת לעמודות בתצוגת הנתונים.

בתצוגת הסכימה אפשר לבצע פעולות ייעודיות בסכימה, כמו הסרת עמודות, שיוצרת גם שלבים ברשימה Applied steps.

תצוגת הסכימה בכלי לעריכת תהליכים להכנת נתונים

הצעות של Gemini

‫Gemini מספק הצעות בהתאם להקשר כדי לעזור במשימות הבאות של הכנת נתונים:

  • החלת טרנספורמציות וכללים לאיכות הנתונים
  • סטנדרטיזציה והעשרה של נתונים
  • אוטומציה של מיפוי סכימות

כל הצעה מופיעה בכרטיס ברשימת ההצעות של כלי ההכנה של הנתונים. הכרטיס מכיל את הפרטים הבאים:

  • הקטגוריה ברמה העליונה של השלב, כמו שמירת שורות או טרנספורמציה
  • תיאור של השלב, כמו Keep rows if COLUMN_NAME is not NULL
  • ביטוי ה-SQL התואם שמשמש להפעלת השלב

אפשר לראות תצוגה מקדימה של כרטיס ההצעה, לערוך אותו, להחיל אותו או לשפר את ההצעה. אפשר גם להוסיף שלבים באופן ידני. מידע נוסף מופיע במאמר בנושא הכנת נתונים באמצעות Gemini.

כדי לשפר את ההצעות מ-Gemini, נותנים לו דוגמה לשינוי שרוצים לבצע בעמודה.

דגימת נתונים

‫BigQuery משתמש בדגימת נתונים כדי לספק תצוגה מקדימה של הכנת הנתונים. אפשר לראות את הדוגמה בתצוגת הנתונים של כל צומת.

כשמוסיפים טבלאות סטנדרטיות של BigQuery כמקור, הנתונים מוכנים באמצעות פונקציית TABLESAMPLE של BigQuery. הפונקציה הזו יוצרת מדגם של 10,000 רשומות.

כשמוסיפים תצוגה מפורטת או טבלה חיצונית כמקור, המערכת קוראת את מיליון הרשומות הראשונות. מתוך הרשומות האלה, המערכת בוחרת מדגם מייצג של 10,000 רשומות.

הנתונים בדגימה לא מתעדכנים אוטומטית. טבלאות לדוגמה מאוחסנות כתוצאות שאילתה שנשמרו במטמון והתוקף שלהן פג אחרי כ-24 שעות. כדי לרענן ידנית את טבלת הדוגמאות, אפשר לעיין במאמר בנושא רענון דוגמאות של הכנת נתונים.

מצב כתיבה

כדי לבצע אופטימיזציה של העלויות וזמן העיבוד, אפשר לשנות את הגדרות מצב הכתיבה כדי לעבד בהדרגה נתונים חדשים מהמקור. לדוגמה, אם יש לכם טבלה ב-BigQuery שמוסיפים לה רשומות מדי יום, ולוח בקרה ב-Looker שצריך לשקף את הנתונים המשתנים, אתם יכולים לתזמן את הכנת הנתונים ב-BigQuery כך שהרשומות החדשות ייקראו מהטבלה המקורית באופן מצטבר ויועברו לטבלת היעד.

כדי להגדיר את האופן שבו הכנת הנתונים נכתבת בטבלת היעד, אפשר לעיין במאמר אופטימיזציה של הכנת נתונים באמצעות עיבוד מצטבר של נתונים.

יש תמיכה במצבי הכתיבה הבאים:

אפשרות מצב כתיבה תיאור
רענון מלא מבצע את שלבי הכנת הנתונים בכל נתוני המקור, ואז בונה מחדש את טבלת היעד באופן מלא. הטבלה נוצרת מחדש, ולא מתבצעת בה חיתוך. רענון מלא הוא מצב ברירת המחדל כשכותבים לטבלת יעד.
הוספה כל הנתונים מהכנת הנתונים מוכנסים כשורות נוספות בטבלת היעד.
מצטבר הכלי מוסיף לטבלת היעד רק את הנתונים החדשים או את הנתונים שהשתנו, בהתאם לבחירה שלכם בעמודה המצטברת. על סמך העמודה המצטברת שבחרתם, הכנת הנתונים תבחר את המנגנון האופטימלי לזיהוי רשומות שינוי. היא בוחרת ערכים מקסימליים עבור סוגי נתונים מספריים וסוגי נתונים של תאריך ושעה וערכים ייחודיים עבור נתונים קטגוריים. האפשרות 'מקסימום הוספות' מוסיפה רק רשומות שבהן ערך העמודה שצוין גדול מהערך המקסימלי של אותה עמודה בטבלת היעד. האפשרות 'הוספה של ערכים ייחודיים בלבד' מוסיפה רק רשומות שבהן ערכי העמודות שצוינו לא מופיעים בערכים הקיימים של אותה עמודה בטבלת היעד.
Upsert ממזגת שורות באמצעות מפתחות המיזוג שצוינו. אם שורה קיימת בטבלת היעד תואמת למפתחות המיזוג שצוינו עבור רשומת קלט, הערכים בשורה הזו מתעדכנים בטבלת היעד. אחרת, שורה חדשה מוכנסת לטבלת היעד.

שלבים נתמכים בהכנת נתונים

‫BigQuery תומך בסוגים הבאים של שלבים בהכנת הנתונים:

סוג השלב תיאור
מקור הוספת מקור כשבוחרים טבלה ב-BigQuery לקריאה או כשמוסיפים שלב של צירוף.
שינוי מנקה ומבצע טרנספורמציה של נתונים באמצעות ביטוי SQL. יוצגו לכם כרטיסי הצעות לביטויים הבאים:
  • פונקציות של המרת טיפוסים, כמו CAST
  • פונקציות של מחרוזות, כמו SUBSTR,‏ CONCAT, REPLACE,‏ UPPER,‏ LOWER ו-TRIM
  • פונקציות של תאריך ושעה, כמו PARSE_DATE, TIMESTAMP,‏ EXTRACT ו-DATE_ADD
  • פונקציות JSON, כמו JSON_VALUE או JSON_QUERY

אפשר גם להשתמש בכל ביטוי SQL תקף של BigQuery בשלבי המרה ידניים. לדוגמה:
  • מתמטיקה עם מספרים, כמו המרה של וואט-שעה לקילוואט-שעה
  • פונקציות מערך, כמו ARRAY_AGG, ARRAY_CONCAT ו-UNNEST
  • פונקציות חלון, כמו ROW_NUMBER,‏ LAG,‏ LEAD,‏ RANK ו-NTILE


מידע נוסף זמין במאמר הוספת טרנספורמציה.
מסנן הסרת שורות באמצעות תחביר של סעיף WHERE. כשמוסיפים שלב סינון, אפשר להפוך אותו לשלב אימות.

מידע נוסף זמין במאמר בנושא סינון שורות.
ביטול כפילויות הפונקציה מסירה שורות כפולות מהנתונים על סמך מפתחות וסדר שנבחרו.

מידע נוסף זמין במאמר Deduplicate data (ביטול כפילויות בנתונים).
אימות שולח שורות שלא עומדות בקריטריונים של כלל האימות לטבלת שגיאות. אם הנתונים לא עומדים בכלל האימות ולא מוגדרת טבלת שגיאות, הכנת הנתונים נכשלת במהלך ההפעלה.

מידע נוסף זמין במאמר הגדרת טבלת השגיאות והוספת כלל אימות.
הצטרפות מצטרף לערכים משני מקורות. הטבלאות צריכות להיות באותו מיקום. העמודות של מפתח הצירוף צריכות להיות מאותו סוג נתונים. הכנת נתונים תומכת בפעולות הצירוף הבאות:
  • איחודים פנימיים (inner joins)
  • איחודים שמאליים
  • איחודים ימניים
  • איחודים חיצוניים מלאים
  • ‫Cross Joins (אם לא נבחרו עמודות של מפתח לצירוף, נעשה שימוש ב-Cross Join)


מידע נוסף זמין במאמר בנושא הוספת פעולת איחוד.
יעד הגדרה של יעד להפקת שלבים בהכנת הנתונים. אם מזינים טבלת יעד שלא קיימת, הכנת הנתונים יוצרת טבלה חדשה באמצעות פרטי הסכימה הנוכחית.

מידע נוסף מופיע במאמר הוספה או שינוי של טבלת יעד.
מחיקת עמודות מחיקת עמודות מהסכימה. מבצעים את השלב הזה בתצוגת הסכימה.

מידע נוסף זמין במאמר מחיקת עמודה.

תזמון הרצות של הכנת נתונים

כדי להריץ את השלבים של הכנת הנתונים ולטעון את הנתונים המוכנים לטבלת היעד, יוצרים תזמון. אפשר לתזמן הכנות של נתונים דרך הכלי לעריכת הכנת נתונים, ולנהל אותן דרך הדף תזמון ב-BigQuery. מידע נוסף זמין במאמר בנושא תזמון של הכנת נתונים.

פיתוח צינורות עיבוד נתונים עם משימות להכנת נתונים

אפשר ליצור צינורות BigQuery שמורכבים ממשימות של הכנת נתונים, שאילתות SQL ומחברות. אחר כך אפשר להריץ את צינורות הנתונים האלה לפי לוח זמנים. מידע נוסף זמין במאמר מבוא לצינורות נתונים ב-BigQuery.

שליטה בגישה

שליטה בגישה להכנת נתונים באמצעות תפקידי ניהול זהויות והרשאות גישה (IAM), הצפנה באמצעות מפתחות Cloud KMS של BigQuery ו-Dataform, ו-VPC Service Controls.

תפקידים והרשאות של IAM

משתמשים שמכינים את הנתונים וחשבונות השירות של Dataform שמריצים את העבודות צריכים הרשאות IAM. מידע נוסף זמין במאמרים בנושא התפקידים הנדרשים והגדרת Gemini ל-BigQuery.

הצפנה באמצעות מפתחות Cloud KMS

הצפנת נתונים ברמת מערך הנתונים או ברמת הפרויקט באמצעות מפתחות ברירת המחדל של Cloud KMS בניהול הלקוח ב-BigQuery. מידע נוסף זמין במאמרים בנושא הגדרת מפתח ברירת מחדל למערך נתונים והגדרת מפתח ברירת מחדל לפרויקט.

אתם יכולים להצפין את קוד צינור העברת הנתונים ברמת הפרויקט כברירת מחדל באמצעות מפתח Dataform Cloud KMS.

היקפי האבטחה של VPC Service Controls

אם אתם משתמשים ב-VPC Service Controls, אתם צריכים להגדיר את גבולות הגזרה כדי להגן על Dataform ו-BigQuery. מידע נוסף זמין במאמרים בנושא מגבלות של VPC Service Controls ב-BigQuery וב-Dataform.

תפקיד שמוענק כשיוצרים תהליך להכנת נתונים

כשיוצרים הכנת נתונים, מערכת BigQuery מעניקה לכם את התפקיד Dataform Admin (roles/dataform.admin) בהכנת הנתונים הזו. לכל המשתמשים שהוקצה להם תפקיד אדמין ב-Dataform בפרויקט יש גישת בעלים לכל ההכנות של הנתונים שנוצרו בפרויקט. Google Cloud כדי לשנות את ההתנהגות הזו, אפשר לקרוא את המאמר הקצאת תפקיד ספציפי בזמן יצירת משאב.

מגבלות

הכנת הנתונים זמינה עם המגבלות הבאות:

  • כל מערכי הנתונים של מקור ושל יעד להכנת נתונים צריכים להיות באותו מיקום. מידע נוסף זמין במאמר מיקומים.
  • במהלך עריכת צינור הנתונים, הנתונים והאינטראקציות נשלחים למרכז נתונים של Gemini לצורך עיבוד. מידע נוסף זמין במאמר בנושא מיקומים.
  • ‫Gemini ב-BigQuery לא נתמך על ידי Assured Workloads.
  • אי אפשר לראות, להשוות או לשחזר גרסאות של הכנת נתונים ב-BigQuery.
  • התשובות של Gemini מבוססות על מדגם של מערך הנתונים שאתם מספקים כשאתם מפתחים את צינור עיבוד הנתונים. למידע נוסף, אפשר לקרוא על השימוש בנתונים ב-Gemini for Google Cloud ‎ ועל התנאים בתוכנית הבודקים הנאמנים של Gemini for Google Cloud ‎.
  • אין ממשק API משלו להכנת נתונים ב-BigQuery. רשימת ממשקי ה-API הנדרשים מופיעה במאמר הגדרת Gemini ב-BigQuery.

מיקומים

אפשר להשתמש בהכנת נתונים בכל מיקום נתמך ב-BigQuery. עבודות עיבוד הנתונים מבוצעות ומאוחסנות במיקום של מערכי הנתונים של המקור. אם מציינים מיקום של מאגר, הוא חייב להיות זהה למיקום של מערכי נתוני המקור. אזור האחסון של קוד הכנת הנתונים יכול להיות שונה מאזור ההרצה של העבודה.

כל נכסי הקוד ב-BigQuery Studio משתמשים באותו אזור ברירת מחדל. כדי להגדיר את אזור ברירת המחדל לנכסי קוד:

  1. עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית Explorer, מחפשים את הפרויקט שבו הפעלתם נכסי קוד.

  3. לצד הפרויקט, לוחצים על View actions (הצגת פעולות) ואז על Change my default code region (שינוי אזור הקוד שמוגדר כברירת מחדל).

  4. בקטע Region בוחרים את האזור שבו רוצים להשתמש בנכסי קוד.

  5. לוחצים על בחירה.

רשימת האזורים הנתמכים מופיעה במאמר מיקומים ב-BigQuery Studio.

עיבוד הנתונים ב-BigQuery במהלך הפיתוח וההרצה תמיד מתבצע במיקום של מערכי הנתונים של המקור. מידע על המיקום שבו Gemini ב-BigQuery מעבד את הנתונים שלכם זמין במאמר המיקום שבו Gemini ב-BigQuery מעבד את הנתונים שלכם.

תמחור

הכנת נתונים ויצירת דוגמאות לתצוגה מקדימה של נתונים כרוכות בשימוש במשאבי BigQuery, שחלים עליהם חיובים לפי התעריפים שמופיעים בתמחור של BigQuery.

הכנת הנתונים כלולה בתמחור של Gemini ב-BigQuery. אפשר להשתמש בהכנת נתונים ב-BigQuery במהלך תקופת התצוגה המקדימה ללא עלות נוספת. מידע נוסף זמין במאמר בנושא הגדרת Gemini ב-BigQuery.

מכסות

מידע נוסף זמין במאמר מכסות ל-Gemini ב-BigQuery.

המאמרים הבאים