הכנת נתונים באמצעות Gemini

במאמר הזה מוסבר איך ליצור ולנהל הצעות לקוד SQL לצורך הכנת הנתונים ב-BigQuery.

למידע נוסף, קראו את המאמר מבוא להכנת נתונים ב-BigQuery.

לפני שמתחילים

פתיחת העורך להכנת נתונים ב-BigQuery

אפשר לפתוח את עורך הכנת הנתונים ב-BigQuery על ידי יצירת הכנת נתונים חדשה, יצירת הכנת נתונים מטבלה קיימת או מקובץ Cloud Storage, או פתיחת הכנת נתונים קיימת. מידע נוסף על מה שקורה כשיוצרים הכנת נתונים זמין במאמר נקודות כניסה להכנת נתונים.

בדף BigQuery, אפשר לעבור לעורך הכנת הנתונים באחת מהדרכים הבאות:

יצירת משאב חדש

כדי ליצור הכנת נתונים חדשה ב-BigQuery, פועלים לפי השלבים הבאים:

  1. במסוף Google Cloud , עוברים לדף BigQuery.
    כניסה ל-BigQuery
  2. עוברים לרשימה יצירת חדש ולוחצים על הכנת נתונים. הכלי לעריכת נתונים מוצג בכרטיסייה חדשה של הכנת נתונים ללא שם.
  3. בסרגל החיפוש של הכלי לעריכה, מזינים את שם הטבלה או מילות מפתח ובוחרים טבלה. ייפתח העורך להכנת הנתונים לטבלה, שבו מוצגת תצוגה מקדימה של הנתונים בכרטיסייה נתונים, וקבוצה ראשונית של הצעות להכנת הנתונים מ-Gemini.
  4. אופציונלי: כדי לפשט את התצוגה, לוחצים על מסך מלא מסך מלא.
  5. אופציונלי: כדי לראות את פרטי הכנת הנתונים, היסטוריית הגרסאות, להוסיף תגובות חדשות או להשיב לתגובות קיימות, משתמשים בסרגל הכלים.

    כדאי לעיין בסרגל הכלים להכנת הנתונים.

    התכונה תגובות בסרגל הכלים נמצאת בגרסת טרום-השקה. כדי לשלוח משוב או לבקש תמיכה בנוגע לתכונה הזו, אפשר לשלוח אימייל לכתובת bqui-workspace-pod@google.com.

יצירה מטבלה

כדי ליצור הכנת נתונים חדשה מטבלה קיימת, פועלים לפי השלבים הבאים:

  1. במסוף Google Cloud , עוברים לדף BigQuery.
    כניסה ל-BigQuery
  2. בחלונית הימנית, לוחצים על כלי הניתוחים.
  3. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Datasets ובוחרים מערך נתונים.
  4. כדי לשנות את שם הטבלה, לוחצים על more_vert Actions > Open in > Data preparation (פעולות > פתיחה ב-> הכנת נתונים). ייפתח עורך להכנת הנתונים לטבלה, שבו מוצגת תצוגה מקדימה של הנתונים בכרטיסייה נתונים, וקבוצה ראשונית של הצעות להכנת הנתונים מ-Gemini.
  5. אופציונלי: כדי לפשט את התצוגה, לוחצים על מסך מלא מסך מלא.
  6. אופציונלי: כדי לראות את פרטי הכנת הנתונים, היסטוריית הגרסאות, להוסיף תגובות חדשות או להשיב לתגובות קיימות, משתמשים בסרגל הכלים.

    כדאי לעיין בסרגל הכלים להכנת הנתונים.

    התכונה תגובות בסרגל הכלים נמצאת בגרסת טרום-השקה. כדי לשלוח משוב או לבקש תמיכה בנוגע לתכונה הזו, אפשר לשלוח אימייל לכתובת bqui-workspace-pod@google.com.

יצירה מקובץ ב-Cloud Storage

כדי ליצור הכנת נתונים חדשה מקובץ ב-Cloud Storage, פועלים לפי השלבים הבאים:

טוענים את הקובץ

  1. במסוף Google Cloud , עוברים לדף BigQuery.
    כניסה ל-BigQuery
  2. ברשימה יצירת חדש, לוחצים על הכנת נתונים. הכלי לעריכת נתונים מוצג בכרטיסייה חדשה של הכנת נתונים ללא שם.
  3. ברשימת מקורות הנתונים, לוחצים על Google Cloud Storage. תיבת הדו-שיח Prepare data תיפתח.
  4. בקטע מקור, בוחרים את הקובץ מקטגוריה של Cloud Storage או מזינים את הנתיב של המקור. לדוגמה, מזינים נתיב לקובץ ה-CSV: STORAGE_BUCKET_NAME/FILE_NAME.csv. יש תמיכה בחיפושים עם תו כללי, כמו *.csv.

    פורמט הקובץ מזוהה באופן אוטומטי. הפורמטים הנתמכים הם Avro,‏ CSV,‏ JSONL,‏ ORC ו-Parquet. סוגי קבצים תואמים אחרים, כמו DAT,‏ TSV ו-TXT, נקראים כפורמט CSV.
  5. מגדירים את טבלת הביניים החיצונית שאליה תעלו קבצים. בקטע Staging table, מזינים את שמות הפרויקט, מערך הנתונים והטבלה של הטבלה החדשה.
  6. בקטע סכימה, בודקים את הסכימה. ‫Gemini בודק את הקובץ כדי למצוא שמות של עמודות. אם לא נמצאו תוצאות, יוצגו הצעות.

    כברירת מחדל, קובץ הכנת הנתונים טוען נתונים כמחרוזות. אפשר להגדיר סוגי נתונים ספציפיים יותר כשמכינים את נתוני הקובץ.
  7. אופציונלי: באפשרויות מתקדמות, אפשר להוסיף עוד מידע, כמו מספר השגיאות שמותרות לפני שהעבודה נכשלת. ‫Gemini מספק אפשרויות נוספות על סמך התוכן של הקובץ.
  8. לוחצים על יצירה. ייפתח העורך להכנת הנתונים של הקובץ, שבו מוצגת תצוגה מקדימה של הנתונים בכרטיסייה נתונים, וסט ראשוני של הצעות להכנת הנתונים מ-Gemini.
  9. אופציונלי: כדי לפשט את התצוגה, לוחצים על מסך מלא מסך מלא.
  10. אופציונלי: כדי לראות את פרטי הכנת הנתונים, היסטוריית הגרסאות, להוסיף תגובות חדשות או להשיב לתגובות קיימות, משתמשים בסרגל הכלים.

    כדאי לעיין בסרגל הכלים להכנת הנתונים.

    התכונה תגובות בסרגל הכלים נמצאת בגרסת טרום-השקה. כדי לשלוח משוב או לבקש תמיכה בנוגע לתכונה הזו, אפשר לשלוח אימייל לכתובת bqui-workspace-pod@google.com.

הכנת הקובץ

בתצוגת הנתונים, מכינים את הנתונים שהועלו ל-Cloud Storage באמצעות השלבים הבאים:

  1. אופציונלי: כדי להגדיר סוגי נתונים חזקים יותר לעמודות רלוונטיות, אפשר לעיין ברשימת ההצעות להמרות או לבחור עמודה וליצור עבורה הצעות.
  2. אופציונלי: מגדירים כללי אימות. מידע נוסף מופיע במאמר הגדרת טבלת השגיאות והוספת כלל אימות.
  3. הוספת טבלת יעד
  4. כדי לטעון את הנתונים מ-Cloud Storage לטבלת היעד, מריצים את הכנת הנתונים.
  5. אופציונלי: תזמון של הרצת הכנת הנתונים.
  6. אופציונלי: אופטימיזציה של הכנת הנתונים באמצעות עיבוד מצטבר של הנתונים.

פתיחת מסמך קיים

כדי לפתוח את הכלי לעריכת הכנת נתונים קיימת, פועלים לפי השלבים הבאים:

  1. במסוף Google Cloud , עוברים לדף BigQuery.
    כניסה ל-BigQuery
  2. בחלונית הימנית, לוחצים על כלי הניתוחים.
  3. בחלונית Explorer לוחצים על שם הפרויקט ואז על Data preparations.
  4. בוחרים את ההכנה הקיימת של הנתונים. מוצג תצוגת הגרף של צינור ההכנה של הנתונים.
  5. בוחרים אחד מהצמתים בתרשים. ייפתח העורך להכנת נתונים לטבלה, ותוכלו לראות תצוגה מקדימה של הנתונים בכרטיסייה נתונים. בנוסף, יוצגו הצעות ראשוניות להכנת נתונים מ-Gemini.
  6. אופציונלי: כדי לפשט את התצוגה, לוחצים על מסך מלא מסך מלא.
  7. אופציונלי: כדי לראות את פרטי הכנת הנתונים, היסטוריית הגרסאות, להוסיף תגובות חדשות או להשיב לתגובות קיימות, משתמשים בסרגל הכלים.

    כדאי לעיין בסרגל הכלים להכנת הנתונים.

    התכונה תגובות בסרגל הכלים נמצאת בגרסת טרום-השקה. כדי לשלוח משוב או לבקש תמיכה בנוגע לתכונה הזו, אפשר לשלוח אימייל לכתובת bqui-workspace-pod@google.com.

הוספת שלבים להכנת הנתונים

הכנת הנתונים מתבצעת בשלבים. אתם יכולים לראות תצוגה מקדימה של השלבים ש-Gemini מציע או להחיל אותם. אתם יכולים גם לשפר את ההצעות או להשתמש בשלבים משלכם.

איך מיישמים הצעות מ-Gemini ומשפרים אותן

כשפותחים את כלי ההכנה של הנתונים עבור הטבלה, Gemini בודק את הנתונים ואת הסכימה מהטבלה שטענתם ומציע הצעות לסינון ולשינוי. ההצעות מופיעות בכרטיסים ברשימה Steps.

בתמונה הבאה אפשר לראות איפה אפשר ליישם את השלבים שמוצעים על ידי Gemini ולשפר אותם:

תצוגת נתונים בכלי לעריכת נתונים, שבה מוצגות אפשרויות לתצוגה מקדימה, לעריכה או להחלת הצעות מ-Gemini.

כדי להחיל הצעה של Gemini כשלב בהכנת הנתונים, מבצעים את הפעולות הבאות:

  1. בתצוגת הנתונים, לוחצים על שם של עמודה או על תא מסוים. ‫Gemini יוצר הצעות לסינון ולשינוי הנתונים.
  2. אופציונלי: כדי לשפר את ההצעות, אפשר לערוך את הערכים של תא אחד עד שלושה תאים בטבלה כדי להראות איך הערכים בעמודה צריכים להיראות. לדוגמה, מזינים תאריך בפורמט שבו רוצים שכל התאריכים יוצגו. ‫Gemini ייצור הצעות חדשות על סמך השינויים שביצעתם.

    בתמונה הבאה אפשר לראות איך עורכים ערכים כדי לשפר את השלבים ש-Gemini מציע:

    כדי לשפר את ההצעות, אפשר לערוך את הערכים בתאים כדי להראות איך הערכים בעמודה צריכים להיראות.

  3. בוחרים כרטיס הצעה.

    1. אופציונלי: כדי לראות תצוגה מקדימה של התוצאה בכרטיס ההצעה, לוחצים על תצוגה מקדימה.
    2. אופציונלי: כדי לשנות את כרטיס ההצעה באמצעות שפה טבעית, לוחצים על עריכה.
  4. לוחצים על אישור.

הוספת שלבים באמצעות שפה טבעית או ביטויי SQL

אם ההצעות הקיימות לא מתאימות לצרכים שלכם, מוסיפים שלב. בוחרים עמודות או סוג של שלב, ואז מתארים מה רוצים באמצעות שפה טבעית.

הוספת טרנספורמציה

  1. בתצוגת הנתונים או הסכימה, בוחרים באפשרות שינוי. אפשר גם לבחור עמודות או להוסיף דוגמאות כדי לעזור ל-Gemini להבין את השינוי בנתונים.
  2. בשדה Description (תיאור), מזינים הנחיה כמו Convert the state column to uppercase.
  3. לוחצים על שליחה שליחה.

    ‫Gemini יוצר ביטוי SQL ותיאור חדש על סמך ההנחיה.

  4. ברשימה Target column (עמודת היעד), בוחרים או מזינים שם של עמודה.

  5. אופציונלי: כדי לעדכן את ביטוי ה-SQL, משנים את ההנחיה ולוחצים על שליחה שליחה, או מזינים ביטוי SQL באופן ידני.

  6. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.

  7. לוחצים על אישור.

השטחת עמודות JSON

כדי להקל על הגישה לצמדי מפתח-ערך ועל הניתוח שלהם, אפשר לשטח עמודות JSON. לדוגמה, אם יש לכם עמודת JSON בשם user_properties שמכילה את המפתחות country ו-device_type, שיטוח העמודה הזו יחלץ את country ו-device_type לעמודות נפרדות ברמה העליונה, כך שתוכלו להשתמש בהן ישירות בניתוח.

‫Gemini for BigQuery מציע פעולות שמחלצות שדות רק מהרמה העליונה של ה-JSON. אם השדות שחולצו מכילים אובייקטים נוספים מסוג JSON, אפשר לשטח אותם בשלבים נוספים כדי לגשת לתוכן שלהם.

  1. בתצוגת הנתונים של טבלת מקור JSON, בוחרים עמודה או תאים.
  2. לוחצים על השטחה כדי ליצור הצעות.
  3. אופציונלי: כדי לעדכן את ביטוי ה-SQL, אפשר להזין ביטוי SQL באופן ידני.
  4. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  5. לוחצים על אישור.

השטחת הנתונים מתבצעת באופן הבא:

  • האפשרות Flatten מופיעה בתצוגת הנתונים אחרי שבוחרים תאים או עמודות שמכילים JSON. היא לא מופיעה כברירת מחדל כשלוחצים על הוספת שלב.
  • אם מפתח JSON לא מופיע בשורות שנבחרו, ההצעה שנוצרת לא מכילה את המפתח הזה. הבעיה הזו עלולה לגרום לכך שחלק מהעמודות לא ייכללו כשמבצעים החלקה של הנתונים.
  • אם יש התנגשות בין שמות של עמודות במהלך השטחה, השמות החוזרים של העמודות מסתיימים בפורמט הבא: _<i>. לדוגמה, אם כבר קיימת עמודה בשם address, השם החדש של העמודה המפושטת הוא address_1.
  • שמות העמודות המפושטות פועלים לפי מוסכמות מתן השמות לעמודות ב-BigQuery.
  • אם לא תמלאו את השדה של מפתח ה-JSON, פורמט ברירת המחדל של שם העמודה יהיה f<i>_.

השטחה של עמודות RECORD או STRUCT

כדי לגשת לשדות מקוננים ולנתח אותם בקלות, משטחים את העמודות באמצעות סוג הנתונים RECORD או STRUCT. לדוגמה, אם יש לכם רשומה event_log שמכילה את השדות timestamp ו-action, פעולת השטחה של הרשומה הזו מחלצת את timestamp ו-action לעמודות נפרדות ברמה העליונה, כדי שתוכלו לבצע בהן שינוי ישירות.

במהלך התהליך הזה, המערכת מחלצת את כל העמודות המקוננות מהרשומה, עד 10 רמות עומק, ויוצרת עמודה חדשה לכל אחת מהן. השמות החדשים של העמודות נוצרים משילוב של שם עמודת ההורה עם שם השדה המקונן, כשהם מופרדים באמצעות קו תחתון (לדוגמה, PARENT-COLUMN-NAME_FIELD-NAME). העמודה המקורית מושמטת. כדי לשמור את העמודה המקורית, אפשר למחוק את השלב הסרת העמודה מהרשימה השלבים שהוחלו.

כדי לשטח רשומות:

  1. בתצוגת הנתונים של טבלת מקור, בוחרים עמודת רשומה.
  2. לוחצים על השטחה כדי ליצור הצעות.
  3. אופציונלי: כדי לעדכן את ביטוי ה-SQL, אפשר להזין ביטוי SQL באופן ידני.
  4. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  5. לוחצים על אישור.
.

ביטול הקינון של מערכים

הפעולה 'ביטול הקינון' מרחיבה כל רכיב במערך לשורה משלו, ומשכפלת את הערכים האחרים של העמודה המקורית לכל שורה חדשה. הפעולה הזו שימושית לניתוח עמודות שמכילות מערכים עם מספר משתנה של רכיבים, כמו רשימות של תגובות API.

אפשר לבטל את הקינון של סוגי העמודות הבאים:

  • סוג הנתונים ARRAY: ביטול הקינון לרכיבים של סוג הבסיס של המערך. לדוגמה, ביטול הקינון של ARRAY<STRUCT<...>> יוצר רכיבים מסוג STRUCT.
  • עמודות JSON: הפונקציה הזו מבטלת את הקינון של מערכי JSON בעמודה וממירה אותם לרכיבים מסוג JSON.

כשמבטלים את הקינון של מערך, נוצרת עמודה חדשה שמכילה את הרכיבים הלא מקוננים. כברירת מחדל, עמודת המערך המקורית מושמטת. כדי לשמור את העמודה המקורית, מוחקים את השלב הסרת עמודה מהרשימה שלבים שהוחלו.

כדי לבטל את הקינון של מערכים:

  1. בתצוגת הנתונים של טבלת מקור, בוחרים עמודה ARRAY.
  2. לוחצים על ביטול הקיבוץ כדי ליצור הצעות.
  3. אופציונלי: כדי לעדכן את ביטוי ה-SQL, אפשר להזין ביטוי SQL באופן ידני.
  4. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  5. לוחצים על אישור.

סינון שורות

כדי להוסיף מסנן שמסיר שורות, פועלים לפי השלבים הבאים:

  1. בתצוגת הנתונים או הסכימה, בוחרים באפשרות Filter (סינון). אפשר גם לבחור עמודות כדי לעזור ל-Gemini להבין את מסנן הנתונים.
  2. בשדה Description (תיאור), מזינים הנחיה כמו Column ID should not be NULL.
  3. לוחצים על יצירה. ‫Gemini יוצר ביטוי SQL ותיאור חדש על סמך ההנחיה.
  4. אופציונלי: כדי לעדכן את ביטוי ה-SQL, משנים את ההנחיה ולוחצים על שליחה שליחה, או מזינים ביטוי SQL באופן ידני.
  5. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  6. לוחצים על אישור.

פורמט של ביטוי סינון

ביטויי SQL למסננים שומרים את השורות שתואמות לתנאי שצוין. הפקודה הזו מקבילה לפקודה SELECT … WHERE SQL_EXPRESSION.

לדוגמה, כדי לשמור רשומות שבהן הערך בעמודה year גדול מ-2000 או שווה לו, התנאי הוא year >= 2000.

הביטויים צריכים להיות בהתאם לתחביר של SQL ב-BigQuery עבור הסעיף WHERE.

ביטול כפילויות בנתונים

כדי להסיר שורות כפולות מהנתונים:

  1. בתצוגת הנתונים או הסכימה, בוחרים באפשרות Deduplicate (ביטול כפילויות). ‫Gemini מספק הצעה ראשונית להסרת כפילויות.
  2. אופציונלי: כדי לשפר את ההצעה, מזינים תיאור חדש ולוחצים על שליחה שליחה.
  3. אופציונלי: כדי להגדיר ידנית את שלב ביטול הכפילויות, משתמשים באפשרויות הבאות:
    • ברשימה Record choosing (בחירת רשומה), בוחרים באחת מהשיטות הבאות:
      • הראשון: לכל קבוצת שורות עם אותם ערכים של מפתח ביטול הכפילויות, השיטה הזו בוחרת את השורה הראשונה על סמך הביטוי ORDER BY ומסירה את השאר.
      • האחרון: לכל קבוצת שורות עם אותם ערכים של מפתח ביטול הכפילויות, השיטה הזו בוחרת את השורה האחרונה על סמך הביטוי ORDER BY ומסירה את השאר.
      • Any: לכל קבוצת שורות עם אותם ערכים של מפתח לביטול כפילויות, השיטה הזו בוחרת שורה כלשהי מהקבוצה ומסירה את השאר.
      • ייחודיות: מסיר את כל השורות הכפולות בכל העמודות בטבלה.
    • בשדה מפתחות לביטול כפילויות, בוחרים עמודה אחת או יותר או ביטויים לזיהוי שורות כפולות. השדה הזה רלוונטי אם אסטרטגיית בחירת הרשומה היא First,‏ Last או Any.
    • בשדה Order by expression (סדר לפי ביטוי) מזינים ביטוי שמגדיר את סדר השורות. לדוגמה, כדי לבחור את השורה האחרונה, מזינים datetime DESC. כדי לבחור את השורה הראשונה לפי סדר אלפביתי של שמות, מזינים שם של עמודה כמו last_name. הביטוי פועל לפי אותם כללים כמו ORDER BY clause הסטנדרטי ב-BigQuery. השדה הזה רלוונטי רק אם אסטרטגיית בחירת הרשומה היא First או Last.
  4. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  5. לוחצים על אישור.

מחיקת עמודה

כדי למחוק עמודה אחת או יותר מהכנת הנתונים, פועלים לפי השלבים הבאים:

  1. בתצוגת הנתונים או הסכימה, בוחרים את העמודות שרוצים להסיר.
  2. לוחצים על שחרור. שלב חדש של פעולה שהוחלה יתווסף לעמודות שנמחקו.

הוספת פעולת איחוד באמצעות Gemini

כדי להוסיף שלב של פעולת צירוף בין שני מקורות בהכנת הנתונים, פועלים לפי השלבים הבאים:

  1. בתצוגת הנתונים של צומת בהכנת הנתונים, עוברים לרשימה הצעות ולוחצים על האפשרות צירוף.
  2. בתיבת הדו-שיח הוספת איחוד, לוחצים על עיון ואז בוחרים את הטבלה השנייה שמשתתפת בפעולת האיחוד (נקראת הצד השמאלי של האיחוד).
  3. אופציונלי: בוחרים את סוג פעולת הצירוף שרוצים לבצע, כמו צירוף פנימי.
  4. בודקים את המידע על מפתח הצירוף שנוצר על ידי Gemini בשדות הבאים:

    • תיאור האיחוד: תיאור בשפה טבעית של ביטוי ה-SQL לפעולת האיחוד. כשעורכים את התיאור הזה ולוחצים על שליחה שליחה, Gemini מציע תנאי צירוף חדשים של SQL.
    • תנאי איחוד: ביטויי ה-SQL בתוך פסוקית ON של פעולת האיחוד. אפשר להשתמש במגדירי המיקום L ו-R כדי להפנות לטבלאות המקוריות שמשמאל ומימין, בהתאמה. לדוגמה, כדי לצרף את העמודה customer_id מהטבלה הימנית לעמודה customer_id מהטבלה השמאלית, מזינים L.customerId = R.customerId. המסננים האלה לא תלויי אותיות רישיות.

  5. אופציונלי: כדי לשפר את ההצעות של Gemini, עורכים את השדה תיאור ההצטרפות ולוחצים על שליחה שליחה.

  6. אופציונלי: כדי לראות תצוגה מקדימה של הגדרות פעולת הצירוף של הכנת הנתונים, לוחצים על תצוגה מקדימה.

  7. לוחצים על אישור.

    נוצר שלב של פעולת הצטרפות. טבלת המקור שבחרתם (הצד השמאלי של פעולת הצירוף) ופעולת הצירוף משתקפים ברשימת השלבים שהוחלו ובצמתים בתצוגת הגרף של הכנת הנתונים.

נתונים מצטברים

  1. בתצוגת הנתונים או הסכימה, בוחרים באפשרות Aggregate (צבירה).
  2. בשדה Description (תיאור), מזינים הנחיה כמו Find the total revenue for a region.
  3. לוחצים על שליחה.

    ‫Gemini יוצר מפתחות לקיבוץ וביטויי צבירה על סמך ההנחיה.

  4. אופציונלי: עורכים את מפתחות הקיבוץ או את ביטויי הצבירה שנוצרו, אם צריך.

  5. אופציונלי: אפשר להוסיף ידנית מפתחות קיבוץ וביטויי צבירה.

    • בשדה Grouping keys (מפתחות לקיבוץ), מזינים שם של עמודה או ביטוי. אם משאירים את השדה הזה ריק, הטבלה שמתקבלת כוללת שורה אחת. אם מזינים ביטוי, צריך להגדיר לו שם (סעיף AS), למשל EXTRACT(YEAR FROM order_date) AS order_year. אסור להשתמש בכפילויות.
    • בשדה Aggregation expressions (ביטויי צבירה), מזינים ביטוי צבירה עם כינוי (סעיף AS). לדוגמה: SUM(quantity) AS total_quantity. אפשר להזין כמה ביטויים מופרדים בפסיקים. אסור להשתמש בערכים כפולים. רשימה של ביטויי הצבירה הנתמכים מופיעה במאמר בנושא פונקציות צבירה.
  6. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.

  7. לוחצים על אישור.

הגדרה של טבלת השגיאות והוספה של כלל אימות

אפשר להוסיף מסנן שיוצר כלל אימות, ששולח שגיאות לטבלת שגיאות או גורם לכך שהרצת הכנת הנתונים תיכשל.

הגדרה של טבלת השגיאות

כדי להגדיר את טבלת השגיאות:

  1. בסרגל הכלים של כלי ההכנה של הנתונים, לוחצים על סמל האפשרויות הנוספות > טבלת שגיאות.
  2. לוחצים על הפעלת טבלת שגיאות.
  3. מגדירים את המיקום של הטבלה.
  4. אופציונלי: מגדירים את משך הזמן המקסימלי לשמירת שגיאות.
  5. לוחצים על Save.

הוספת כלל אימות

כדי להוסיף כלל אימות:

  1. בתצוגת הנתונים או הסכימה, לוחצים על האפשרות סינון. אפשר גם לבחור עמודות כדי לעזור ל-Gemini להבין את מסנן הנתונים.
  2. מזינים תיאור לשלב.
  3. מזינים ביטוי SQL בצורה של פסקה WHERE.
  4. אופציונלי: אם רוצים שהביטוי SQL יפעל ככלל אימות, מסמנים את תיבת הסימון Failed validation rows go to error table (שורות שהאימות שלהן נכשל מועברות לטבלת השגיאות). אפשר גם לשנות מסנן לאימות בסרגל הכלים של הכנת הנתונים. לשם כך לוחצים על סמל האפשרויות הנוספות > טבלת שגיאות.
  5. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  6. לוחצים על אישור.

הוספה או שינוי של טבלת יעד

כדי להפעיל או לתזמן את הכנת הנתונים, צריך טבלת יעד. כדי להוסיף או לשנות טבלת יעד לפלט של הכנת הנתונים:

  1. בתצוגת הנתונים או הסכימה, לוחצים על יעד ברשימה הצעות.
  2. בוחרים את הפרויקט שבו מאוחסנת טבלת היעד.
  3. בוחרים אחת מקבוצות הנתונים או טוענים קבוצת נתונים חדשה.
  4. מזינים טבלת יעד. אם הטבלה לא קיימת, הכנת הנתונים יוצרת טבלה חדשה בהרצה הראשונה. מידע נוסף זמין במאמר בנושא מצב כתיבה.
  5. בוחרים את קבוצת הנתונים כיעד.
  6. לוחצים על Save.

הצגת דגימת הנתונים והסכימה של שלב שהוחל

כדי לראות פרטים על דוגמאות וסכימות בשלב מסוים בהכנת הנתונים:

  1. בכלי לעריכת הכנת הנתונים, עוברים לרשימה Steps ולוחצים על Applied steps.
  2. בוחרים שלב. יופיעו הכרטיסיות נתונים וסכימה, שבהן יוצגו דוגמת הנתונים והסכימה נכון לשלב הזה.

עריכת שלב שהוחל

כדי לערוך שלב שהוחל:

  1. בכלי לעריכת הכנת הנתונים, עוברים לרשימה Steps ולוחצים על Applied steps.
  2. בוחרים שלב.
  3. לצד השלב, לוחצים על more_vert סמל התפריט > עריכה.
  4. בתיבת הדו-שיח עריכת שלב שהוחל, אפשר לבצע את הפעולות הבאות:
    • עורכים את התיאור של השלב.
    • עורכים את התיאור ולוחצים על שליחה שליחה כדי לקבל הצעות מ-Gemini.
    • עורכים את ביטוי ה-SQL.
  5. בשדה Target column, בוחרים עמודה.
  6. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  7. לוחצים על אישור.

מחיקת שלב שהוחל

כדי למחוק שלב שהוחל:

  1. בכלי לעריכת הכנת הנתונים, עוברים לרשימה Steps ולוחצים על Applied steps.
  2. בוחרים שלב.
  3. לוחצים על more_vert תפריט > מחיקה.

הפעלת תהליך הכנת הנתונים

אחרי שמוסיפים את השלבים להכנת הנתונים, מגדירים את היעד ומתקנים את שגיאות האימות, אפשר להריץ בדיקות על מדגם של הנתונים, או לפרוס את השלבים ולתזמן הרצות של הכנת הנתונים. מידע נוסף אפשר למצוא במאמר בנושא תזמון של הכנת נתונים.

רענון הדוגמאות להכנת נתונים

הנתונים בדגימה לא מתעדכנים אוטומטית. אם הנתונים בטבלאות המקוריות של הכנת הנתונים השתנו, אבל השינויים לא משתקפים במדגם הנתונים של ההכנה, לוחצים על סמל האפשרויות הנוספות > רענון המדגם.

המאמרים הבאים