מבוא לצינורות עיבוד נתונים ב-BigQuery
אתם יכולים להשתמש בצינורות של BigQuery כדי לבצע אוטומציה ולייעל את תהליכי הנתונים של BigQuery. בעזרת צינורות עיבוד נתונים, אתם יכולים לתזמן ולהפעיל נכסי קוד ברצף כדי לשפר את היעילות ולצמצם את המאמץ הידני.
סקירה כללית
הצינורות מופעלים על ידי Dataform.
צינור מכיל נכסי קוד אחד או יותר מהסוגים הבאים:
אתם יכולים להשתמש בצינורות עיבוד נתונים כדי לתזמן את ההפעלה של נכסי קוד. לדוגמה, אפשר לתזמן שאילתת SQL שתפעל מדי יום ותעדכן טבלה עם נתוני המקור העדכניים ביותר, שיוכלו לשמש ליצירת לוח בקרה.
בצינור עם כמה נכסי קוד, מגדירים את רצף ההפעלה. לדוגמה, כדי לאמן מודל של למידת מכונה, אפשר ליצור תהליך עבודה שבו שאילתת SQL מכינה את הנתונים, ואז מחברת מחברת עוקבת מאמנת את המודל באמצעות הנתונים האלה.
יכולות
אלה הפעולות שאפשר לבצע בצינור:
- יצירה של שאילתות SQL או מחברות חדשות או ייבוא של שאילתות או מחברות קיימות לצינור עיבוד נתונים.
- מתזמנים צינור לעיבוד נתונים כך שיפעל אוטומטית בזמן ובתדירות שצוינו.
- שיתוף צינור עם משתמשים או קבוצות שאתם מציינים.
- שיתוף קישור לצינור.
מגבלות
הגבלות על צינורות מכירה:
- צינורות זמינים רק במסוף Google Cloud .
- אי אפשר לשנות את האזור לאחסון צינור לאחר שהוא נוצר.
- אתם יכולים להעניק למשתמשים או לקבוצות גישה לצינור נתונים נבחר, אבל לא תוכלו להעניק להם גישה למשימות ספציפיות בצינור הנתונים.
- אם הפעלה מתוזמנת של צינור לא מסתיימת לפני תחילת ההפעלה המתוזמנת הבאה, ההפעלה המתוזמנת הבאה מדלגת ומסומנת בשגיאה.
הגדרת אזור ברירת המחדל לנכסי קוד
אם זו הפעם הראשונה שאתם יוצרים נכס קוד, אתם צריכים להגדיר את אזור ברירת המחדל לנכסי קוד. אי אפשר לשנות את האזור של נכס קוד אחרי שהוא נוצר.
כל נכסי הקוד ב-BigQuery Studio משתמשים באותו אזור ברירת מחדל. כדי להגדיר את אזור ברירת המחדל לנכסי קוד:
עוברים לדף BigQuery.
בחלונית Explorer, מחפשים את הפרויקט שבו הפעלתם נכסי קוד.
לצד הפרויקט, לוחצים על View actions (הצגת פעולות) ואז על Change my default code region (שינוי אזור הקוד שמוגדר כברירת מחדל).
בקטע Region בוחרים את האזור שבו רוצים להשתמש בנכסי קוד.
לוחצים על בחירה.
רשימת האזורים הנתמכים מופיעה במאמר מיקומים ב-BigQuery Studio.
אזורים נתמכים
כל נכסי הקוד מאוחסנים באזור ברירת המחדל לנכסי קוד. עדכון אזור ברירת המחדל משנה את האזור של כל נכסי הקוד שנוצרו אחרי העדכון.
בטבלה הבאה מפורטים האזורים שבהם אפשר להשתמש בצינורות:
| תיאור האזור | שם האזור | פרטים | |
|---|---|---|---|
| אפריקה | |||
| יוהנסבורג | africa-south1 |
||
| אמריקה | |||
| קולומבוס | us-east5 |
||
| דאלאס | us-south1 |
|
|
| אייווה | us-central1 |
|
|
| לאס וגאס | us-west4 |
||
| לוס אנג'לס | us-west2 |
||
| מקסיקו | northamerica-south1 |
||
| מונטריאול | northamerica-northeast1 |
|
|
| צפון וירג'יניה | us-east4 |
||
| אוקלהומה | us-central2 |
|
|
| אורגון | us-west1 |
|
|
| סולט לייק סיטי | us-west3 |
||
| סנטיאגו | southamerica-west1 |
|
|
| סאו פאולו | southamerica-east1 |
|
|
| דרום קרוליינה | us-east1 |
||
| טורונטו | northamerica-northeast2 |
|
|
| אסיה והאוקיינוס השקט | |||
| בנגקוק | asia-southeast3 |
||
| דלהי | asia-south2 |
||
| הונג קונג | asia-east2 |
||
| ג'קארטה | asia-southeast2 |
||
| מלבורן | australia-southeast2 |
||
| מומבאי | asia-south1 |
||
| אוסקה | asia-northeast2 |
||
| סיאול | asia-northeast3 |
||
| סינגפור | asia-southeast1 |
||
| סידני | australia-southeast1 |
||
| טייוואן | asia-east1 |
||
| טוקיו | asia-northeast1 |
||
| אירופה | |||
| בלגיה | europe-west1 |
|
|
| ברלין | europe-west10 |
||
| פינלנד | europe-north1 |
|
|
| פרנקפורט | europe-west3 |
||
| לונדון | europe-west2 |
|
|
| מדריד | europe-southwest1 |
|
|
| מילאנו | europe-west8 |
||
| הולנד | europe-west4 |
|
|
| פריז | europe-west9 |
|
|
| שטוקהולם | europe-north2 |
|
|
| טורינו | europe-west12 |
||
| ורשה | europe-central2 |
||
| ציריך | europe-west6 |
|
|
| המזרח התיכון | |||
| דמאם | me-central2 |
||
| דוחה | me-central1 |
||
| תל אביב | me-west1 |
||
מכסות ומגבלות
צינורות BigQuery כפופים למכסות ומגבלות של Dataform.
תמחור
הפעלת משימות של צינורות עיבוד נתונים ב-BigQuery כרוכה בחיובים על מחשוב ואחסון ב-BigQuery. מידע נוסף זמין במאמר תמחור ב-BigQuery.
צינורות שמכילים קובצי notebook כרוכים בחיובים על זמן הריצה ב-Colab Enterprise על סמך סוג המכונה שמוגדר כברירת מחדל. פרטים על התמחור זמינים במאמר תמחור של Colab Enterprise.
כל הפעלה של צינור נתונים ב-BigQuery מתועדת באמצעות Cloud Logging. הרישום ביומן מופעל באופן אוטומטי להפעלות של צינורות נתונים ב-BigQuery, ויכול להיות שתצברו חיובים ב-Cloud Logging. מידע נוסף זמין במאמר תמחור של Cloud Logging.