במאמר הזה מוסבר מהם אזורים ב-Dataplex Universal Catalog ואיך מוסיפים אותם לאגם ב-Dataplex Universal Catalog.
סקירה כללית
אזורים ב-Dataplex Universal Catalog הם ישויות שקיבלו שם בתוך אגם Dataplex Universal Catalog. הם קיבוצים לוגיים של נתונים לא מובנים, חצי מובנים ומובנים, שמורכבים מכמה נכסים, כמו בקטים של Cloud Storage, מערכי נתונים של BigQuery וטבלאות של BigQuery.
אגם יכול לכלול אזור אחד או יותר. אזור יכול להיות חלק מאגם אחד בלבד, אבל הוא יכול להכיל נכסים שמפנים למשאבים שהם חלק מפרויקטים מחוץ לפרויקט האב שלו.
אפשר לבחור הגדרות לאזור ב-Dataplex Universal Catalog. יש שני סוגים של אזורים שאפשר לבחור מביניהם: גולמי ומסונן.
אזורים גולמיים
באזורי נתונים גולמיים מאוחסנים נתונים מובנים, נתונים חצי-מובנים כמו קובצי CSV וקובצי JSON, ונתונים לא מובנים בכל פורמט ממקורות חיצוניים. אזורים גולמיים שימושיים להכנת נתונים גולמיים לפני ביצוע טרנספורמציות. אפשר לאחסן את הנתונים בדליים של Cloud Storage או במערכי נתונים של BigQuery.
אזורים גולמיים תומכים ברזולוציה ברמת הדלי או ברמת מערך הנתונים להרשאות קריאה וכתיבה. אין הגבלות על סוג הנתונים שאפשר לאחסן באזורים של נתונים גולמיים.
אזורים שנבחרו במיוחד
אזורים מפוקחים מאחסנים נתונים מובְנים. אפשר לאחסן את הנתונים בדליים ב-Cloud Storage או במערכי נתונים ב-BigQuery.
הפורמטים הנתמכים לקטגוריות של Cloud Storage כוללים Parquet, Avro ו-ORC. אזורים מנוהלים שימושיים להכנת נתונים שנדרש עיבוד שלהם לפני השימוש בהם לניתוח, או להצגת נתונים שמוכנים לניתוח.
בטבלאות BigQuery, צריך להגדיר סכימה מוגדרת היטב ומחיצות בסגנון Hive. כשמספקים סכימה לטבלה מסוימת באזור מנוהל, הנתונים צריכים להתאים לסכימה שהוגדרה לטבלה ללא סחיפת סכימה. כלומר, הנתונים צריכים להיות תואמים לסכימה שהוגדרה לטבלה, ולמחיצות החדשות לא צריכה להיות סכימה שמתנגשת עם סכימת הטבלה.
אזורים מנוהלים תומכים בגרנולריות ברמת הקטגוריה ב-Cloud Storage או ברמת מערך הנתונים ב-BigQuery להרשאות קריאה וכתיבה.
לפני שמתחילים
כדי להוסיף אזורים לאגם, צריך קודם ליצור אגם. אם עדיין לא עשיתם זאת, צרו אגם.
רוב הפקודות של gcloud lake דורשות מיקום. אפשר לציין את המיקום על ידי הגדרת הפרמטר --location.
התפקידים הנדרשים
כדי לקבל את ההרשאה שנדרשת להוספת אזור, צריך לבקש מהאדמין להקצות לכם את התפקיד Dataplex Administrator (roles/dataplex.admin) ב-IAM בפרויקט.
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקיד המוגדר מראש הזה מכיל את ההרשאה dataplex.lakes.create שנדרשת כדי להוסיף אזור.
יכול להיות שתוכלו לקבל את ההרשאה הזו גם בתפקידים בהתאמה אישית או בתפקידים אחרים שמוגדרים מראש.
הוספת אזור
אפשר להוסיף כמה אזורים לאגם. אפשר להוסיף אזור אחד בכל פעם, אבל עדיין להשתמש באגם בזמן יצירת האזור.
כדי להוסיף אזור לאגם קיים, פועלים לפי השלבים הבאים:
המסוף
במסוף Google Cloud , נכנסים לדף Lakes בקטלוג האוניברסלי של Dataplex.
לוחצים על השם של האגם שרוצים להוסיף לו אזור.
בכרטיסייה אזורים, לוחצים על הוספת אזור.
מזינים שם תצוגה לאזור.
לוחצים על התפריט סוג. בוחרים באפשרות אזור גולמי או אזור מנוהל. מידע נוסף על סוגי אזורים נתמכים
אופציונלי: מזינים תיאור.
בקטע מיקומי נתונים, בוחרים באפשרות אזורי או רב-אזורי. לא ניתן לשנות את הבחירה הזו בשלב מאוחר יותר. אי אפשר לערבב נתונים מאזור יחיד וממספר אזורים באותו תחום.
אופציונלי: מפעילים את האפשרות 'גילוי מטא-נתונים', שמאפשרת ל-Dataplex Universal Catalog לסרוק באופן אוטומטי את המטא-נתונים מהנתונים באזור שלכם ולחלץ אותם:
לוחצים על הגדרות גילוי.
מוודאים שהאפשרות הפעלת איתור מטא-נתונים מסומנת.
אופציונלי: בקטע Include patterns, מפרטים את הקבצים שרוצים לכלול בסריקות לגילוי.
אופציונלי: בקטע Exclude patterns (דפוסי החרגה), מפרטים את הקבצים שרוצים להחריג מסריקות הגילוי. אם מזינים גם דפוסי הכללה וגם דפוסי החרגה, דפוסי ההחרגה מוחלים קודם.
לוחצים על התפריט Repeats (חזרות) ובוחרים תדירות. אם בוחרים באפשרות בהתאמה אישית, מזינים תזמון של העבודה בשדה תזמון. אחרת, הערך של Schedule ימולא אוטומטית.
לוחצים על התפריט אזור זמן ובוחרים אזור זמן.
לוחצים על יצירה.
REST
כדי להוסיף אזור, משתמשים ב-method lakes.zones.create.
יכול להיות שיעברו כמה דקות עד שהאזור ייווצר.
אם יצירת האזור מצליחה, האזור עובר אוטומטית למצב פעיל. אם הפעולה נכשלת, האגם חוזר למצב הקודם שלו.
אחרי שיוצרים את האזור, אפשר למפות נתונים שמאוחסנים בקטגוריות של Cloud Storage ובמערכי נתונים ב-BigQuery כנכסים באזור. מידע נוסף מופיע במאמר הוספת נכס.