Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

הוספת אזור

במאמר הזה מוסבר מהם אזורים ב-Dataplex Universal Catalog ואיך מוסיפים אותם לאגם ב-Dataplex Universal Catalog.

סקירה כללית

אזורים ב-Dataplex Universal Catalog הם ישויות שקיבלו שם בתוך אגם Dataplex Universal Catalog. הם קיבוצים לוגיים של נתונים לא מובנים, חצי מובנים ומובנים, שמורכבים מכמה נכסים, כמו בקטים של Cloud Storage, מערכי נתונים של BigQuery וטבלאות של BigQuery.

אגם יכול לכלול אזור אחד או יותר. אזור יכול להיות חלק מאגם אחד בלבד, אבל הוא יכול להכיל נכסים שמפנים למשאבים שהם חלק מפרויקטים מחוץ לפרויקט האב שלו.

אפשר לבחור הגדרות לאזור ב-Dataplex Universal Catalog. יש שני סוגים של אזורים שאפשר לבחור מביניהם: גולמי ומסונן.

אזורים גולמיים

באזורי נתונים גולמיים מאוחסנים נתונים מובנים, נתונים חצי-מובנים כמו קובצי CSV וקובצי JSON, ונתונים לא מובנים בכל פורמט ממקורות חיצוניים. אזורים גולמיים שימושיים להכנת נתונים גולמיים לפני ביצוע טרנספורמציות. אפשר לאחסן את הנתונים בדליים של Cloud Storage או במערכי נתונים של BigQuery.

אזורים גולמיים תומכים ברזולוציה ברמת הדלי או ברמת מערך הנתונים להרשאות קריאה וכתיבה. אין הגבלות על סוג הנתונים שאפשר לאחסן באזורים של נתונים גולמיים.

אזורים שנבחרו במיוחד

אזורים מפוקחים מאחסנים נתונים מובְנים. אפשר לאחסן את הנתונים בדליים ב-Cloud Storage או במערכי נתונים ב-BigQuery.

הפורמטים הנתמכים לקטגוריות של Cloud Storage כוללים Parquet,‏ Avro ו-ORC. אזורים מנוהלים שימושיים להכנת נתונים שנדרש עיבוד שלהם לפני השימוש בהם לניתוח, או להצגת נתונים שמוכנים לניתוח.

בטבלאות BigQuery, צריך להגדיר סכימה מוגדרת היטב ומחיצות בסגנון Hive. כשמספקים סכימה לטבלה מסוימת באזור מנוהל, הנתונים צריכים להתאים לסכימה שהוגדרה לטבלה ללא סחיפת סכימה. כלומר, הנתונים צריכים להיות תואמים לסכימה שהוגדרה לטבלה, ולמחיצות החדשות לא צריכה להיות סכימה שמתנגשת עם סכימת הטבלה.

אזורים מנוהלים תומכים בגרנולריות ברמת הקטגוריה ב-Cloud Storage או ברמת מערך הנתונים ב-BigQuery להרשאות קריאה וכתיבה.

לפני שמתחילים

כדי להוסיף אזורים לאגם, צריך קודם ליצור אגם. אם עדיין לא עשיתם זאת, צרו אגם.

רוב הפקודות של gcloud lake דורשות מיקום. אפשר לציין את המיקום על ידי הגדרת הפרמטר --location.

התפקידים הנדרשים

כדי לקבל את ההרשאה שנדרשת להוספת אזור, צריך לבקש מהאדמין להקצות לכם את התפקיד Dataplex Administrator (roles/dataplex.admin) ב-IAM בפרויקט. להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקיד המוגדר מראש הזה מכיל את ההרשאה dataplex.lakes.create שנדרשת כדי להוסיף אזור.

יכול להיות שתוכלו לקבל את ההרשאה הזו גם בתפקידים בהתאמה אישית או בתפקידים אחרים שמוגדרים מראש.