ההסברים הבאים יעזרו לכם להבין איך Dataproc Metastore פועל ואילו תכונות שונות תוכלו להשתמש בשירות.
גרסאות של Dataproc Metastore
כשיוצרים שירות Dataproc Metastore, אפשר לבחור להשתמש בשירות Dataproc Metastore 2 או בשירות Dataproc Metastore 1.
Dataproc Metastore 2
ב-Dataproc Metastore 2 נעשה שימוש בגורם לקביעת קנה מידה כדי לקבוע כמה משאבים השירות שלכם צורך בפרק זמן נתון. אחרי שיוצרים Dataproc Metastore 2, אפשר להגדיל או להקטין את השירות על ידי שינוי גורם לקביעת קנה מידה.
Dataproc Metastore 2 הוא הדור החדש של השירות, שמציע יכולת הרחבה אופקית בנוסף לתכונות של Dataproc Metastore. מידע נוסף זמין במאמר בנושא תכונות ויתרונות.
ל-Dataproc Metastore 2 יש תוכנית תשלומים שונה מזו של Dataproc Metastore. מידע נוסף זמין במאמר בנושא תוכניות תמחור והגדרות של שינוי גודל.
Dataproc Metastore 1
ב-Dataproc Metastore 1, רמות השירות משמשות לקביעת מספר המשאבים שהשירות משתמש בהם בזמן נתון. רמות השירות מספקות כמות צפויה ומוגדרת מראש של משאבים.
בדיקת הגרסה של Dataproc Metastore
אפשר לבדוק איזו גרסה של Dataproc Metastore נמצאת בשימוש בGoogle Cloud מסוף.
- Dataproc Metastore 2: בטבלת ההגדרות מופיע הערך Edition Enterprise - Single Region.
- Dataproc Metastore 1: טבלת ההגדרות מכילה אחד מהערכים הבאים: Tier: DEVELOPER או Tier: ENTERPRISE.
מונחים נפוצים ב-Dataproc Metastore
המונחים הבאים נמצאים בשימוש נפוץ במערכת האקולוגית של Dataproc Metastore ובמסמכי התיעוד שלה.
שירותים
- Apache Hive. Hive היא מערכת פופולרית של מחסן נתונים בקוד פתוח, שמבוססת על Apache Hadoop. Hive מציע שפת שאילתות דמוית-SQL שנקראת HiveQL, שמשמשת לניתוח של מערכי נתונים גדולים ומובְנים.
- Apache Hive metastore. מאגר המטא-נתונים של Hive מכיל מטא-נתונים על טבלאות Hive, כמו הסכימה והמיקום שלהן.
- Dataproc. Dataproc הוא שירות מנוהל באופן מלא ב- Google Cloud , שקל ומהיר לשימוש, להרצת עומסי עבודה (workload) של Apache Spark ו-Apache Hadoop בצורה פשוטה וחסכונית. אחרי שיוצרים Dataproc Metastore, אפשר להתחבר אליו מאשכול Dataproc.
- אשכול Dataproc. אחרי שיוצרים שירות Dataproc Metastore, אפשר להתחבר אליו מאשכול Dataproc. אפשר גם להשתמש ב-Dataproc Metastore עם אשכולות שונים אחרים, כמו אשכולות של Apache Hive, Apache Spark או Presto בניהול עצמי.
- שירות Dataproc Metastore. השם של מופע ה-metastore שיוצרים ב- Google Cloud. יכול להיות לכם שירות אחד או כמה שירותים שונים של metastore בהטמעה.
- Private Service Connect. באמצעות Private Service Connect אפשר להגדיר חיבור פרטי למטא-נתונים של Dataproc Metastore ברשתות VPC. אפשר להשתמש בו לרישות כחלופה ל-VPC Peering.
- VPC Service Controls. VPC Service Controls משפר את היכולת שלכם לצמצם את הסיכון לזליגת נתונים משירותים, כי הוא מאפשר לכם ליצור גבולות גזרה שמגנים על המשאבים ועל הנתונים של שירותים שאתם מציינים באופן מפורש. Google Cloud
מושגים
- טבלאות. לכל האפליקציות של Hive יש טבלאות פנימיות מנוהלות או טבלאות חיצוניות לא מנוהלות שבהן מאוחסנים הנתונים.
- ספריית מחסן Hive. מיקום ברירת המחדל שבו מאוחסנים נתונים של טבלאות מנוהלות.
- Artifacts bucket. קטגוריה של Cloud Storage שנוצרת בפרויקט שלכם באופן אוטומטי עם כל שירות של מאגר מטא-נתונים שאתם יוצרים. אפשר להשתמש בדלי הזה כדי לאחסן את הארטיפקטים של השירות, כמו מטא-נתונים מיוצאים ונתוני טבלה מנוהלים. כברירת מחדל, קטגוריית הארטיפקטים שומרת את ספריית מחסן הנתונים שמוגדרת כברירת מחדל בשירות Dataproc Metastore.
- נקודות קצה. שירות Dataproc Metastore מספק ללקוחות גישה למטא-נתונים של Hive Metastore שמאוחסנים דרך נקודת קצה אחת או יותר ברשת. Dataproc Metastore מספק URI לנקודות הקצה האלה.
- פרוטוקולים של נקודות קצה. פרוטוקול הרשת שמשמש לתקשורת בין Dataproc Metastore לבין לקוחות Hive Metastore. Dataproc Metastore תומך בנקודות קצה של Apache Thrift ו-gRPC.
- Metadata Federation. תכונה שמאפשרת לכם לגשת למטא-נתונים שמאוחסנים בכמה מופעים של Dataproc Metastore.
- גרסאות עזר. תכונה שמאפשרת לחבר כמה גרסאות של לקוח Hive לאותו שירות Dataproc Metastore.
מושגים במאגר המידע של Hive
כדי להשתמש בשירות Dataproc Metastore, צריך להבין את המושגים הבסיסיים של Hive metastore. מידע נוסף זמין במאמר בנושא Hive Metastore.
דרישות רשת
כדי ששירות Dataproc Metastore יפעל בצורה תקינה, הוא צריך גישה לרשת. מידע נוסף זמין במאמר בנושא הגדרת דרישות הרשת.
הגדרות אישיות של פרויקטים
יש כמה תצורות פרויקט שאפשר להשתמש בהן כשפורסים אשכול Dataproc ושירות Dataproc Metastore. מידע נוסף זמין במאמר בנושא פריסה בין פרויקטים.