Dataproc Metastore הוא Apache Hive metastore (HMS) מנוהל באופן מלא שפועל ב- Google Cloud. HMS הוא התקן המקובל במערכת האקולוגית של נתונים גדולים בקוד פתוח לניהול מטא-נתונים טכניים, כמו סכימות, מחיצות וסטטיסטיקות של עמודות במסד נתונים רלציוני.
Dataproc Metastore הוא שירות עם זמינות גבוהה, תיקון תוכנה אוטומטי (autohealing) וללא שרת (serverless). אפשר להשתמש בו כדי לנהל מטא-נתונים של data lake ולספק יכולת פעולה הדדית בין מנועי עיבוד הנתונים והכלים השונים שבהם אתם משתמשים.
איך Dataproc Metastore פועל
אפשר להשתמש בשירות Dataproc Metastore על ידי חיבור שלו לאשכול Dataproc. אשכול Dataproc כולל רכיבים שמסתמכים על HMS כדי להניע את תכנון השאילתות והביצוע שלהן.
השילוב הזה מאפשר לכם לשמור את פרטי הטבלה בין משימות או להפוך מטא-נתונים לזמינים לאשכולות אחרים ולמנועי עיבוד אחרים.
לדוגמה, הטמעה של מאגר מטא-נתונים יכולה לעזור לכם לציין שקבוצת משנה של הקבצים מכילה נתוני הכנסות, במקום לעקוב אחרי שמות הקבצים באופן ידני. במקרה כזה, אפשר להגדיר טבלה לקבצים האלה ולאחסן את המטא-נתונים ב-Dataproc Metastore. אחרי זה, אפשר לקשר אותו לאשכול Dataproc ולבצע שאילתות בטבלה כדי לקבל מידע באמצעות Hive, Spark SQL או שירותי שאילתות אחרים.
גרסאות של Dataproc Metastore
כשיוצרים שירות Dataproc Metastore, אפשר לבחור להשתמש בשירות Dataproc Metastore 2 או בשירות Dataproc Metastore 1.
Dataproc Metastore 2 הוא הדור החדש של השירות, שמציע יכולת הרחבה אופקית בנוסף לתכונות של Dataproc Metastore 1. מידע נוסף זמין במאמר בנושא תכונות ויתרונות.
ל-Dataproc Metastore 2 יש תוכנית תשלומים שונה מזו של Dataproc Metastore. מידע נוסף זמין במאמר בנושא תוכניות תמחור והגדרות של שינוי גודל.
תרחישים נפוצים לדוגמה
כל תרחישי השימוש שמפורטים בקטע הזה נתמכים על ידי Dataproc Metastore 2 ו-Dataproc Metastore 1, אלא אם צוין אחרת.
הגדרת משמעות לנתונים. יצירת מאגר מטא-נתונים מרכזי שמשותף בין הרבה אשכולות Dataproc זמניים. שימוש במנועי תוכנת קוד פתוח (OSS) שונים, כמו Apache Hive, Apache Spark ו-Presto.
איך ליצור תצוגה מאוחדת של הנתונים לספק יכולת פעולה הדדית בין שירותים, כמו Dataproc, Dataplex Universal Catalog ו-BigQuery, או להשתמש במוצרים אחרים של שותפים שמבוססים על קוד פתוח ב-Google Cloud.Google Cloud
תכונות ויתרונות
כל התכונות שמפורטות בקטע הזה נתמכות ב-Dataproc Metastore 2 וב-Dataproc Metastore 1, אלא אם צוין אחרת.
תאימות ל-OSS. התחברות למנועי עיבוד נתונים קיימים, כמו Apache Hive, Apache Spark ו-Presto.
ניהול. אפשר ליצור או לעדכן חנות מטא-נתונים תוך דקות, עם משימות מעקב ותפעול מוגדרות במלואן.
Integration. שילוב עם מוצרים אחרים Google Cloud , כמו שימוש ב-BigQuery כמקור למטא-נתונים עבור אשכול Dataproc.
אבטחה מובנית. שימוש בפרוטוקולי אבטחה מבוססים של Google Cloud , כמו ניהול זהויות והרשאות גישה (IAM) ואימות Kerberos.
ייבוא פשוט. ייבוא של מטא-נתונים קיימים שמאוחסנים ב-metastore חיצוני של Hive Metastore לשירות Dataproc Metastore.
גיבויים אוטומטיים. כדי למנוע אובדן נתונים, מומלץ להגדיר גיבויים אוטומטיים של מאגר המטא-נתונים.
מעקב אחרי ביצועים. הגדרת רמות ביצועים כדי להגיב באופן דינמי לעומסי עבודה ולשיאים אינטנסיביים במיוחד, בלי חימום מראש או שמירה במטמון.
זמינות גבוהה (HA).
- Dataproc Metastore 2. השירות מספק זמינות גבוהה (HA) אזורית בלי לדרוש הגדרה ספציפית או ניהול שוטף. התהליך הזה מתבצע על ידי יצירת רפליקות אוטומטיות של מסדי נתונים בעורף ושל שרתי HMS בכמה אזורים באזור שתבחרו. בנוסף לזמינות גבוהה אזורית, Dataproc Metastore 2 תומך בזמינות גבוהה אזורית ובאפשרות של התאוששות מאסון (DR).
- Dataproc Metastore 1. כברירת מחדל, מספק זמינות גבוהה (HA) אזורית בלי לדרוש הגדרה ספציפית או ניהול שוטף. הדבר מתבצע על ידי שכפול אוטומטי של מסדי נתונים בעורף המערכת ושל שרתי HMS בכמה אזורים באזור שבחרתם.
מידע נוסף על שיקולים ספציפיים לאזור זמין במאמר מיקום גיאוגרפי ואזורים.
מדרגיות.
- Dataproc Metastore 2. משתמשים בגורם לקביעת קנה מידה אופקי כדי לקבוע כמה משאבים השירות צריך להשתמש בהם בזמן נתון. אפשר לשלוט בגורם לקביעת קנה מידה באופן ידני או להגדיר אותו להתאמה אוטומטית לעומס לפי הצורך.
- Dataproc Metastore 1. כשמגדירים את השירות, בוחרים בין רמת מפתח או רמת ארגון. הרמה הזו קובעת כמה משאבים השירות צריך להשתמש בהם בכל זמן נתון.
תמיכה. ליהנות מהסכמי רמת שירות (SLA) רגילים ומערוצי תמיכה. Google Cloud
שילובים עם Google Cloud
כל השילובים שמפורטים בקטע הזה נתמכים על ידי Dataproc Metastore 1 ו-Dataproc Metastore 2, אלא אם צוין אחרת.
- Dataproc. מתחברים לאשכול Dataproc כדי להציג מטא-נתונים לעומסי עבודה של נתונים גדולים ב-OSS.
- BigQuery. הרצת שאילתות במערכי נתונים של BigQuery בעומסי העבודה של Dataproc.
- Dataplex Universal Catalog יצירת שאילתות לנתונים מובְנים ולנתונים חצי-מובְנים שמתגלים באגם של Dataplex Universal Catalog.
- Data Catalog. סנכרון של Dataproc Metastore עם Data Catalog כדי לאפשר חיפוש וגילוי של מטא-נתונים.
- רישום ביומן ומעקב. שילוב של Dataproc Metastore עם מוצרי Cloud Monitoring ו-Logging.
- אימות ו-IAM. להסתמך על אימות OAuth רגיל שמשמש מוצרים אחרים שלGoogle Cloud , שתומך בשימוש בתפקידים מפורטים של ניהול זהויות והרשאות גישה כדי להפעיל בקרת גישה למשאבים ספציפיים.
השלבים הבאים
- כדאי להתחיל עם המדריך למתחילים בנושא פריסת שירות Dataproc Metastore.
- מידע על התמחור של Dataproc Metastore
- הסבר על המכסות והמגבלות ב-Dataproc Metastore
- הערות המוצר של Dataproc Metastore
- אפשר לגשת ל-Dataproc Metastore באמצעות מסוףGoogle Cloud , באמצעות Google Cloud CLI או באמצעות Dataproc Metastore API.