Lakehouse for Apache Iceberg תומך בכמה סוגים של טבלאות, ומציע רמות שונות של ניהול, ביצועים ויכולת פעולה הדדית עבור ה-Lakehouse ב-Google Cloud. בהתאם למקור הנתונים, לדרישות של מנוע הכתיבה ולצרכים שלכם בנוגע לבקרה, אתם יכולים לבחור פורמטים של טבלאות שנתמכים על ידי קטלוג זמן הריצה של Lakehouse או על ידי BigQuery.
פורמטים נתמכים של טבלאות
יש תמיכה בטבלאות Apache Iceberg V2 (זמינות כללית) ובטבלאות V3 (גרסת Preview). אין תמיכה בטבלאות Iceberg V1. לפני שמשתמשים בטבלאות קיימות בגרסה 1 עם Lakehouse for Apache Iceberg, צריך לשדרג אותן לגרסה נתמכת. מידע נוסף זמין במאמר בנושא שדרוג טבלאות Iceberg V1 ל-V2.
פורמטים של טבלאות לפי קטלוג ומנוע
אפשר לבחור קטלוג או מנוע מהרשימה שלמטה כדי לקבל מידע על פורמטים נתמכים של טבלאות, על הגדרת מאגר מטא-נתונים, על יכולות אופטימיזציה של אחסון ועל יכולת פעולה הדדית של מנועים.
קטלוג REST של Iceberg
הקטלוג של Lakehouse runtime מנהל טבלאות של Apache Iceberg דרך נקודת הקצה של קטלוג REST של Iceberg, ומספק ממשק REST סטנדרטי לתאימות רחבה עם מנועי קוד פתוח כמו Apache Spark, Apache Flink ו-Trino. אתם יוצרים את הטבלאות האלה ממנועי קוד פתוח ומאחסנים אותן ב-Cloud Storage. האפשרות הזו מתאימה אם אתם רוצים שמנועי קוד פתוח ינהלו את תהליך העבודה של ה-ETL, ונדרשת רק גישת קריאה מ-BigQuery.
בין התכונות העיקריות:
- Metastore: קטלוג זמן הריצה של Lakehouse.
- אחסון: Cloud Storage.
- אופטימיזציה של האחסון: מנוהלת על ידכם או על ידי צד שלישי.
- גישת קריאה וכתיבה:
- מנועים של קוד פתוח: קריאה וכתיבה.
- BigQuery: קריאה בלבד.
- תרחישי שימוש: אגם נתונים פתוח עם אחסון ברמה שמתאימה לארגונים, לביצועים גבוהים, לניתוח מתקדם, לסטרימינג ול-AI.
Hive metastore
קטלוג זמן הריצה של Lakehouse מנהל טבלאות Apache Hive באמצעות נקודת קצה של Apache Hive metastore (HMS) שעברה אופטימיזציה לתאימות ל-Apache Spark ExternalCatalog, ומאפשר לכם לשתף נתונים בצורה חלקה בין Apache Spark, Apache Hive ו-BigQuery. אתם יוצרים את הטבלאות האלה ממנועי קוד פתוח ומאחסנים אותן ב-Cloud Storage. האפשרות הזו מתאימה במיוחד אם אתם רוצים שמנועי קוד פתוח ינהלו את תהליך העבודה של ה-ETL, בלי שתצטרכו מאגר מטא-נתונים נפרד של Hive שמתארח באופן עצמאי, וכל מה שאתם צריכים זה גישת קריאה מ-BigQuery.
בין התכונות העיקריות:
- Metastore: קטלוג זמן הריצה של Lakehouse (דרך
IMetastoreClientמותאם אישית). - אחסון: Cloud Storage (תמיכה בפורמטים כמו Parquet, ORC ו-Avro).
- אופטימיזציה של האחסון: מנוהלת על ידכם או על ידי צד שלישי.
- גישת קריאה וכתיבה:
- מנועי קוד פתוח (Spark ו-Hive): קריאה וכתיבה.
- BigQuery: קריאה בלבד.
- תרחישים לדוגמה: העברת עומסי עבודה (workloads) קיימים של Spark ו-Hive למאגר מטא-נתונים מנוהל ללא שרת (serverless) ב- Google Cloud.
BigQuery
BigQuery תומך בטבלאות Apache Iceberg, בטבלאות מקוריות ובטבלאות חיצוניות.
טבלאות Apache Iceberg: אלה טבלאות Apache Iceberg שאתם יוצרים ומנהלים מ-BigQuery ומאחסנים ב-Cloud Storage. מנועי קוד פתוח יכולים לקרוא את המטא-נתונים, אבל BigQuery הוא המנוע שמנהל אותם וכותב אותם. האפשרות הזו מתאימה במיוחד אם רוצים שמחזור העבודה ינוהל באופן מלא על ידי BigQuery.
טבלאות מקוריות: אלה טבלאות מקוריות של BigQuery. הקמפיינים האלה מנוהלים באופן מלא ומציעים את התכונות המתקדמות ביותר לניתוח ולניהול. האפשרות הזו מתאימה לעומסי עבודה שאינם Iceberg.
טבלאות חיצוניות: אלה מבנים ספציפיים ל-BigQuery של נתונים שמאוחסנים ב-Cloud Storage, ב-Amazon S3 או ב-Azure Blob Storage. הנתונים והמטא-נתונים מנוהלים באופן עצמאי, ול-BigQuery יש גישת קריאה בלבד. בוחרים באפשרות הזו אם רוצים לנהל נתונים בקטלוג או באחסון של צד שלישי באופן ישיר.
השוואה בין סוגים של טבלאות
בעזרת התרשים הבא אפשר להשוות בין סוגי הטבלאות בקטלוג של Lakehouse runtime וב-BigQuery.
lakehouse
| Apache Iceberg (GA) | Apache Hive (תצוגה מקדימה) | |
|---|---|---|
| Metastore | קטלוג של סביבת זמן ריצה של Lakehouse | קטלוג של סביבת זמן ריצה של Lakehouse |
| אחסון | Cloud Storage | Cloud Storage |
| אופטימיזציה של האחסון | מנוהל על ידי לקוח או צד שלישי | מנוהל על ידי לקוח או צד שלישי |
| קריאה / כתיבה |
מנועים בקוד פתוח (קריאה/כתיבה) BigQuery (קריאה בלבד) |
מנועים בקוד פתוח (קריאה/כתיבה) BigQuery (קריאה בלבד) |
| פעולות מתקדמות | ללא | ללא |
| תרחישים לדוגמה | Open lakehouse | העברת עומסי עבודה (workloads) קיימים של Spark ו-Hive אל metastore מנוהל ללא שרת (serverless) |
BigQuery
| Iceberg בניהול BigQuery | טבלאות חיצוניות | טבלאות רגילות | |
|---|---|---|---|
| Metastore | BigQuery | מאגר מטא נתונים חיצוני או באירוח עצמי | BigQuery |
| אחסון | Cloud Storage | Cloud Storage / Amazon S3 / Azure | BigQuery |
| אופטימיזציה של האחסון | בניהול Google | מנוהל על ידי לקוח או צד שלישי | בניהול Google |
| קריאה / כתיבה |
מנועי קוד פתוח (קריאה בלבד עם ספריות Iceberg, יכולת פעולה הדדית של קריאה/כתיבה עם BigQuery Storage API) BigQuery (קריאה/כתיבה) |
מנועים בקוד פתוח (קריאה/כתיבה) BigQuery (קריאה בלבד) |
מנועי קוד פתוח (יכולת פעולה הדדית של קריאה/כתיבה עם BigQuery Storage API) BigQuery (קריאה/כתיבה) |
| פעולות מתקדמות | סטרימינג בתפוקה גבוהה באמצעות BigQuery Storage Write API, Change Data Capture (CDC) ועסקאות מרובות הצהרות | ללא | סטרימינג בתפוקה גבוהה באמצעות BigQuery Storage Write API, Change Data Capture (CDC) ועסקאות מרובות הצהרות |
| תרחישים לדוגמה | אגם נתונים פתוח עם אחסון ברמה ארגונית וביצועים גבוהים לניתוח נתונים מתקדם, סטרימינג ו-AI | טבלאות זמניות לטעינות של BigQuery, טבלאות מדור קודם שניתן להריץ עליהן שאילתות בלבד | אחסון ברמה ארגונית לניתוח נתונים מתקדם, לסטרימינג ול-AI |