מה זה Lakehouse for Apache Iceberg?

Lakehouse for Apache Iceberg הוא מנוע אחסון עם ביצועים גבוהים שנועד ליצור אגמי נתונים פתוחים. שילוב של פורמט הטבלה הפתוח Apache Iceberg עם אחסון מנוהל ברמת הארגון ב- Google Cloudמאפשר ליצור ממשק מאוחד לניתוח נתונים מתקדם ול-AI.

כדי לנהל מטא-נתונים של טבלאות פתוחות, Lakehouse for Apache Iceberg משתמש בקטלוג זמן הריצה של Lakehouse. שירות המטא-נתונים הזה הוא שירות מנוהל מלא, בלי שרתים (serverless), שמספק מקור אמת יחיד (SSOT) במערכות שונות. הוא מרכז את החיפוש ומבטל את הצורך בסנכרון מטא-נתונים בין מאגרי מידע שונים.

הפרדת האחסון מהחישוב ב-Lakehouse של Google Cloud מבטיחה יכולת פעולה הדדית חלקה בין מערכות אנליטיות ומערכות טרנזקציות. הארכיטקטורה הזו מאפשרת למנועים רבים – כולל Apache Spark,‏ Apache Flink,‏ Apache Hive,‏ Trino ו-BigQuery – לגשת למקור אמת יחיד, וכך למנוע כפילויות של נתונים ולהבטיח תובנות עקביות.

יתרונות מרכזיים

  • ארכיטקטורה ללא שרת: Lakehouse של Google Cloud מבטל את הצורך בניהול שרתים או אשכולות, מצמצם את התקורה התפעולית ומבצע התאמה אוטומטית לעומס בהתאם לביקוש. עבור עומסי עבודה (workloads) של מחשוב, הפעלת אצווה ללא שרתים (serverless) וסשנים אינטראקטיביים מסירים את התחרות על משאבים בין משימות ומבצעים אוטומציה של תחזוקת התשתית.
  • ניהול נתונים וממשל נתונים מאוחדים: שילוב עם Knowledge Catalog מבטיח הגדרה מרכזית ואכיפה של מדיניות ממשל במנועים שונים, ומאפשר חיפוש סמנטי, שושלת נתונים ובדיקות איכות.
  • הרחבות של אחסון: Lakehouse של Google Cloud מרחיב את יכולות הניהול של Cloud Storage וכולל תכונות כמו סיווג אוטומטי של שכבות ומפתחות הצפנה בניהול הלקוח (CMEK).
  • חוויה מנוהלת במלואה: כשמשלבים את Lakehouse עם BigQuery, הוא משתמש בהזרמת נתונים עם תפוקה גבוהה ובניהול מטא-נתונים בזמן אמת כדי לספק חוויה מנוהלת במלואה של הזרמת נתונים, ניתוח ו-AI.
  • זמינות גבוהה ותוכנית התאוששות מאסון: ב-Lakehouse של Google Cloud יש אפשרויות לשכפול בין אזורים ולתוכנית התאוששות מאסון (גרסת Preview) כדי לתמוך בזמינות גבוהה של הנתונים.

תרחישים לדוגמה

  • Open lakehouse: שימוש ב-Cloud Storage כשכבת האחסון, ושימוש בממשק הניהול והבקרה של Lakehouse ב-Google Cloud לנתוני Apache Iceberg.
  • שילוב אנליטי וטרנזקציוני: גישה לטבלאות אנליטיות של Apache Iceberg ישירות ב-AlloyDB ל-PostgreSQL‏ (גרסת טרום-השקה (Preview)) כדי לשלב נתונים אנליטיים עם עומסי עבודה של טרנזקציות.
  • גישה מאוחדת: מאפשרת למנועים שונים (Apache Spark, ‏ Apache Flink,‏ BigQuery) לבצע אינטראקציה עם אותן טבלאות Apache Iceberg עם מטא-נתונים עקביים.
  • ניתוח נתונים ו-AI בין עננים: אפשר להשתמש ב-Lakehouse בין עננים (גרסת Preview) כדי לסנכרן מטא-נתונים מספקי ענן אחרים, וכך לשלוח שאילתות לנתונים באמצעות BigQuery או מנועי קוד פתוח חיצוניים דרך נקודת הקצה של קטלוג Apache Iceberg REST, בלי להעביר את הנתונים.
  • ניתוח של מערכי נתונים ציבוריים: אפשר להריץ בקלות שאילתות במערכי נתונים ציבוריים באיכות גבוהה באמצעות נקודת הקצה של קטלוג Apache Iceberg REST, בלי לנהל תשתית.
  • Hive Metastore: חיבור מנועי קוד פתוח כמו Apache Spark ו-Apache Hive לקטלוג של Lakehouse בזמן ריצה באמצעות קטלוג Hive ‏(Preview). כך אפשר להימנע מהתקורה התפעולית של תחזוקת Hive Metastore (HMS) באירוח עצמי, ועדיין לשתף נתונים בצורה חלקה ולשלוח שאילתות ישירות לטבלאות ב-BigQuery.

ממשקים וכלים

אפשר ליצור אינטראקציה עם משאבי Lakehouse של Google Cloud באמצעות הכלים הבאים:

  • Google Cloud Console: אפשר להשתמש ב-Console כדי ליצור קטלוגים, להציג את המאפיינים של הקטלוג, להציג יומני ביקורת ולהגדיר הרשאות.
  • BigQuery SQL: שימוש ב-DDL (שפת הגדרת נתונים) של SQL סטנדרטי כדי ליצור ולנהל טבלאות Apache Iceberg וטבלאות חיצוניות שמשולבות בקטלוג של Lakehouse runtime.
  • מנועי קוד פתוח: אפשר להשתמש במנועים כמו Apache Spark,‏ Apache Flink ו-Apache Hive עם קטלוג זמן הריצה של Lakehouse כדי לקרוא ולכתוב נתונים.
  • סביבות פיתוח משולבות (IDE) ומחברות: אפשר להשתמש במחברות אינטראקטיביות של Apache Spark ובהרחבות של סביבות פיתוח משולבות, כמו ההרחבה Data Agent Kit ‏(DAK) ל-VS Code, כדי לבצע אימות ל-Google Cloud, לכתוב קוד באופן אינטראקטיבי ולנהל סשנים של מחברות ישירות בסביבת הפיתוח.
  • כלים לתזמור ול-MLOps: שילוב של צינורות עיבוד נתונים (pipeline) ללא שרת (serverless) ופעולות קטלוג עם תהליכי עבודה לתזמור באמצעות Managed Service for Apache Airflow (לשעבר Cloud Composer) ו-Kubeflow Pipelines ב-Vertex AI.
  • Lakehouse runtime catalog API: אפשר להשתמש בנקודת הקצה של קטלוג REST של Apache Iceberg כדי ליצור אינטראקציה עם השירות באמצעות כלים שתואמים למפרט REST הפתוח של Apache Iceberg.
  • תמיכה בטבלאות Apache Iceberg: יש תמיכה בטבלאות Apache Iceberg V2 (זמינות כללית) ובטבלאות V3 (גרסת Preview). אין תמיכה בטבלאות Iceberg V1.

המאמרים הבאים