ייבוא טבלאות Iceberg חיצוניות לקטלוג של Lakehouse runtime באמצעות Dataflow

פורמטים נתמכים של טבלאות

יש תמיכה רק בטבלאות Apache Iceberg V2, ולא בטבלאות Iceberg V1. אם יש לכם טבלאות Iceberg V1 קיימות, אתם צריכים לשדרג אותן לגרסה V2 (למשל, על ידי הפעלת ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); או שימוש בפעולות מנוע דומות) לפני שאתם מייבאים אותן לקטלוג של Lakehouse בזמן ריצה.

יכול להיות שתרצו לחבר טבלת קטלוג חיצונית של Iceberg REST‏ (IRC) לטבלת Lakehouse for Apache Iceberg קיימת. ממשק המשתמש של כלי בניית המשימות של Dataflow מאפשר לכם לבנות צינור להעברת טבלאות קטלוג Iceberg חיצוניות בקוד פתוח אל Lakehouse בשיטת low-code או no-code. התהליך הזה מאפשר לכם לאחד נתונים בפורמט Iceberg שמנוהל על ידי Lakehouse, לניתוח חוצה-מנועים.

כדי לייבא נתונים מקטלוגים חיצוניים של Iceberg, צריך להשתמש בפרטי החיבור הבאים.

לפני שמתחילים

כדי לייבא נתונים, צריך:

  1. פרטי החיבור לקטלוג REST חיצוני של Iceberg. לדוגמה: שם הקטלוג, מרחב שמות, שם הטבלה, URI של החשבון והתפקיד לגישה לקטלוג.
  2. קטלוג, מרחב שמות וטבלה של Lakehouse Iceberg שאליהם מייבאים את הנתונים.

תמיכה ומגבלות

יש מגבלות על ייבוא נתונים מקטלוגים חיצוניים של Iceberg אל Lakehouse for Apache Iceberg באמצעות Dataflow:

  • התכונה הזו תומכת בקריאה מספקי Iceberg שזמינים חיצונית ותומכים ב-IRC (קטלוג Iceberg Rest) אל Lakehouse. אין תמיכה בסוגים אחרים של קטלוגים של Iceberg.
  • התכונה הזו תומכת בצינורות (pipelines) של עיבוד נתונים באצווה ובסטרימינג.

ייבוא טבלת קטלוג חיצונית של Iceberg

כדי לייבא טבלת קטלוג Iceberg חיצונית אל Lakehouse for Apache Iceberg, צריך לבצע את הפעולות הבאות:

  1. נכנסים לדף Metastore של Lakehouse במסוף Google Cloud .

    מעבר לקטלוג של זמן הריצה של Lakehouse

  2. בוחרים את הקטלוג, מרחב השמות והטבלה שאליהם רוצים לייבא נתונים.

  3. בדף Table details, לוחצים על Import table.

  4. בתיבת הדו-שיח Import configuration (ייבוא הגדרה), בוחרים באפשרות Import a table from an Apache Iceberg REST Catalog into Lakehouse (Batch) (ייבוא טבלה מקטלוג Apache Iceberg REST אל Lakehouse (אצווה)).

    ייפתח הדף Job builder של Dataflow.

  5. בקטע מקורות:

    1. כדי להרחיב את חלונית המקור של טבלת Iceberg, לוחצים על החץ להרחבה .

    2. בשדה Iceberg table (טבלת Iceberg), מזינים את המזהה של טבלת Apache Iceberg.

    3. בשדה Catalog name (שם הקטלוג), מזינים את שם הקטלוג.

    4. בשדה Filter, מזינים את פילטר Iceberg שרוצים להשתמש בו. לדוגמה, id > 5.

    5. אופציונלי: כדי לציין שינויים בעמודות של טבלת המקור, משתמשים בקטעים שמירת עמודות או הסרת עמודות.

    6. ברשימה סוג הקטלוג שבקטע מאפייני הקטלוג, בוחרים את סוג הקטלוג.

    7. בשדה Catalog URI (כתובת ה-URI של הקטלוג), מזינים את כתובת ה-URI של הקטלוג. לדוגמה, http://localhost:8181.

    8. בשדה Warehouse name (שם מחסן), מזינים את שם הקטלוג.

      אצל חלק מהספקים החיצוניים של קטלוג REST של Iceberg, מחסן הנתונים הוא מופשט, ושם הקטלוג מסופק כשם מחסן הנתונים.

    9. ברשימה Authentication type (סוג אימות), בוחרים את סוג האימות. לדוגמה, OAUTH2.

  6. אופציונלי: בקטע Transforms, מוסיפים טרנספורמציות לנתוני המקור.

  7. בקטע Sink:

    1. אופציונלי: בודקים את חלונית היעד Lakehouse table. המידע בכרטיס הזה, כמו טבלת Lakehouse, שם הקטלוג ומיקום מחסן הנתונים, בדרך כלל מאוכלס מראש.
  8. בקטע אפשרויות של העברת נתונים, לוחצים על הפעלת העבודה.

המאמרים הבאים