מידע על Lakehouse חוצה-עננים

‫Cross-cloud Lakehouse for Apache Iceberg מאפשר לכם לשלוח שאילתות לנתונים שמאוחסנים בספקי ענן אחרים ישירות מ- Google Cloud בלי להעביר קבצים או לבנות צינורות ETL מורכבים.

היכולת הזו היא חלק מ-Lakehouse, והיא מאפשרת לכם לבצע ניתוח מאוחד ולהחיל AI על מערכי הנתונים המבוזרים שלכם באמצעות BigQuery, סביבות עצמאיות של Apache Spark או Managed Service for Apache Spark.

תרחישים לדוגמה

‫Lakehouse חוצה עננים תומך בכמה תרחישי שימוש מרכזיים לגישה לנתונים בכמה ספקי ענן:

  • הפחתת תנועת הנתונים מאפשרת לשלוח שאילתות לנתונים שמאוחסנים בסביבות ענן אחרות ישירות, וכך מפשטת את הגישה לנתונים ואת העיבוד שלהם.
  • ניתוח נתונים מאוחד מאפשר לכם לבצע ניתוח נתונים מתקדם עם תכונות עקביות ואופטימיזציה של החומרה בכל הנתונים שלכם, בלי קשר למיקום שלהם.
  • הפעלת AI ולמידת מכונה בענן מאפשרת להחיל מודלים של AI, סוכנים אוטונומיים ולמידת מכונה ישירות על הנתונים המרוחקים שלכם בלי להעביר אותם.

איך פועל Lakehouse חוצה עננים

שאילתות של lakehouse חוצה-ענן שולחות נתונים מרחוק באמצעות התהליך הבא:

  1. גילוי מטא-נתונים: Google Cloud's Lakehouse מתחבר לקטלוגים מרוחקים של Apache Iceberg REST, כמו Databricks Unity או AWS Glue. ‫Lakehouse מגלה את הנתונים בלי להעתיק קבצים. בהתאם לספק הקטלוג המרוחק, Lakehouse מאמת בצורה מאובטחת באמצעות Secret Manager או איחוד אסימונים של OpenID Connect עם Google כספק הזהויות (איחוד אסימונים של OIDC).
  2. העברה מאובטחת: ניתוב התנועה דרך חיבור פרטי (לדוגמה, Dedicated CCI או Partner Interconnect) מפחית באופן משמעותי את עלויות העברת הנתונים בהשוואה לאינטרנט הציבורי, ומאפשר לחזות את זמן האחזור בצורה מדויקת.
  3. ביצוע אופטימלי: כששאילתות קוראות נתונים מעננים מרוחקים, Lakehouse שומר באופן זמני במטמון את פלחי הנתונים האלה באופן מקומי בתוך Google Cloud באחסון ייעודי. שאילתות עוקבות משתמשות במטמון המקומי, וכך נמנעות חלק ניכר מהחיובים על תעבורת נתונים יוצאת בין עננים.

קטלוגים נתמכים

‫Lakehouse חוצה עננים תומך בשליחת שאילתות לנתונים מהספקים הבאים של קטלוגים מרוחקים:

  • Databricks Unity Catalog: נתמך ב-Amazon Web Services‏ (AWS) וב-Google Cloud.
  • AWS Glue: נתמך ב-Amazon Web Services‏ (AWS).

מושגי ליבה

בקטע הזה מתוארים הרכיבים העיקריים שחיוניים לשימוש ב-Lakehouse חוצה עננים.

קטלוגים מרוחקים של Apache Iceberg REST

זו שכבת המטא-נתונים. אתם מתחברים לקטלוגים מרוחקים של Apache Iceberg REST. ‫Lakehouse מגלה את הנתונים בלי להעתיק קבצים. באמצעות איחוד אסימוני OIDC או פרטי כניסה ל-OAuth, ‏ Lakehouse מאמת בצורה מאובטחת בלי לדרוש מפתחות גישה לטווח ארוך.

שכבת התעבורה

זו שכבת התעבורה. אתם יכולים להגדיר את Lakehouse כדי לשלוח שאילתות לנתונים שמאוחסנים אצל ספקי ענן מרוחקים דרך האינטרנט הציבורי או דרך חיבור פרטי ייעודי.

בוחרים את שיטת ההעברה שתואמת לדרישות הארכיטקטורה והאבטחה שלכם:

בבעלות הלקוח (CCI)

אפשר להגדיר את BigQuery כך שיבצע שאילתות על נתונים שמאוחסנים בדלי Amazon S3 ב-Amazon Web Services ‏ (AWS) דרך חיבור רשת פרטי ייעודי באמצעות Cross-Cloud Interconnect או Partner Interconnect.

היתרונות של שימוש בחיבור פרטי בין רשתות:

  • אבטחה משופרת: הנתונים עוברים דרך חיבור לרשת פרטית בין Google Cloud ל-AWS, וכך נמנעת גישה דרך האינטרנט הציבורי.
  • עלויות מופחתות: יכול להיות שתשלמו פחות על תעבורת נתונים יוצאת מ-AWS בהשוואה לתעבורת נתונים יוצאת לאינטרנט, במיוחד אם משלבים את זה עם קיבולת החיבור הפרטי.
  • ביצועים עקביים: זמן אחזור ורוחב פס צפויים יותר ברשת בהשוואה לאינטרנט הציבורי.

סקירה כללית של הארכיטקטורה

כדי להפעיל שאילתות פרטיות, צריך להגדיר נתיב מ-BigQuery לקטגוריית Amazon S3 ב-AWS דרך חיבור פרטי. רכיב מרכזי ב Google Cloudענן וירטואלי פרטי (VPC) הוא מאזן עומסים פנימי (ILB). ה-ILB מחלק את הבקשות מ-BigQuery לנקודות הקצה הפרטיות של Amazon S3 ב-AWS VPC, שמוקצות באמצעות AWS PrivateLink.

שימוש במאזן עומסים פנימי (ILB) עם כמה ממשקי רשת אלסטיים (ENI) כבק-אנד חיוני לאיזון עומסים, למדרגיות ולזמינות גבוהה. זה רלוונטי גם אם משתמשים ב-Dedicated CCI או ב-Partner Interconnect.

תהליך העבודה של שאילתות פרטיות מתבצע כך:

  1. ‫BigQuery משתמש בחיבור שהוגדר עם שירות Service Directory.
  2. ‫Service Directory מזהה את שם השירות ככתובת ה-IP הפנימית של Google Cloud ILB.
  3. ה-ILB מקבל את הבקשות מ-BigQuery ומפיץ אותן לשרתי קצה עורפיים שהוגדרו.
  4. הקצוות העורפיים של מאזן העומסים הפנימי הם קבוצות של נקודות קצה ברשת (NEGs) לקישור היברידי, וכל אחת מהן מצביעה על כתובת ה-IP הפרטית של ENI ב-AWS VPC.
  5. התנועה זורמת מ-ILB, דרך NEGs, דרך חיבור פרטי, אל AWS ENIs.
  6. ממשקי הרשת של AWS, שהם חלק מנקודת קצה (endpoint) של ממשק Amazon S3 VPC ‏(AWS PrivateLink), מספקים גישה פרטית לשירות Amazon S3.

אינטרנט ציבורי (ללא CCI)

אם לא מגדירים חיבור פרטי בין רשתות, השאילתות לקטלוג המרוחק מועברות דרך האינטרנט הציבורי כברירת מחדל.

כששולחים שאילתות לנתונים דרך האינטרנט הציבורי, חשוב להביא בחשבון את ההשלכות הבאות:

  • הצפנה רגילה: בקשות לגישה לנתונים והעברות נתונים מוצפנות בזמן ההעברה באמצעות פרוטוקולי TLS רגילים באינטרנט הציבורי.
  • עלויות של תעבורת נתונים יוצאת (egress): על העברת נתונים חלים חיובים סטנדרטיים של תעבורת נתונים יוצאת באינטרנט מספק שירותי הענן המרוחק (לדוגמה, AWS), שבדרך כלל גבוהים יותר מתעריפי תעבורת נתונים יוצאת של חיבור פרטי.
  • זמן אחזור משתנה: הביצועים, רוחב הפס וזמן האחזור של הרשת תלויים בניתוב ובגודש של האינטרנט הציבורי, ולכן קשה יותר לחזות את זמני הביצוע של השאילתות בהשוואה לחיבור פרטי ייעודי.
  • הגדרה פשוטה: לא נדרשת תשתית רשת נוספת, שיוך של VPC או הגדרה של Service Directory ב- Google Cloud או בספק הענן המרוחק.

סקירה כללית של הארכיטקטורה

כשמבצעים שאילתות על נתונים באינטרנט הציבורי, Lakehouse מתחבר ישירות לקטלוג המרוחק ולנקודות הקצה של אחסון האובייקטים, בלי לדרוש תשתית פרטית Google Cloud או תשתית מרוחקת של רשתות ענן.

תהליך העבודה של שאילתות באינטרנט הציבורי מתבצע כך:

  1. מערכת BigQuery מפעילה שאילתה לגבי טבלה מאוחדת שמוגדרת בקטלוג של Lakehouse.
  2. ‫Lakehouse מאמת בצורה מאובטחת את קטלוג Apache Iceberg המרוחק באמצעות פרטי כניסה שמאוחסנים ב-Secret Manager או באיחוד טוקנים של OIDC.
  3. ‫Lakehouse מאחזר את המטא-נתונים של הטבלה ואת קובצי המניפסט באינטרנט הציבורי כדי לזהות את קובצי הנתונים הרלוונטיים (לדוגמה, ב-AWS Amazon S3).
  4. בקשות לגישה לנתונים של האובייקטים הבסיסיים נשלחות ישירות מ-Google Cloud דרך האינטרנט הציבורי באמצעות הצפנת TLS רגילה.
  5. שירות האחסון המרוחק מאמת את הבקשה באמצעות פרטי כניסה זמניים עם היקף הרשאות מוגבל שמונפקים על ידי Lakehouse, ומחזיר את בלוקי הנתונים המבוקשים דרך האינטרנט הציבורי אל Google Cloud.

המאמרים הבאים