סקירה כללית על Cloud Data Fusion

‫Cloud Data Fusion הוא שירות מנוהל מלא, מבוסס-ענן, לשילוב נתונים ארגוניים, שמאפשר ליצור ולנהל במהירות צינורות עיבוד נתונים. ממשק האינטרנט של Cloud Data Fusion מאפשר לכם ליצור פתרונות שילוב נתונים שניתנים להרחבה. הוא מאפשר לכם להתחבר למקורות נתונים שונים, לשנות את הנתונים ואז להעביר אותם למערכות יעד שונות, בלי שתצטרכו לנהל את התשתית.

‫Cloud Data Fusion מבוסס על פרויקט הקוד הפתוח CDAP.

תחילת העבודה עם Cloud Data Fusion

אפשר להתחיל להשתמש ב-Cloud Data Fusion תוך דקות.

התנסות ב-Cloud Data Fusion

בקטעים הבאים מוסברים הרכיבים העיקריים של Cloud Data Fusion.

פרויקט של דייר (tenant)

קבוצת השירותים שנדרשים כדי ליצור ולתזמר צינורות עיבוד נתונים ב-Cloud Data Fusion ולאחסן מטא-נתונים של צינורות עיבוד נתונים מוקצים בפרויקט דייר, בתוך יחידת דיירות. לכל פרויקט של לקוח נוצר פרויקט דייר (tenant) נפרד, שבו מוקצים מופעים של Cloud Data Fusion. פרויקט הדייר (tenant) מקבל בירושה את כל הגדרות הרשת וחומת האש מפרויקט הלקוח.

‫Cloud Data Fusion: מסוף

מסוף Cloud Data Fusion, שנקרא גם מישור הבקרה, הוא אוסף של פעולות API וממשק אינטרנט שמתייחסים למופע Cloud Data Fusion עצמו, כמו יצירה, מחיקה, הפעלה מחדש ועדכון שלו.

‫Cloud Data Fusion: Studio

‫Cloud Data Fusion Studio, שנקרא גם מישור הנתונים, הוא קבוצה של פעולות API בארכיטקטורת REST וממשק אינטרנט שקשורות ליצירה, להפעלה ולניהול של פייפליינים וארטיפקטים קשורים.

מושגים

בקטע הזה נסביר על כמה מהמושגים הבסיסיים של Cloud Data Fusion.

קונספט תיאור
מכונת Cloud Data Fusion‏
  • מכונת Cloud Data Fusion היא פריסה ייחודית של Cloud Data Fusion. כדי להתחיל להשתמש ב-Cloud Data Fusion, צריך ליצור מכונת Cloud Data Fusion דרך Google Cloud המסוף.
  • אתם יכולים ליצור כמה מופעים בפרויקט אחד במסוף Google Cloud , ולציין את האזור שבו ייצרו את המופעים של Cloud Data Fusion. Google Cloud
  • בהתאם לדרישות ולמגבלות העלויות, אפשר ליצור מופע של Developer,‏ Basic או Enterprise.
  • כל מופע של Cloud Data Fusion מכיל פריסה ייחודית ועצמאית של Cloud Data Fusion, שכוללת קבוצה של שירותים שמטפלים בניהול מחזור החיים של צינורות, בתזמור, בתיאום ובניהול מטא-נתונים. השירותים האלה פועלים באמצעות משאבים לטווח ארוך בפרויקט דייר (tenant).
מרחב שמות מרחב שמות הוא קיבוץ לוגי של אפליקציות, נתונים והמטא-נתונים המשויכים להם במופע של Cloud Data Fusion. אפשר לחשוב על מרחבי שמות כחלוקה של המכונה למחיצות. במופע יחיד, מרחב שמות אחד מאחסן את הנתונים והמטא-נתונים של ישות באופן עצמאי ממרחב שמות אחר.
פייפליין
  • צינור עיבוד נתונים הוא דרך לעיצוב חזותי של נתונים ולשליטה בזרימות נתונים כדי לחלץ, לשנות, למזג, לצבור ולטעון נתונים ממקורות נתונים שונים מקומיים וממקורות נתונים בענן.
  • יצירת פייפליינים מאפשרת לכם ליצור תהליכי עבודה מורכבים לעיבוד נתונים, שיכולים לעזור לכם לפתור בעיות שקשורות להטמעת נתונים, לשילוב ולהעברה של נתונים. אתם יכולים להשתמש ב-Cloud Data Fusion כדי ליצור צינורות נתונים באצווה וגם צינורות נתונים בזמן אמת, בהתאם לצרכים שלכם.
  • צינורות מאפשרים לכם להגדיר את תהליכי העבודה של עיבוד הנתונים באמצעות הזרימה הלוגית של הנתונים, בעוד ש-Cloud Data Fusion מטפל בכל הפונקציונליות שנדרשת להרצה פיזית בסביבת ביצוע.
צומת של צינור עיבוד נתונים
  • בדף Studio בממשק האינטרנט של Cloud Data Fusion, צינורות עיבוד הנתונים מיוצגים כסדרה של צמתים שמסודרים בגרף אציקלי מכוון (DAG), ויוצרים זרימה חד-כיוונית.
  • הצמתים מייצגים את הפעולות השונות שאפשר לבצע בצינורות עיבוד הנתונים, כמו קריאה ממקורות, ביצוע טרנספורמציות של נתונים וכתיבת פלט ליעדים. אתם יכולים לפתח צינורות נתונים בממשק האינטרנט של Cloud Data Fusion על ידי חיבור של מקורות, טרנספורמציות, יעדים וצמתים אחרים.
פלאגין
  • פלאגין הוא מודול שאפשר להתאים אישית, ומשמש להרחבת היכולות של Cloud Data Fusion.
  • ‫Cloud Data Fusion מספקת תוספים למקורות, לטרנספורמציות, לצבירות, ליעדים, לאוספי שגיאות, לפרסום התראות, לפעולות ולפעולות אחרי הרצה.
  • לפעמים תוסף נקרא צומת, בדרך כלל בהקשר של ממשק האינטרנט של Cloud Data Fusion.
  • כדי למצוא את הפלאגינים הפופולריים של Cloud Data Fusion ולגשת אליהם, אפשר לעיין במאמר פלאגינים של Cloud Data Fusion.
מרכז בממשק האינטרנט של Cloud Data Fusion, כדי לעיין בתוספים, בצינורות לדוגמה ובשילובים אחרים, לוחצים על Hub. כשגרסה חדשה של תוסף יוצאת, היא גלויה ב-Hub בכל מופע שתואם לה. הדבר נכון גם אם המופע נוצר לפני שהתוסף הושק.
תצוגה מקדימה של צינור עיבוד נתונים
  • ב-Cloud Data Fusion Studio אפשר לבדוק את הדיוק של עיצוב צינור עיבוד הנתונים באמצעות תצוגה מקדימה על קבוצת משנה של נתונים.
  • צינור (pipeline) בתצוגה מקדימה פועל בפרויקט של הדייר (tenant).
הפעלת צינור עיבוד נתונים
  • ‫Cloud Data Fusion יוצר סביבות הפעלה זמניות כדי להפעיל צינורות עיבוד נתונים.
  • ‫Cloud Data Fusion תומך ב-Managed Service for Apache Spark כסביבת ביצוע.
  • ‫Cloud Data Fusion מקצה אשכול זמני של Managed Service for Apache Spark בפרויקט של הלקוח בתחילת ההרצה של צינור הנתונים, מריץ את צינור הנתונים באמצעות Spark באשכול, ואז מוחק את האשכול אחרי שההרצה של צינור הנתונים מסתיימת.
  • לחלופין, אם אתם מנהלים את האשכולות שלכם ב-Managed Service for Apache Spark בסביבות מבוקרות באמצעות טכנולוגיות כמו Terraform, אתם יכולים גם להגדיר את Cloud Data Fusion כך שלא יקצה אשכולות. In those environments, you can run pipelines against existing Managed Service for Apache Spark clusters.
פרופיל מחשוב
  • פרופיל מחשוב מציין איך ואיפה צינור הנתונים מופעל. פרופיל כולל את כל המידע שנדרש כדי להגדיר ולמחוק את סביבת ההפעלה הפיזית של צינור.
  • לדוגמה, פרופיל מחשוב כולל את הפרטים הבאים:
    • מנהל הקצאות להרצה
    • משאבים (זיכרון ומעבד)
    • מספר מינימלי ומקסימלי של צמתים
    • ערכים אחרים
  • פרופיל מזוהה לפי שם, וחובה להקצות לו ספק הקצאות ואת ההגדרה שקשורה אליו. פרופיל יכול להיות קיים ברמת מכונת Cloud Data Fusion או ברמת מרחב השמות.
  • פרופיל ברירת המחדל של Cloud Data Fusion הוא Autoscaling (שינוי גודל אוטומטי).
צינור עיבוד נתונים לשימוש חוזר
  • צינורות נתונים לשימוש חוזר ב-Cloud Data Fusion מאפשרים ליצור צינור נתונים יחיד שאפשר להחיל בו דפוס שילוב נתונים על מגוון תרחישי שימוש ומערכי נתונים.
  • צינורות עיבוד נתונים לשימוש חוזר מאפשרים ניהול טוב יותר, כי רוב ההגדרות של צינור עיבוד הנתונים נקבעות בזמן ההפעלה, במקום להיות מוצפנות בזמן העיצוב.
טריגר
  • ב-Cloud Data Fusion אפשר ליצור טריגר בפייפליין של נתונים (שנקרא פייפליין במורד הזרם), כדי שהוא יפעל בסיום של פייפליין אחד או יותר (שנקראים פייפליינים במעלה הזרם). אתם בוחרים מתי צינור הנתונים במורד הזרם יפעל – לדוגמה, אם צינור הנתונים במעלה הזרם יפעל בהצלחה, ייכשל, ייעצר או כל שילוב אחר של האפשרויות האלה.
  • טריגרים שימושיים במקרים הבאים:
    • ניקוי הנתונים פעם אחת, ואז הפיכתם לזמינים לשימוש בכמה צינורות בהמשך.
    • שיתוף מידע, כמו ארגומנטים של זמן ריצה והגדרות של תוספים, בין צינורות. זה נקרא הגדרת מטען ייעודי (Payload).
    • להשתמש במערכת של צינורות דינמיים שיכולים לפעול על סמך נתונים של שעה, יום, שבוע או חודש, במקום להשתמש בצינור סטטי שצריך לעדכן בכל הפעלה.

משאבים של Cloud Data Fusion

עיון במשאבים של Cloud Data Fusion:

המאמרים הבאים