סקירה כללית על Cloud Data Fusion
קל לארגן דפים בעזרת אוספים
אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.
Cloud Data Fusion הוא שירות מנוהל מלא, מבוסס-ענן, לשילוב נתונים ארגוניים, שמאפשר ליצור ולנהל במהירות צינורות עיבוד נתונים. ממשק האינטרנט של Cloud Data Fusion מאפשר לכם ליצור פתרונות שילוב נתונים שניתנים להרחבה. הוא מאפשר לכם להתחבר למקורות נתונים שונים, לשנות את הנתונים ואז להעביר אותם למערכות יעד שונות, בלי שתצטרכו לנהל את התשתית.
Cloud Data Fusion מבוסס על פרויקט הקוד הפתוח CDAP.
בקטעים הבאים מוסברים הרכיבים העיקריים של Cloud Data Fusion.
פרויקט של דייר (tenant)
קבוצת השירותים שנדרשים כדי ליצור ולתזמר צינורות עיבוד נתונים ב-Cloud Data Fusion ולאחסן מטא-נתונים של צינורות עיבוד נתונים מוקצים בפרויקט דייר, בתוך יחידת דיירות. לכל פרויקט של לקוח נוצר פרויקט דייר (tenant) נפרד, שבו מוקצים מופעים של Cloud Data Fusion. פרויקט הדייר (tenant) מקבל בירושה את כל הגדרות הרשת וחומת האש מפרויקט הלקוח.
Cloud Data Fusion: מסוף
מסוף Cloud Data Fusion, שנקרא גם מישור הבקרה, הוא אוסף של פעולות API וממשק אינטרנט שמתייחסים למופע Cloud Data Fusion עצמו, כמו יצירה, מחיקה, הפעלה מחדש ועדכון שלו.
Cloud Data Fusion: Studio
Cloud Data Fusion Studio, שנקרא גם מישור הנתונים, הוא קבוצה של פעולות API בארכיטקטורת REST וממשק אינטרנט שקשורות ליצירה, להפעלה ולניהול של פייפליינים וארטיפקטים קשורים.
מושגים
בקטע הזה נסביר על כמה מהמושגים הבסיסיים של Cloud Data Fusion.
מכונת Cloud Data Fusion היא פריסה ייחודית של Cloud Data Fusion. כדי להתחיל להשתמש ב-Cloud Data Fusion, צריך ליצור מכונת Cloud Data Fusion דרך Google Cloud המסוף.
אתם יכולים ליצור כמה מופעים בפרויקט אחד במסוף Google Cloud , ולציין את האזור שבו ייצרו את המופעים של Cloud Data Fusion. Google Cloud
כל מופע של Cloud Data Fusion מכיל פריסה ייחודית ועצמאית של Cloud Data Fusion, שכוללת קבוצה של שירותים שמטפלים בניהול מחזור החיים של צינורות, בתזמור, בתיאום ובניהול מטא-נתונים. השירותים האלה פועלים באמצעות משאבים לטווח ארוך בפרויקט דייר (tenant).
מרחב שמות הוא קיבוץ לוגי של אפליקציות, נתונים והמטא-נתונים המשויכים להם במופע של Cloud Data Fusion. אפשר לחשוב על מרחבי שמות כחלוקה של המכונה למחיצות. במופע יחיד, מרחב שמות אחד מאחסן את הנתונים והמטא-נתונים של ישות באופן עצמאי ממרחב שמות אחר.
צינור עיבוד נתונים הוא דרך לעיצוב חזותי של נתונים ולשליטה בזרימות נתונים כדי לחלץ, לשנות, למזג, לצבור ולטעון נתונים ממקורות נתונים שונים מקומיים וממקורות נתונים בענן.
יצירת פייפליינים מאפשרת לכם ליצור תהליכי עבודה מורכבים לעיבוד נתונים, שיכולים לעזור לכם לפתור בעיות שקשורות להטמעת נתונים, לשילוב ולהעברה של נתונים. אתם יכולים להשתמש ב-Cloud Data Fusion כדי ליצור צינורות נתונים באצווה וגם צינורות נתונים בזמן אמת, בהתאם לצרכים שלכם.
צינורות מאפשרים לכם להגדיר את תהליכי העבודה של עיבוד הנתונים באמצעות הזרימה הלוגית של הנתונים, בעוד ש-Cloud Data Fusion מטפל בכל הפונקציונליות שנדרשת להרצה פיזית בסביבת ביצוע.
בדף Studio בממשק האינטרנט של Cloud Data Fusion, צינורות עיבוד הנתונים מיוצגים כסדרה של צמתים שמסודרים בגרף אציקלי מכוון (DAG), ויוצרים זרימה חד-כיוונית.
הצמתים מייצגים את הפעולות השונות שאפשר לבצע בצינורות עיבוד הנתונים, כמו קריאה ממקורות, ביצוע טרנספורמציות של נתונים וכתיבת פלט ליעדים. אתם יכולים לפתח צינורות נתונים בממשק האינטרנט של Cloud Data Fusion על ידי חיבור של מקורות, טרנספורמציות, יעדים וצמתים אחרים.
בממשק האינטרנט של Cloud Data Fusion, כדי לעיין בתוספים, בצינורות לדוגמה ובשילובים אחרים, לוחצים על Hub. כשגרסה חדשה של תוסף יוצאת, היא גלויה ב-Hub בכל מופע שתואם לה. הדבר נכון גם אם המופע נוצר לפני שהתוסף הושק.
Cloud Data Fusion מקצה אשכול זמני של Managed Service for Apache Spark בפרויקט של הלקוח בתחילת ההרצה של צינור הנתונים, מריץ את צינור הנתונים באמצעות Spark באשכול, ואז מוחק את האשכול אחרי שההרצה של צינור הנתונים מסתיימת.
לחלופין, אם אתם מנהלים את האשכולות שלכם ב-Managed Service for Apache Spark בסביבות מבוקרות באמצעות טכנולוגיות כמו Terraform, אתם יכולים גם להגדיר את Cloud Data Fusion כך שלא יקצה אשכולות. In
those environments, you can run pipelines against existing
Managed Service for Apache Spark clusters.
ב-Cloud Data Fusion אפשר ליצור טריגר בפייפליין של נתונים (שנקרא פייפליין במורד הזרם), כדי שהוא יפעל בסיום של פייפליין אחד או יותר (שנקראים פייפליינים במעלה הזרם). אתם בוחרים מתי צינור הנתונים במורד הזרם יפעל – לדוגמה, אם צינור הנתונים במעלה הזרם יפעל בהצלחה, ייכשל, ייעצר או כל שילוב אחר של האפשרויות האלה.
טריגרים שימושיים במקרים הבאים:
ניקוי הנתונים פעם אחת, ואז הפיכתם לזמינים לשימוש בכמה צינורות בהמשך.
שיתוף מידע, כמו ארגומנטים של זמן ריצה והגדרות של תוספים, בין צינורות. זה נקרא הגדרת מטען ייעודי (Payload).
להשתמש במערכת של צינורות דינמיים שיכולים לפעול על סמך נתונים של שעה, יום, שבוע או חודש, במקום להשתמש בצינור סטטי שצריך לעדכן בכל הפעלה.
משאבים של Cloud Data Fusion
עיון במשאבים של Cloud Data Fusion:
בנתוני הגרסה מפורטים שינויים, תכונות והוצאות משימוש
[[["התוכן קל להבנה","easyToUnderstand","thumb-up"],["התוכן עזר לי לפתור בעיה","solvedMyProblem","thumb-up"],["סיבה אחרת","otherUp","thumb-up"]],[["התוכן קשה להבנה","hardToUnderstand","thumb-down"],["שגיאות בקוד לדוגמה או במידע","incorrectInformationOrSampleCode","thumb-down"],["חסרים לי פרטים או דוגמאות","missingTheInformationSamplesINeed","thumb-down"],["בעיה בתרגום","translationIssue","thumb-down"],["סיבה אחרת","otherDown","thumb-down"]],["עדכון אחרון: 2026-06-18 (שעון UTC)."],[],[]]