שירות השכפול של Cloud Data Fusion מאפשר ליצור עותקים של הנתונים באופן רציף ובזמן אמת ממאגרי נתונים תפעוליים, כמו SQL Server ו-MySQL, אל BigQuery.
כדי להשתמש בשכפול, בוחרים באחת מהשיטות הבאות:
- יוצרים מכונה חדשה של Cloud Data Fusion ומוסיפים את אפליקציית השכפול.
- מוסיפים את אפליקציית השכפול למופע קיים.
ההטבות כוללות:
זיהוי חוסר תאימות של סכימות, בעיות קישוריות ותכונות חסרות לפני התחלת השכפול, ואז מתן פעולות תיקון.
שימוש בנתונים התפעוליים העדכניים ביותר בזמן אמת לניתוח ב-BigQuery. אתם משתמשים בשכפול מבוסס-יומן ישירות ל-BigQuery מ-Microsoft SQL Server (באמצעות SQL Server CDC) ומ-MySQL (באמצעות MySQL Binary Log).
סימון נתונים שהשתנו (CDC) שמספק ייצוג של נתונים שהשתנו במקור נתונים, ומאפשר לבצע חישובים ועיבודים שמתמקדים ספציפית ברשומות שהשתנו לאחרונה. כך מצמצמים את העלויות של חיובים על שימוש בחבילת הגלישה במערכות ייצור רגישות.
יכולת התאמה רחבה לארגונים עם תמיכה במסדי נתונים טרנזקציוניים בנפח גבוה. טעינות ראשוניות של נתונים ל-BigQuery נתמכות בשכפול של תמונת מצב ללא השבתה, כדי שמחסן הנתונים יהיה מוכן לצריכת שינויים באופן רציף. אחרי שהתמונה הראשונית מוכנה, מתחיל שיכפול רציף של השינויים בזמן אמת, עם תפוקה גבוהה.
לוחות הבקרה עוזרים לכם לקבל תובנות בזמן אמת לגבי ביצועי השכפול. הוא שימושי לזיהוי צווארי בקבוק ולמעקב אחרי הסכמי רמת שירות (SLA) של מסירת נתונים.
כולל תמיכה במיקום לאחסון נתונים, במפתחות הצפנה בניהול הלקוח (CMEK) וב-VPC Service Controls. השילוב של Cloud Data Fusion ב-Google Cloud מבטיח שרמות האבטחה והפרטיות הגבוהות ביותר בארגון יישמרו, ושהנתונים העדכניים ביותר יהיו זמינים במחסן הנתונים שלכם לצורך ניתוח.
תמחור מומלץ
כשמריצים שכפול, מחויבים על אשכול Managed Service for Apache Spark ונושאים בעלויות עיבוד ב-BigQuery. כדי לייעל את העלויות האלה, מומלץ מאוד להשתמש בתמחור בשיעור קבוע ב-BigQuery.
מידע נוסף מופיע בדף תמחור של Cloud Data Fusion.
ישויות שכפול
| ישות | תיאור |
|---|---|
| שכפול | שכפול הוא יכולת של Cloud Data Fusion שמאפשרת לשכפל נתונים באופן רציף בזמן אחזור קצר ממאגרי נתונים תפעוליים למחסני נתונים אנליטיים. יוצרים עבודת שכפול על ידי הגדרת מקור ויעד עם טרנספורמציות אופציונליות. |
| מקור | קריאת אירועי שינוי במסד נתונים, בטבלה או בעמודה והפיכתם לזמינים לעיבוד נוסף במשימת שכפול. משימת שכפול מכילה מקור אחד, שמסתמך על פתרון לתיעוד שינויים כדי לספק את השינויים. יכולים להיות כמה מקורות למסד נתונים, שלכל אחד מהם יש פתרון שונה לתיעוד שינויים. מקור הוא מודול שאפשר להוסיף אותו, והוא בנוי באמצעות ארכיטקטורת הפלאגין של CDAP. אם מקור לא זמין כדי לענות על הצרכים שלכם, אתם יכולים ליצור מקור משלכם על ידי הטמעה של ממשק המקור, ואז להעלות אותו ל-CDAP או ל-Cloud Data Fusion. |
| יעד | כותב שינויים שהתקבלו ממקור למסד נתונים של יעד. משימת שכפול מכילה יעד אחד. יעד הוא מודול שאפשר להוסיף אותו, והוא בנוי באמצעות ארכיטקטורת הפלאגין של CDAP. אם אין יעד שמתאים לצרכים שלכם, אתם יכולים ליצור יעד משלכם על ידי הטמעה של ממשק היעד ואז להעלות אותו ל-CDAP או ל-Cloud Data Fusion. |
| נכסי מקור | הגדרת המקור, כולל פרטי החיבור, מסד הנתונים של המקור ושמות הטבלאות, פרטי הכניסה ומאפיינים אחרים. |
| מאפייני היעד | הגדרת היעד, כולל פרטי החיבור, שמות מסד הנתונים והטבלה של היעד, פרטי הכניסה ומאפיינים אחרים. |
| מאפייני משימת השכפול | הגדרת עבודת השכפול, כולל ספי כשל, אזורי ביניים, התראות והגדרות אימות. |
| טיוטה | עבודה של שכפול שנשמרה ולא הושלמה. אחרי שמסיימים להגדיר את משימת השכפול, אפשר להתחיל אותה. |
| אירועים | לשנות אירועים במקור כדי שהם ישוכפלו ליעד. האירועים כוללים הוספות, עדכונים, מחיקות ושינויים ב-DDL (שפת הגדרת נתונים). |
| הוספה | הוספה של רשומות חדשות במקור. |
| עדכון | עדכון רשומות קיימות במקור. |
| מחיקה | הסרת רשומות קיימות במקור. |
| שינוי DDL | אירוע שמכיל שינוי בסכימה, כמו שינוי בסוג הנתונים או בשם. |
| יומנים | היומנים התפעוליים של עבודת שכפול. |
| פרטי עבודת השכפול | דף פרטים עם מידע על עבודת השכפול, כמו המצב הנוכחי שלה, מדדים תפעוליים, תצוגה היסטורית לאורך זמן, תוצאות האימות וההגדרה שלה. |
| מרכז שליטה | דף שבו מפורט הסטטוס של כל הפעילויות של סימון נתונים שהשתנו (CDC), כולל תפוקה, זמן האחזור, שיעורי הכשלים ותוצאות האימות. |
פעולות
| פעולות | תיאור |
|---|---|
| כלים לפריסה | יצירת משימת שכפול חדשה באמצעות ממשק אינטרנט כדי לציין מקור, יעד וההגדרה שלהם. |
| שמירה | שמירת עבודת שכפול שנוצרה באופן חלקי כדי להמשיך את היצירה שלה מאוחר יותר. |
| מחיקה | מחיקה של עבודת שכפול קיימת. אפשר למחוק רק צינורות שנעצרו. |
| התחלה | התחלת עבודת שכפול. אם יש שינויים לעיבוד, עבודת השכפול עוברת למצב 'פעיל'. אחרת, היא עוברת למצב 'בהמתנה'. |
| עצירה | הפסקת עבודת השכפול. תהליך השכפול מפסיק לעבד שינויים מהמקור. |
| צפייה ביומנים | צפייה ביומנים של עבודת שכפול לצורך ניפוי באגים או ניתוח אחר. |
| חיפוש | חיפוש של עבודת שכפול לפי השם, התיאור או מטא-נתונים אחרים של עבודת השכפול. |
| הערכה | הערכת ההשפעה של השכפול לפני התחלת השכפול. הערכה של עבודת שכפול יוצרת דוח הערכה שמסמן חוסר תאימות של סכימות ותכונות חסרות. |
מעקב
| מצבי משכפל | תיאור |
|---|---|
| נפרס | עבודת השכפול נפרסה, אבל לא הופעלה. במצב הזה, עבודת שכפול לא משכפלת אירועים. |
| מתחיל | תהליך השכפול נמצא בשלב האתחול, והוא לא מוכן לשכפל שינויים. |
| פועל | עבודת השכפול מתחילה, והיא משכפלת שינויים. |
| המערכת מפסיקה | תהליך השכפול מופסק. |
| הופסק | עבודת השכפול מופסקת. |
| נכשל | העתקת הנתונים נכשלה בגלל שגיאות חמורות. |
מצבי טבלה
| קונספט | תיאור |
|---|---|
| יצירת תמונת מצב | עבודת השכפול מצלמת תמונת מצב של המצב הנוכחי של הטבלה לפני שכפול השינויים. |
| שכפול | משימת השכפול משכפלת שינויים מטבלת המקור לטבלת היעד. |
| הניסיון נכשל | השכפול של השינויים מטבלת המקור נכשל בגלל שגיאה. |
מדדים
| קונספט | תיאור |
|---|---|
| הוספות | מספר ההוספות שבוצעו ליעד בפרק הזמן שנבחר. |
| עדכונים | מספר העדכונים שהוחלו על היעד בתקופת הזמן שנבחרה. |
| מוחק | מספר המחיקות שבוצעו ביעד בתקופת הזמן שנבחרה. |
| DDLs | מספר השינויים ב-DDL שחלו על היעד בתקופת הזמן שנבחרה. |
| תפוקה | מספר האירועים ומספר הבייטים ששוכפלו ליעד בתקופת הזמן שנבחרה. |
| זמן אחזור | ההשהיה שבה הנתונים משוכפלים ליעד בתקופה שנבחרה. |
רכיבים
| רכיב | תיאור |
|---|---|
| שירות | השירות מפקח על תזמור מקצה לקצה של משימות שכפול, ומספק יכולות לתכנון, לפריסה, לניהול ולמעקב של משימות שכפול. הוא פועל בתוך פרויקט הדייר של Cloud Data Fusion (פרויקט הדייר מוסתר מהמשתמש). הסטטוס שלו מוצג בדף **System Admin** בממשק האינטרנט של Cloud Data Fusion. |
| ניהול מצב | השירות מנהל את המצב של כל עבודת שכפול בקטגוריה של Cloud Storage בפרויקט של הלקוח. אפשר להגדיר את הקטגוריה כשיוצרים את פעולת השכפול. הוא מאחסן את ההיסטים הנוכחיים ואת מצב השכפול של כל משימת שכפול. |
| הרצה | אשכולות של Managed Service for Apache Spark מספקים את סביבת ההפעלה של משימות השכפול שמופעלות בפרויקט שלכם. משימות השכפול מופעלות באמצעות CDAP workers. הגודל והמאפיינים של סביבת ההפעלה מוגדרים באמצעות פרופילים של Compute Engine. |
| מסד נתונים של המקור | מסד הנתונים התפעולי של הסביבה שלכם, שמשוכפל למסד הנתונים של היעד. מסד הנתונים יכול להיות מקומי או ב- Google Cloud. שכפול של Cloud Data Fusion תומך במסדי נתונים של MySQL, Microsoft SQL Server ו-Oracle. |
| שינוי פתרון המעקב | במקום להסתמך על סוכן שפועל במסד הנתונים של המקור, Cloud Data Fusion מסתמך על פתרון למעקב אחר שינויים כדי לקרוא שינויים במסד הנתונים של המקור. הפתרון יכול להיות רכיב של מסד הנתונים של המקור או פתרון של צד שלישי עם רישיון נפרד. במקרה השני, פתרון מעקב השינויים פועל באופן מקומי, במיקום משותף עם מסד הנתונים של המקור, או ב- Google Cloud. כל מקור צריך להיות משויך לפתרון למעקב אחרי שינויים.
|
| מסד נתונים של היעד | מיקום היעד לרפליקציה ולניתוח. Cloud Data Fusion תומך במסד הנתונים של יעד BigQuery. |
| אימות | מנגנוני האימות משתנים בהתאם למסד הנתונים של המקור או לתוכנה למעקב אחר שינויים. כשמשתמשים ביכולות המובנות של מסדי נתונים של מקורות, כמו SQL Server ו-MySQL, נעשה שימוש בהתחברויות למסד הנתונים לצורך אימות. כשמשתמשים בתוכנה למעקב אחרי שינויים, נעשה שימוש במנגנון האימות של התוכנה. |
קישוריות
בטבלה הבאה מתוארים חיבורי הרשת שנדרשים לשכפול, ומנגנוני האבטחה שבהם הם משתמשים.
| מאת | אל | אופציונלי | פרוטוקול | רשת | אבטחת אימות | מטרה |
|---|---|---|---|---|---|---|
| שירות (פרויקט של דייר) | מסד נתונים של המקור | כן | תלוי במקור השכפול. JDBC לחיבור ישיר למסד נתונים. | פירינג + כללי חומת אש + VPN/Interconnect + נתב | כניסה למסד נתונים | נדרש בזמן העיצוב, לא בזמן ההפעלה פונקציות: רשימת טבלאות, הערכה (שלבים אופציונליים; אפשר להמשיך בשכפול בלעדיהם) |
| שירות (פרויקט של דייר) | Cloud Storage | לא | Cloud API | VPC-SC | IAM | ניהול מצב: היסטים, מצבי שכפול |
| Managed Service for Apache Spark (הפרויקט שלכם) | מסד נתונים של המקור | לא | תלוי במקור. JDBC לחיבור ישיר למסד נתונים. | Peering + כללי חומת אש + VPN/Interconnect + נתב | כניסה למסד נתונים | נדרש בזמן ההפעלה, לקריאת שינויים ממסד הנתונים של המקור כדי לשכפל ליעד |
| Managed Service for Apache Spark (הפרויקט שלכם) | Cloud Storage | לא | Cloud API | VPC-SC | IAM | ניהול מצב: היסטים, מצבי שכפול |
| Managed Service for Apache Spark (הפרויקט שלכם) | BigQuery | לא | Cloud API | VPC-SC | IAM | נדרש בזמן ההפעלה כדי להחיל שינויים ממסד הנתונים של המקור על היעד |
המאמרים הבאים
- מידע נוסף זמין במאמר Replication API reference.
- אפשר לעיין במיפויי סוגי הנתונים לשכפול.