במדריך הזה מוסבר איך ליצור ולפרוס משימה שמשכפלת באופן רציף נתונים שהשתנו ממסד נתונים של Microsoft SQL Server לטבלה ב-BigQuery.
מטרות
במדריך הזה תלמדו:
- מפעילים את התכונה 'סימון נתונים שהשתנו' (CDC) במסד הנתונים של SQL Server.
- ליצור ולהפעיל משימת שכפול של Cloud Data Fusion.
- התוצאות מוצגות ב-BigQuery.
עלויות
במסמך הזה משתמשים ברכיבים הבאים של Google Cloud, והשימוש בהם כרוך בתשלום:
כדי להעריך את ההוצאות בהתאם לתחזית השימוש שלכם, אתם יכולים להיעזר במחשבון העלויות.
כשמריצים שכפול, מחויבים על אשכול Managed Service for Apache Spark ונושאים בעלויות עיבוד ב-BigQuery. כדי לייעל את העלויות האלה, מומלץ מאוד להשתמש בתמחור בתשלום קבוע ב-BigQuery.
לפני שמתחילים
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Data Fusion, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.- יוצרים מכונת Cloud Data Fusion ציבורית בגרסה 6.3.0 ואילך. אם יוצרים מכונה פרטית, צריך להגדיר קישור בין רשתות שכנות (peering) של רשת VPC.
- כשיוצרים את המופע, מפעילים את האפשרות 'שכפול' על ידי לחיצה על Add Accelerators (הוספת מאיצים) וסימון התיבה Replication (שכפול).
- כדי להפעיל את התכונה במופע קיים, אפשר לעיין במאמר בנושא הפעלת שכפול.
מידע נוסף על רשתות זמין במאמר שימוש ב-HAProxy עם Cloud Data Fusion כדי לנווט בטופולוגיות מורכבות של רשתות.
התפקידים הנדרשים
כדי לקבל את ההרשאות שנדרשות ללימוד הזה, כדאי לעיין במאמרים בקרת גישה באמצעות IAM והענקת הרשאת משתמש לחשבון שירות.
אופציונלי: הגדרת מכונה וירטואלית של SQL Server
מורידים את מסד הנתונים AdventureWorks2017 (OLTP) וטוענים את הנתונים למופע של SQL Server.
הפעלת CDC במסד הנתונים של SQL Server
כדי ליצור רפליקות, צריך להפעיל את התכונה 'סימון נתונים שהשתנו' (CDC) במסד הנתונים ובטבלה שרוצים ליצור להם רפליקות.
יצירה והפעלה של משימת שכפול ב-Cloud Data Fusion
העלאה של מנהל התקן JDBC
מורידים את מנהל ההתקן של SQL Server JDBC למחשב המקומי.
בממשק האינטרנט של Cloud Data Fusion, מעלים את מנהל ההתקן של JDBC. משתמשים בערכים האלה כדי להגדיר את מנהל ההתקן של JDBC:
- בשדה שם מזינים
sqlserver. - בשדה שם הכיתה, מזינים
com.microsoft.sqlserver.jdbc.SQLServerDriver. - בשדה גרסה משאירים את ברירת המחדל.
- בשדה שם מזינים
יצירת המשרה
בממשק האינטרנט של Cloud Data Fusion, לוחצים על Replication (שכפול).
לוחצים על Create a replication job.
בדף Create new replication job, מציינים שם למשימת השכפול ולוחצים על Next.
מגדירים את המקור:
- בוחרים באפשרות Microsoft SQL Server כמקור.
- בשדה מארח, מזינים את שם המארח של SQL Server שממנו רוצים לקרוא.
- בשדה Port, מזינים את היציאה שבה רוצים להשתמש כדי להתחבר ל-SQL Server:
1433. - בשדה JDBC Plugin Name (שם הפלאגין של JDBC), בוחרים באפשרות
sqlserverאו בשם שציינתם כשהגדרתם את מנהל ההתקן של JDBC. - בשדה Database name (שם מסד הנתונים), מזינים
AdventureWorks2017. - בקטע פרטי כניסה, מזינים את שם המשתמש והסיסמה כדי לגשת ל-SQL Server.
לוחצים על הבא.
מגדירים את היעד:
- בוחרים את היעד ב-BigQuery.
- מזהה הפרויקט והמפתח של חשבון השירות מזוהים באופן אוטומטי. משאירים את ערכי ברירת המחדל.
- אופציונלי: בקטע מתקדם, אפשר להגדיר את השם והמיקום של קטגוריית Cloud Storage, את מרווח הטעינה, את התוספת לשם של טבלת הביניים ואת ההתנהגות כשמבטלים טבלאות או מסדי נתונים.
לוחצים על הבא.
אחרי שמתחברים לחשבון, מוצגת רשימה של טבלאות
AdventureWorks2017. במדריך הזה, בוחרים כמה טבלאות ואירועים, כמוInsert,Updateואירועים מסוגDelete.אופציונלי: הגדרת המאפיינים המתקדמים. במדריך הזה, אפשר לאשר את הגדרות ברירת המחדל.
לוחצים על הבא.
בדף בדיקת ההערכה, לוחצים על הצגת המיפויים באחת מהטבלאות כדי לראות הערכה של בעיות בסכימה, תכונות חסרות או בעיות בקישוריות שעלולות להתרחש במהלך השכפול. כדי להמשיך, צריך לפתור את הבעיות. במדריך הזה, אם יש בעיות באחת מהטבלאות, צריך לחזור לשלב שבו בוחרים טבלאות ולבחור טבלה או אירוע ללא בעיות.
מידע נוסף על המרות של סוגי נתונים ממסד הנתונים של המקור ליעד ב-BigQuery זמין במאמר שכפול של סוגי נתונים.
לוחצים על הקודם.
לוחצים על הבא.
בודקים את פרטי הסיכום של עבודת השכפול ולוחצים על פריסת עבודת השכפול.
התחלת המשימה
- בדף פרטי עבודת השכפול, לוחצים על התחלה.
משימת השכפול עוברת מהסטטוס הקצאת משאבים לסטטוס התחלה ואז לסטטוס פועל. במצב הפעלה, משימת השכפול טוענת תמונת מצב ראשונית של נתוני הטבלה שבחרתם (לדוגמה, הטבלה People) לתוך BigQuery. במצב הזה, המצב של טבלת האנשים הוא Snapshotting. אחרי שהתמונה הראשונית של מצב הנתונים נטענת ל-BigQuery, כל שינוי שמתבצע בטבלת האנשים משוכפל ל-BigQuery. המצב של הטבלה מופיע כשכפול.
מעקב אחרי המשרה
אתם יכולים להתחיל את פעולת השכפול ולהפסיק אותה, לבדוק את ההגדרות והיומנים שלה ולעקוב אחרי פעולת השכפול.
אפשר לעקוב אחרי הפעילויות של עבודת השכפול בדף Replication job details (פרטי עבודת השכפול).
בדף Replication, לוחצים על Name של עבודת השכפול.
לוחצים על מעקב.
הצגת התוצאות ב-BigQuery
משימת השכפול יוצרת טבלה ומערך נתונים משוכפלים ב-BigQuery, עם שמות שמועברים משמות הטבלה ומסד הנתונים התואמים ב-SQL Server.
פותחים את BigQuery במסוףGoogle Cloud .
בחלונית הימנית, לוחצים על שם הפרויקט כדי להרחיב את רשימת מערכי הנתונים.
בוחרים את מערך הנתונים
adventureworks2017ואז בוחרים טבלה לתצוגה.
מידע נוסף זמין במאמרי העזרה של BigQuery.
הסרת המשאבים
כדי להימנע מחיובים בחשבון Google Cloud בגלל השימוש במשאבים שנעשה במסגרת המדריך הזה, אפשר למחוק את הפרויקט שמכיל את המשאבים, או להשאיר את הפרויקט ולמחוק את המשאבים בנפרד.
אחרי שמסיימים את המדריך, מוחקים את המשאבים שיצרתם ב-Google Cloud.
מחיקת המכונה הווירטואלית
- נכנסים לדף VM instances במסוף Google Cloud .
- מסמנים את התיבה שלצד המופע שרוצים למחוק.
- כדי למחוק את המכונה, לוחצים על More actions ואז על Delete ופועלים לפי ההוראות.
מחיקת מכונת Cloud Data Fusion
פועלים לפי ההוראות למחיקת מכונת Cloud Data Fusion.
מחיקת הפרויקט
- במסוף Google Cloud , נכנסים לדף Manage resources.
- ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על Delete.
- כדי למחוק את הפרויקט, כותבים את מזהה הפרויקט בתיבת הדו-שיח ולוחצים על Shut down.
המאמרים הבאים
- מידע נוסף על שכפול ב-Cloud Data Fusion
- מידע נוסף זמין במאמר Replication API reference.
- עוברים על ההדרכה בנושא שכפול נתונים מ-MySQL ל-BigQuery.
- עוברים על המדריך שכפול נתונים מ-Oracle ל-BigQuery.