שכפול נתונים ממסד נתונים של Oracle ל-BigQuery

במדריך הזה נסביר איך לפרוס משימה שמשכפלת באופן רציף נתונים שהשתנו ממסד נתונים של Oracle למערך נתונים ב-BigQuery, באמצעות Cloud Data Fusion Replication. התכונה הזו מופעלת על ידי Datastream.

מטרות

במדריך הזה תלמדו:

  1. מגדירים את מסד הנתונים של Oracle כדי להפעיל רישום משלים ביומן.
  2. ליצור ולהפעיל משימת שכפול של Cloud Data Fusion.
  3. התוצאות מוצגות ב-BigQuery.

עלויות

במסמך הזה משתמשים ברכיבים הבאים של Google Cloud, והשימוש בהם כרוך בתשלום:

כדי להעריך את ההוצאות בהתאם לתחזית השימוש שלכם, אתם יכולים להיעזר במחשבון העלויות.

משתמשים חדשים של Google Cloud ? יכול להיות שאתם זכאים לתקופת ניסיון בחינם.

כשמריצים שכפול, מחויבים על השימוש באשכול של Managed Service for Apache Spark וב-Cloud Storage, ונושאים בעלויות העיבוד של Datastream ו-BigQuery. כדי לבצע אופטימיזציה של העלויות האלה, מומלץ מאוד להשתמש בתמחור בתשלום קבוע ב-BigQuery.

לפני שמתחילים

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  2. Verify that billing is enabled for your Google Cloud project.

  3. Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  4. יוצרים מכונת Cloud Data Fusion ציבורית בגרסה 6.3.0 ואילך. אם יוצרים מכונה פרטית, צריך להגדיר קישור בין רשתות שכנות (peering) של רשת VPC.
    • כשיוצרים את המופע, מפעילים את האפשרות 'שכפול' על ידי לחיצה על Add Accelerators (הוספת מאיצים) וסימון התיבה Replication (שכפול).
    • כדי להפעיל את התכונה במופע קיים, אפשר לעיין במאמר בנושא הפעלת שכפול.

התפקידים הנדרשים

כדי לקבל את ההרשאות שנדרשות להתחבר למסד נתונים של Oracle, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים:

  • Dataproc Worker ‏ (roles/dataproc.worker) בחשבון השירות של Managed Service for Apache Spark בפרויקט שמכיל את האשכול
  • Cloud Data Fusion Runner בחשבון השירות של Managed Service for Apache Spark בפרויקט שמכיל את האשכול
  • DataStream Admin (roles/datastream.admin) בחשבון השירות של Cloud Data Fusion ובחשבון השירות של Managed Service for Apache Spark

אפשר לקרוא מידע נוסף על הקצאת תפקידים במאמר ניהול הגישה.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

אופציונלי: התקנת Oracle ב-Compute Engine

בקטע הזה נסביר איך להגדיר מסד נתונים לדוגמה. אם כבר התקנתם מסד נתונים של Oracle, אתם יכולים לדלג על הקטע הזה.

  1. מורידים קובץ אימג' של Docker של Oracle Server.

    מידע על המגבלות של תמונת Oracle Express Edition 11g זמין במאמר בנושא מהדורות של Oracle Database.

  2. פורסים את קובץ האימג' של Docker במכונה וירטואלית חדשה.

  3. בדף Disks של Compute Engine, משנים את גודל הדיסק ל-500 GB ומפעילים מחדש את המכונה הווירטואלית.

    לפתיחת הדף Disks

  4. מתקינים את סכימת הדוגמה של משאבי אנוש.

יצירת קישור בין רשתות שכנות ב-VPC או כלל לחומת האש עבור שרת Oracle

אם מסד הנתונים של Oracle לא מאפשר תעבורת נתונים נכנסת מכתובות IP ציבוריות, צריך להגדיר שיוך של רשתות VPC בין ה-VPC של Datastream לבין ה-VPC שבו אפשר לגשת למסד הנתונים של Oracle. מידע נוסף זמין במאמר בנושא יצירת הגדרת קישוריות פרטית.

אם מסד הנתונים של Oracle מאפשר תעבורת נתונים נכנסת מכתובות IP ציבוריות, צריך ליצור כלל חומת אש עבור מכונת ה-VM כדי לאפשר תעבורת נתונים נכנסת מכתובות ה-IP הציבוריות של Datastream.

הגדרה של שרת Oracle להפעלת רישום משלים ביומן

פועלים לפי השלבים להגדרת מסד הנתונים של Oracle כמקור.

יצירה והפעלה של משימת שכפול ב-Cloud Data Fusion

יצירת המשרה

  1. בממשק האינטרנט של Cloud Data Fusion, לוחצים על Replication (שכפול).

  2. לוחצים על Create a replication job.

  3. בדף Create new replication job, מציינים שם למשימת השכפול ולוחצים על Next.

  4. מגדירים את המקור:

    1. בוחרים באפשרות Oracle (by Datastream) כמקור.

    2. בקטע Connectivity Method (שיטת הקישוריות), אם השרת של Oracle מאפשר תעבורת נתונים נכנסת (ingress) מכתובות IP ציבוריות של Datastream, בוחרים באפשרות IP allowlisting (הוספה לרשימת ההיתרים של כתובות IP). אחרת, בשדה Private Connection Name (שם החיבור הפרטי), בוחרים באפשרות Private connectivity (VPC peering) (קישוריות פרטית (קישור בין רשתות VPC שכנות)) ומזינים את השם של הקישור בין רשתות VPC שכנות שיצרתם בקטע יצירת קישור בין רשתות VPC שכנות או כלל חומת אש לשרת Oracle.

    3. בשדה מארח, מזינים את שם המארח של שרת Oracle לקריאה.

    4. בשדה Port, מזינים את היציאה שבה רוצים להשתמש כדי להתחבר לשרת Oracle:‏ 1521.

    5. בשדה System Identity (זהות המערכת), מזינים xe (שם מסד הנתונים לדוגמה של שרת Oracle).

    6. בקטע של פרטי הכניסה, מזינים את שם המשתמש והסיסמה לגישה ל-Oracle Server.

    7. משאירים את כל שאר המאפיינים כמו שהם.

  5. לוחצים על הבא.

  6. מגדירים את היעד:

    1. בוחרים את היעד ב-BigQuery.

    2. מזהה הפרויקט והמפתח של חשבון השירות מזוהים באופן אוטומטי. משאירים את ערכי ברירת המחדל כמו שהם.

    3. אופציונלי: בקטע מתקדם, אפשר להגדיר את האפשרויות הבאות:

      • השם והמיקום של קטגוריית הביניים
      • מרווח טעינה
      • קידומת של טבלת Staging
      • התנהגות כשמבטלים טבלאות או מסדי נתונים
  7. לוחצים על הבא.

  8. אם החיבור מצליח, מוצגת רשימה של טבלאות. במדריך הזה, בוחרים כמה טבלאות.

  9. לוחצים על הבא.

  10. בדף Review assessment page (בדיקת ההערכה), לוחצים על View mappings (הצגת המיפויים) באחת מהטבלאות כדי לקבל הערכה של בעיות בסכימה, תכונות חסרות או בעיות בקישוריות שעלולות להתרחש במהלך השכפול.

    אם מתעוררות בעיות, צריך לפתור אותן לפני שממשיכים. במדריך הזה, אם יש בעיות באחת מהטבלאות, צריך לבצע את הפעולות הבאות:

    1. חוזרים לשלב שבו בוחרים טבלאות.
    2. בחירת טבלה או אירוע (הוספות, עדכונים או מחיקות) ללא בעיות.

    מידע נוסף על המרות של סוגי נתונים ממסד הנתונים של המקור ליעד ב-BigQuery זמין במאמר שכפול של סוגי נתונים.

  11. לוחצים על הקודם.

  12. לוחצים על הבא.

  13. בודקים את פרטי הסיכום של עבודת השכפול ולוחצים על פריסת עבודת השכפול.

התחלת המשימה

  1. בממשק האינטרנט של Cloud Data Fusion, עוברים לדף פרטים של עבודת השכפול.

  2. לוחצים על התחלה.

משימת השכפול עוברת מהסטטוס הקצאת משאבים לסטטוס התחלה ואז לסטטוס פועל. במצב הפעלה, משימת השכפול טוענת תמונת מצב ראשונית של נתוני הטבלה שבחרתם אל BigQuery. במצב הזה, המצב של הטבלה מופיע כSnapshotting. אחרי שהתמונה הראשונית של מצב הנתונים נטענת ל-BigQuery, כל שינוי שמתבצע בטבלה משוכפל ל-BigQuery, והמצב של הטבלה מופיע כמשוכפל.

מעקב אחרי המשרה

אתם יכולים להתחיל את פעולת השכפול ולהפסיק אותה, לבדוק את ההגדרות והיומנים שלה ולעקוב אחרי פעולת השכפול.

אפשר לעקוב אחרי הפעילויות של עבודת השכפול בדף פרטי עבודת השכפול.

  1. בדף שכפול, לוחצים על שם של עבודת השכפול שנבחרה.

  2. לוחצים על מעקב.

הצגת התוצאות ב-BigQuery

משימת השכפול יוצרת מערך נתונים וטבלה משוכפלים ב-BigQuery, עם שמות שמועברים משמות הטבלאות ומסד הנתונים התואמים ב-Oracle.

  1. במסוף Google Cloud , עוברים לדף BigQuery.

  2. בחלונית הימנית, לוחצים על שם הפרויקט כדי להרחיב את רשימת מערכי הנתונים.

  3. בוחרים את מערך הנתונים xe ואז בוחרים טבלה לתצוגה.

מידע נוסף זמין במאמרי העזרה של BigQuery.

הסרת המשאבים

כדי להימנע מחיובים בחשבון Google Cloud בגלל השימוש במשאבים שנעשה במסגרת המדריך הזה, אפשר למחוק את הפרויקט שמכיל את המשאבים, או להשאיר את הפרויקט ולמחוק את המשאבים בנפרד.

בסיום המדריך, חשוב להסיר את המשאבים שיצרתם ב-Google Cloud כדי שלא יתפסו מכסה ולא תחויבו עליהם בעתיד. בסעיפים הבאים מוסבר איך למחוק או להשבית את המשאבים האלו.

מחיקת המכונה הווירטואלית

  1. נכנסים לדף VM instances במסוף Google Cloud .

    כניסה לדף VM instances

  2. מסמנים את התיבה שלצד המופע שרוצים למחוק.

  3. כדי למחוק את המכונה, לוחצים על מחיקה.

מחיקת מכונת Cloud Data Fusion

פועלים לפי ההוראות למחיקת מכונת Cloud Data Fusion.

מחיקת הפרויקט

הדרך הקלה ביותר לבטל את החיוב היא למחוק את הפרויקט שיצרתם בשביל המדריך הזה.

כדי למחוק את הפרויקט:

  1. במסוף Google Cloud , נכנסים לדף Manage resources.

    כניסה לדף Manage resources

  2. ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על Delete.
  3. כדי למחוק את הפרויקט, כותבים את מזהה הפרויקט בתיבת הדו-שיח ולוחצים על Shut down.

המאמרים הבאים