שכפול נתונים ל-BigQuery כמעט בזמן אמת באמצעות Datastream

כאן מוסבר איך לשכפל נתונים ממסד נתונים של מקור למערכי נתונים של BigQuery באמצעות Datastream.


לחצו על תראו לי איך כדי לקרוא הסבר מפורט על המשימה ישירות במסוף Google Cloud :

תראו לי איך


לפני שמתחילים

  1. נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Datastream API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. Make sure that you have the following role or roles on the project: Support User, Datastream Admin, Monitoring Metrics Scopes Viewer, Gemini for Google Cloud Settings Admin

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. Click Grant access.
    4. In the New principals field, enter your user identifier. This is typically the email address for a Google Account.

    5. Click Select a role, then search for the role.
    6. To grant additional roles, click Add another role and add each additional role.
    7. Click Save.
  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. Verify that billing is enabled for your Google Cloud project.

  8. Enable the Datastream API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  9. Make sure that you have the following role or roles on the project: Support User, Datastream Admin, Monitoring Metrics Scopes Viewer, Gemini for Google Cloud Settings Admin

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. Click Grant access.
    4. In the New principals field, enter your user identifier. This is typically the email address for a Google Account.

    5. Click Select a role, then search for the role.
    6. To grant additional roles, click Add another role and add each additional role.
    7. Click Save.

אם רוצים ליצור הגדרת קישוריות פרטית לרשת VPC רגילה או משותפת, צריך להשלים דרישות מוקדמות נוספות. מידע נוסף זמין במאמר בנושא יצירת הגדרת קישוריות פרטית.

דרישות

ב-Datastream יש מגוון אפשרויות למקורות, ליעדים ולשיטות של קישוריות לרשת.

במדריך הזה להפעלה מהירה, אנחנו מניחים שאתם משכפלים נתונים ממסד נתונים של Cloud SQL ל-PostgreSQL ל-BigQuery. במסד הנתונים של המקור, צריך להיות אפשר להגדיר את מופע מסד הנתונים כך שיקבל חיבורים מכתובות IP ציבוריות של Datastream.

אנחנו לא יכולים לדעת את הפרטים הספציפיים של הסביבה שלכם, ולכן אנחנו לא יכולים לספק שלבים מפורטים בנוגע להגדרת הרשת.

במדריך למתחילים הזה, בוחרים באפשרות IP allowlisting (הוספה לרשימת ההיתרים של כתובות IP) כשיטה לחיבור לרשת. הוספת כתובות IP לרשימת ההיתרים היא תכונת אבטחה שמשמשת לעיתים קרובות להגבלת הגישה לנתונים במסד הנתונים של המקור ולשליטה בה, כך שרק משתמשים מהימנים יוכלו לגשת אליהם. אתם יכולים להשתמש ברשימות של כתובות IP מותרות כדי ליצור רשימות של כתובות IP או טווחי כתובות IP מהימנים, שמהם המשתמשים שלכם ושירותי ענן אחרים כמו Datastream יכולים לגשת לנתונים האלה. כדי להשתמש ברשימות של כתובות IP מותרות, צריך לפתוח את מסד הנתונים של Cloud SQL כמקור לחיבורים נכנסים מ-Datastream.

יצירת פרופילי חיבור

כשיוצרים פרופילים של חיבורים, מאחסנים ב-Datastream מידע בסיסי על המקור ועל היעד. אחר כך תוכלו להשתמש שוב במידע הזה בכמה מקורות.

במדריך למתחילים הזה, בוחרים באפשרות PostgreSQL כסוג הפרופיל של פרופיל חיבור המקור, ובאפשרות BigQuery כסוג הפרופיל של פרופיל חיבור היעד. ‫Datastream משתמש במידע בפרופילים של החיבור כדי להתחבר למסד הנתונים של המקור ול-BigQuery.

יצירת פרופיל של חיבור למקור עבור מסד נתונים של PostgreSQL

  1. עוברים לדף Connection profiles (פרופילים של חיבורים) ב-Datastream במסוףGoogle Cloud .

    מעבר לדף Connection profiles

  2. לוחצים על יצירת פרופיל.

  3. בדף Create a connection profile (יצירת פרופיל חיבור), לוחצים על סוג הפרופיל PostgreSQL (כי רוצים ליצור פרופיל חיבור למקור נתונים של מסד נתונים PostgreSQL).

  4. בקטע Define connection settings (הגדרת פרטי החיבור) בדף Create PostgreSQL profile (יצירת פרופיל PostgreSQL), מזינים את הפרטים הבאים:

    • מזינים My Source Connection Profile בתור שם פרופיל החיבור למסד הנתונים של המקור.
    • משאירים את מזהה פרופיל החיבור שנוצר אוטומטית.
    • בוחרים את האזור שבו יישמר פרופיל החיבור.
    • מזינים את פרטי החיבור:
    • בשדה Hostname or IP (שם מארח או כתובת IP), מזינים שם מארח או כתובת IP ציבורית ש-Datastream יכול להשתמש בהם כדי להתחבר למסד הנתונים של PostgreSQL כמקור. אתם מספקים כתובת IP ציבורית כי רשימת כתובות IP להיתר תשמש כשיטה לקישוריות רשת במדריך הזה להפעלה מהירה.
    • בשדה יציאה, מזינים את מספר היציאה ששמור למסד הנתונים של המקור. במסד נתונים של PostgreSQL, יציאת ברירת המחדל היא בדרך כלל 5432.
    • מזינים שם משתמש וסיסמה כדי לבצע אימות למסד הנתונים של המקור.
    • בשדה Database (מסד נתונים), מזינים את השם שמזהה את מופע מסד הנתונים. במסדי נתונים של PostgreSQL, בדרך כלל זה postgres.
  5. בקטע הגדרת הגדרות החיבור, לוחצים על המשך. הקטע Define connectivity method בדף Create PostgreSQL profile פעיל.

  6. בוחרים את שיטת הרשת שרוצים להשתמש בה כדי ליצור קישוריות בין מסד הנתונים של המקור לבין Datastream. במדריך הזה, משתמשים בתפריט הנפתח Connectivity method (שיטת הקישוריות) כדי לבחור באפשרות IP allowlisting (הוספת כתובות IP לרשימת ההיתרים) כשיטת הרשת.

  7. מגדירים את מסד הנתונים של המקור כך שיאפשר חיבורים נכנסים מכתובות ה-IP הציבוריות של Datastream שמופיעות.

  8. בקטע Define connectivity method (הגדרת שיטת הקישוריות), לוחצים על CONTINUE (המשך). הקטע Test connection profile בדף Create PostgreSQL profile פעיל.

  9. לוחצים על RUN TEST (הפעלת בדיקה) כדי לוודא שמסד הנתונים של PostgreSQL במקור ו-Datastream יכולים לתקשר זה עם זה.

  10. בודקים שהסטטוס 'הבדיקה עברה בהצלחה' מופיע.

  11. אם הבדיקה נכשלת, אפשר לטפל בבעיה בחלק המתאים בתהליך ואז לחזור לבדיקה חוזרת. בדף 'אבחון בעיות' מפורטים שלבים לפתרון בעיות.

  12. לוחצים על יצירה.

יצירת פרופיל חיבור ליעד ב-BigQuery

  1. עוברים לדף Connection profiles (פרופילים של חיבורים) ב-Datastream במסוףGoogle Cloud .

    מעבר לדף Connection profiles

  2. לוחצים על יצירת פרופיל.

  3. בדף Create a connection profile (יצירת פרופיל חיבור), לוחצים על סוג הפרופיל BigQuery (כי רוצים ליצור פרופיל חיבור ליעד ב-BigQuery).

  4. בדף Create BigQuery profile (יצירת פרופיל BigQuery) מזינים את הפרטים הבאים:

    • מזינים My Destination Connection Profile בתור שם פרופיל החיבור לשירות היעד BigQuery.
    • משאירים את מזהה פרופיל החיבור שנוצר אוטומטית.
    • בוחרים את האזור שבו יישמר פרופיל החיבור.
  5. לוחצים על יצירה.

אחרי שיוצרים פרופיל חיבור למקור נתונים של מסד נתונים מסוג PostgreSQL ופרופיל חיבור ליעד של BigQuery, אפשר להשתמש בהם כדי ליצור זרם.

יצירת מקור נתונים

בקטע הזה יוצרים זרם כדי לשכפל נתונים ממסד נתונים של PostgreSQL כמקור ל-BigQuery.

יצירת מקור נתונים כוללת:

הגדרת ההגדרות של השידור

  1. נכנסים לדף Streams של Datastream במסוף Google Cloud.

    מעבר לדף העדכונים

  2. לוחצים על יצירת מקור נתונים.

  3. בחלונית הגדרת פרטים של עדכון התוכן בדף יצירת עדכון תוכן, מזינים את הפרטים הבאים:

    • מזינים My Stream בשדה שם מקור הנתונים.
    • משאירים את מזהה מקור הנתונים שנוצר אוטומטית.
    • בתפריט Region, בוחרים את האזור שבו יצרתם את פרופיל חיבור המקור.
    • בתפריט סוג המקור, בוחרים את סוג הפרופיל PostgreSQL.
    • בתפריט סוג היעד, בוחרים את סוג הפרופיל BigQuery.
  4. בודקים את התנאים המוקדמים שנוצרים באופן אוטומטי כדי להבין איך צריך להכין את הסביבה לשידור. הדרישות המוקדמות האלה כוללות הסברים על הגדרת מסד הנתונים של המקור ועל הגדרת BigQuery.

  5. לוחצים על המשך. החלונית Define PostgreSQL connection profile (הגדרת פרופיל חיבור ל-PostgreSQL) בדף Create stream (יצירת זרם) מופיעה.

ציון מידע על פרופיל החיבור למקור

  1. בתפריט פרופיל קישור למקור, בוחרים את פרופיל הקישור למקור עבור מסד נתונים של PostgreSQL.

  2. לוחצים על הפעלת בדיקה כדי לוודא שניתן ליצור תקשורת בין מסד הנתונים של המקור לבין Datastream.

    אם הבדיקה נכשלת, הבעיה שמשויכת לפרופיל החיבור מופיעה. בדף לפתרון בעיות מפורטים שלבים לפתרון בעיות. מבצעים את השינויים הנדרשים כדי לתקן את הבעיה, ואז בודקים מחדש.

  3. לוחצים על המשך. מופיעה החלונית Configure stream source בדף Create stream.

הגדרת מידע על מסד הנתונים של המקור עבור הזרם

  1. מזינים את השמות של משבצת השכפול והפרסום עבור מסד הנתונים של המקור. משבצת השכפול והפרסום נוצרו כשהגדרתם את מסד הנתונים של PostgreSQL.

  2. בתפריט Objects to include (אובייקטים להכללה), מציינים את הטבלאות והסכימות במסד הנתונים של המקור ש-Datastream ישכפל ל-BigQuery. התפריט נטען רק אם במסד הנתונים יש עד 5,000 אובייקטים.

    במדריך למתחילים הזה, רוצים ש-Datastream יעביר את כל הטבלאות והסכימות. לכן, בתפריט בוחרים באפשרות All tables from all schemas (כל הטבלאות מכל הסכימות).

  3. לוחצים על המשך. מופיעה החלונית הגדרת פרופיל חיבור ל-BigQuery בדף יצירת זרם.

בחירת פרופיל חיבור ליעד

  1. בתפריט פרופיל חיבור ליעד, בוחרים את פרופיל החיבור ליעד ב-BigQuery.

  2. לוחצים על המשך. מופיעה החלונית Configure stream destination בדף Create stream.

הגדרת מידע על היעד של מקור הנתונים

  1. בוחרים באפשרות Dataset for each schema (מערך נתונים לכל סכימה), כדי ש-Datastream ייצור באופן אוטומטי מערך נתונים ב-BigQuery לכל סכימה במסד הנתונים של המקור.

  2. בוחרים את סוג המיקום שבו ייצרו מערכי הנתונים ב-BigQuery. למרות שהמיקום הזה לא חייב להיות זהה לאזור שבו נוצר הזרם של Datastream, מומלץ לשמור את כל המשאבים ואת מערכי הנתונים באותו אזור כדי לייעל את העלויות והביצועים.

  3. מגדירים את הערך קידומת ל-quickstart-. ‫Datastream יוסיף את המחרוזת הזו לתחילת כל מערך נתונים שהוא יוצר ב-BigQuery.

  4. משאירים את הערך בשדה מצב כתיבה של הזרם כפי שהוא, מיזוג. כך הטבלאות ב-BigQuery נשארות מסונכרנות עם המקור.

  5. משאירים את הערך בתפריט הנפתח Specify the limit of data staleness (הגדרת מגבלת הטריות של הנתונים) על 15 דקות. מערכת BigQuery משתמשת בערך הזה כדי להחליט עד כמה הנתונים שלכם יכולים להיות לא עדכניים כשמריצים עליהם שאילתות.

  6. לוחצים על המשך. מופיעה החלונית בדיקת פרטי מקור הנתונים ויצירה בדף יצירת מקור נתונים.

יצירת מקור הנתונים

  1. בודקים את הפרטים של הסטרים, וגם את פרופילי החיבור של המקור והיעד שבהם הסטרים ישתמש כדי להעביר נתונים ממסד נתונים של PostgreSQL אל BigQuery.

  2. לוחצים על הפעלת אימות כדי לאמת את הזרם. כשמאמתים זרם, Datastream בודק שהמקור מוגדר בצורה תקינה, מוודא שהזרם יכול להתחבר גם למקור וגם ליעד, ומאמת את ההגדרה מקצה לקצה של הזרם.

  3. אחרי שכל בדיקות האימות עוברות בהצלחה, לוחצים על יצירה.

  4. בתיבת הדו-שיח יצירת מקור נתונים?, לוחצים על יצירה.

התחלת השידור

בקטע הקודם של המדריך לתחילת העבודה, יצרתם שידור אבל לא התחלתם אותו. אפשר לעשות את זה עכשיו.

במדריך הזה ליצירת שידור מהיר, יוצרים ומתחילים שידור בנפרד, למקרה שתהליך יצירת השידור יגרום לעומס מוגבר על מסד הנתונים של המקור. כדי לדחות את הטעינה, יוצרים את הזרם בלי להתחיל אותו, ואז מתחילים את הזרם כשהטעינה יכולה להתבצע.

אחרי שמפעילים את מקור הנתונים, Datastream יכול להעביר נתונים, סכימות וטבלאות ממסד הנתונים של המקור אל היעד.

  1. נכנסים לדף Streams של Datastream במסוף Google Cloud.

    מעבר לדף העדכונים

  2. מסמנים את התיבה שמשמאל לשידור שרוצים להתחיל. במדריך למתחילים הזה, השם הוא השידור שלי.

  3. לוחצים על התחלה.

  4. בתיבת הדו-שיח, לוחצים על התחלה. הסטטוס של הזרם משתנה מNot started לStarting לRunning.

    אחרי שמתחילים להזרים נתונים, אפשר לוודא ש-Datastream העביר נתונים ממסד הנתונים של המקור ליעד.

אימות השידור

בקטע הזה, תאשרו ש-Datastream מעביר את הנתונים מכל הטבלאות במסד הנתונים של PostgreSQL במקור אל BigQuery.

  1. נכנסים לדף Streams של Datastream במסוף Google Cloud.

    מעבר לדף העדכונים

  2. לוחצים על מקור הנתונים שיצרתם. במדריך למתחילים הזה, השם הוא My Stream.

  3. בדף פרטי המקור, לוחצים על הקישור שמופיע מתחת לשדה נתיב הכתיבה של היעד. ‫BigQuery Studio ייפתח בכרטיסייה נפרדת.

  4. מוודאים שמוצגים לכם מערכי נתונים וטבלאות שמייצגים סכימות וטבלאות ממסד הנתונים של PostgreSQL.

  5. לוחצים על אחת מהטבלאות כדי לראות תצוגה מקדימה של הנתונים.

הסרת המשאבים

כדי לא לצבור חיובים לחשבון Google Cloud על המשאבים שבהם השתמשתם בדף הזה, פועלים לפי השלבים הבאים:

  1. אפשר להשתמש במסוף Google Cloud כדי למחוק את הפרויקט, את מקור הנתונים ואת פרופילי החיבור, ואת מערכי הנתונים ב-BigQuery.

אם תנקו את המשאבים שיצרתם ב-Datastream, הם לא יתפסו מכסה ולא תחויבו עליהם בעתיד. בסעיפים הבאים מוסבר איך למחוק או להשבית את המשאבים האלו.

מחיקת פרויקט

הדרך הקלה ביותר לבטל את החיוב היא למחוק את הפרויקט שיצרתם בשביל המדריך למתחילים.

  1. במסוף Google Cloud , נכנסים לדף Manage resources.

    כניסה לדף Manage resources

  2. ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על Delete.

  3. כדי למחוק את הפרויקט, כותבים את מזהה הפרויקט בתיבת הדו-שיח ולוחצים על Shut down.

מחיקת השידור

  1. נכנסים לדף Streams של Datastream במסוף Google Cloud.

    מעבר לדף העדכונים

  2. לוחצים על הזרם שרוצים למחוק. במדריך למתחילים הזה, השם הוא My Stream.

  3. לוחצים על השהיה.

  4. בתיבת הדו-שיח, לוחצים על השהיה.

  5. בחלונית סטטוס מקור הנתונים בדף פרטי מקור הנתונים, מוודאים שהסטטוס של מקור הנתונים הוא Paused.

  6. לוחצים על מחיקה.

  7. בתיבת הדו-שיח, מזינים Delete בשדה הטקסט ולוחצים על DELETE.

מחיקת פרופילי הקישור

  1. עוברים לדף Connection profiles (פרופילים של חיבורים) ב-Datastream במסוףGoogle Cloud .

    מעבר לדף Connection profiles

  2. מסמנים את התיבה לצד כל פרופיל חיבור שרוצים למחוק. במדריך הזה, מסמנים את תיבות הסימון של My Source Connection Profile ושל My Destination Connection Profile.

  3. לוחצים על מחיקה.

  4. בתיבת הדו-שיח, לוחצים על מחיקה.

מחיקת מערכי נתונים ב-BigQuery

  1. עוברים לדף BigQuery Studio במסוף Google Cloud .

    כניסה ל-BigQuery Studio

  2. מרחיבים את צומת הפרויקט שבו יצרתם את המדריך למתחילים הזה.

  3. לכל מערך נתונים שרוצים למחוק, לוחצים על תפריט הצגת פעולות ואז על מחיקה.

  4. בתיבת הדו-שיח, מזינים delete בשדה הטקסט ולוחצים על DELETE.

המאמרים הבאים