יצירת מקור נתונים ב-Cloud SQL באמצעות התהליך האוטומטי

בדף הזה מוסבר איך ליצור זרם באמצעות תהליך ההגדרה האוטומטי.

ההגדרה האוטומטית של הזרם מפשטת את תהליך העברת הנתונים ממסדי נתונים מנוהלים שלGoogle Cloud ל-BigQuery, כי היא מצמצמת את מספר השלבים שצריך לבצע. התהליך מאפשר ליצור זרם ישירות מדף הסקירה הכללית של מכונות Cloud SQL. ‫Datastream מבצע אוטומציה של אבטחת חיבור ה-VPC בין הזרם לבין מסד הנתונים של המקור, ויוצר הגדרות של מסד הנתונים ומשאבי חיבור של הזרם.

לפני שמתחילים

  1. מפעילים את ממשקי ה-API של Datastream,‏ Network Connectivity ו-Compute Engine.
  2. כדאי לוודא שיש לכם את ההרשאות הנדרשות לניהול זהויות והרשאות גישה (IAM) כדי ליצור ולנהל משאבי Datastream. פרטים נוספים מופיעים בקטע הבא.
  3. יוצרים ומגדירים מסד נתונים של Cloud SQL כמקור לשכפול. מידע נוסף זמין במאמר בנושא הגדרת מקורות.
  4. מוודאים שמסד הנתונים של המקור מוגדר לשימוש בגישה לשירותים פרטיים.
  5. במקרים של מכונות Cloud SQL ל-PostgreSQL: מומלץ להפעיל שכפול לוגי במכונה לפני שיוצרים את הזרם. אם לא מפעילים שכפול לוגי, Datastream מפעיל אותו בשבילכם, מה שגורם להפעלה מחדש של מופע המקור.

  6. במכונות של Cloud SQL ל-MySQL: מפעילים שחזור מערכת מנקודה מסוימת בזמן (PITR) במכונה של Cloud SQL ל-MySQL ומוודאים שגרסת מסד הנתונים היא 8.0.14 או גרסה מתקדמת יותר. כשמשתמשים בהגדרה אוטומטית של הזרמת נתונים, אפשר להפעיל שחזור לנקודת זמן רק ברמת הגיבוי Standard.

  7. למכונות Cloud SQL ל-SQL Server: מוודאים ש-Datastream תומך בגרסת SQL Server שבה נעשה שימוש במכונה.

ההרשאות הנדרשות

כדי להשתמש בתהליך האוטומטי ליצירת זרם, אתם צריכים את התפקידים או ההרשאות הבאים בממשק של ניהול הזהויות והרשאות הגישה (IAM):

  • serviceusage.services.enable, compute.networkAdmin כדי להפעיל את ממשקי ה-API הנדרשים ולבצע משימות של הגדרת הרשת.
  • cloudsql.admin למשימות הגדרה של מופעים.
  • datastream.admin למשימות ניהול ש-Datastream מבצע בשמכם.

הרשאות נוספות שנדרשות ל-Cloud SQL ל-PostgreSQL

  • במקרים של מכונות Cloud SQL ל-PostgreSQL, למשתמש האדמין של מסד הנתונים צריכות להיות גם הרשאות GRANT לסכימה שרוצים לשכפל, ועוד כמה הרשאות נוספות למשימות ניהוליות ומבניות במסד הנתונים של המקור. מתחברים למסד הנתונים של המקור ומריצים את הפקודה הבאה:

    GRANT cloudsqlsuperuser TO "USER_NAME";
    ALTER ROLE "USER_NAME" CREATEROLE;
    GRANT SELECT on ALL TABLES IN SCHEMA "SCHEMA_NAME" to "USER_NAME" WITH GRANT OPTION;
    ALTER DEFAULT PRIVILEGES
    IN SCHEMA "SCHEMA_NAME"
    GRANT SELECT ON TABLES TO "USER_NAME" WITH GRANT OPTION;
    GRANT CREATE ON DATABASE "DATABASE_NAME" TO "USER_NAME";
  • טבלאות עתידיות יתווספו אוטומטית לזרם רק אם הן נוצרו על ידי המשתמש שסיפקתם את פרטי החשבון שלו כדי לאמת במהלך התהליך האוטומטי. אם משתמש אחר ייצור טבלה בעתיד, הוא יצטרך להעניק במפורש למשתמש הקורא של Datastream SELECT הרשאה לטבלה.

יצירה והתחלה של השידור

כדי ליצור ולהתחיל שידור:

המסוף

קדימה, מתחילים

  1. עוברים לדף הסקירה הכללית של מכונת מסד הנתונים של Cloud SQL.

    כניסה לדף Cloud SQL Instances

  2. בקטע הזרמת נתונים אל BigQuery, לוחצים על יצירת עדכון תוכן.

  3. בדף תחילת העבודה, מזינים את השם של מקור הנתונים בשדה שם מקור הנתונים. מזהה ייחודי מאוכלס אוטומטית.

  4. בקטע Provide the instance user account details (הזנת פרטי חשבון המשתמש במופע), בוחרים את שיטת האימות:

    • אימות מסד נתונים של IAM: האפשרות הזו זמינה אם למשתמש שלכם מוקצה זהות של חשבון משתמש בניהול זהויות והרשאות גישה (IAM). מידע נוסף זמין במאמר חשבונות משתמשים ב-IAM. אם בוחרים באפשרות הזו, צריך להקצות באופן ידני את התפקיד cloudsqlsuperuser ואת ההרשאה CREATEROLEלמשתמש:

      1. נכנסים לדף Cloud SQL Instances במסוף Google Cloud .

      כניסה לדף Cloud SQL Instances

      1. בוחרים את המופע של Cloud SQL.
      2. בתפריט הניווט, לוחצים על Cloud SQL Studio ונכנסים לחשבון.
      3. בחלונית Explorer, מריצים את השאילתה הבאה עבור המשתמש:
    GRANT cloudsqlsuperuser TO "USER_NAME";
    ALTER ROLE "USER_NAME" CREATEROLE;
    • אימות מובנה של מסד הנתונים: צריך לספק את שם המשתמש והסיסמה של משתמש עם התפקיד cloudsqlsuperuser. אם בוחרים באפשרות הזו, צריך לוודא שלמשתמש יש GRANT הרשאות בטבלאות שהוא רוצה לשכפל.
  5. בודקים פרטים נוספים על הזרם, כמו אזור, הצפנה ותוויות. מרחיבים את הקטע פרטים נוספים על השידור כדי לבצע שינויים, אם צריך.

  6. לוחצים על Continue.

הגדרת המקור

  1. בדף Configure stream source (הגדרת מקור הנתונים), בוחרים את מסד הנתונים שממנו רוצים לשכפל נתונים.

  2. ברשימה אובייקטים להכללה, כל האובייקטים הזמינים נבחרים כברירת מחדל. האובייקטים ברשימה הם האובייקטים שיש לכם הרשאות נדרשות להעביר בסטרימינג. כדי לשנות את האובייקטים שנבחרו, משנים את הבחירות ברשימה.

  3. בדיקת הגדרות מתקדמות של הזרם, כמו מצב מילוי חוסרים ומספר החיבורים המקסימלי למילוי חוסרים במקביל. מרחיבים את הקטע Advanced stream configurations (הגדרות מתקדמות של הזרמת נתונים) כדי להחיל שינויים, אם נדרש.

  4. לוחצים על Continue.

הגדרת יעד

  1. בדף Configure destination, משנים את הגדרות היעד של BigQuery לפי הצורך. מידע נוסף זמין במאמר בנושא הגדרת פרטים על היעד של הזרם.

יצירה והתחלה של השידור

  1. לוחצים על Create and start later (יצירה והתחלה מאוחרת יותר) כדי ליצור את הסטרימינג ולהתחיל אותו מאוחר יותר ב-Datastream, או על Start (התחלה) כדי ליצור את הסטרימינג ולהתחיל אותו מיד.

  2. אתם מקבלים התראה על המשימות שמבוצעות בשבילכם באופן אוטומטי:

    • ‫Datastream יוצר את המשאבים הנדרשים בענן הווירטואלי הפרטי (VPC), כמו טווח כתובות IP פנימיות, רשת משנה וחיבור לרשת.
    • מקור הנתונים מגדיר טבלאות ל-CDC, מגדיר משבצות שכפול, מגדיר פרסום לכל הטבלאות במסד הנתונים ויוצר משתמש ייעודי של Datastream.
    • ‫Datastream יוצר הגדרת קישוריות פרטית ופרופילים של חיבור למקור וליעד.
  3. מאשרים שרוצים ליצור את השידור או ליצור אותו ולהתחיל אותו.

מעקב אחרי השידור

אפשר לעקוב אחרי פרטים בסיסיים של הזרם מדף הסקירה הכללית של מופע המקור ב Google Cloud מסוף. בדף מוצג מידע כמו סטטוס הזרם, שם הזרם, מערך הנתונים ביעד ב-BigQuery ומזהה פרויקט היעד.

בדף הסקירה הכללית אפשר גם לבצע פעולות כמו הפעלה או השהיה של השידור. כדי לראות מידע מפורט יותר על המעקב, לוחצים על שם מקור הנתונים כדי לעבור אל Datastream.

מחיקת השידור

כשמוחקים זרם שיצרתם באמצעות התהליך האוטומטי, חלק מהמשאבים, כמו משבצת השכפול של PostgreSQL, נמחקים באופן אוטומטי. עם זאת, יש משאבים שצריך למחוק באופן ידני:

  • אתר החדשות. הפרסום נוצר באמצעות משתמש אדמין במסד הנתונים, ורק הבעלים שלו יכול למחוק אותו. לכן, כברירת מחדל, המשתמש שיצר אותו.
  • המשתמש שקורא את Datastream.
  • פרופילים של חיבורי מקור ויעד ב-Datastream
  • משאבי הקישוריות הפרטית.
  • כל משאבי הרשת שנוצרו במהלך התהליך האוטומטי, כמו רשת המשנה והרשת המצורפת.

המאמרים הבאים