בקטע הזה מוסבר איך ליצור זרם. Datastream משתמש בזרם הזה כדי להעביר נתונים ממסד נתונים של Oracle, MySQL, SQL Server, PostgreSQL או Spanner אל BigQuery או Cloud Storage.
יצירת מקור נתונים כוללת:
- הגדרת ההגדרות של השידור.
- בוחרים את פרופיל החיבור שיצרתם עבור Oracle, MySQL, SQL Server, PostgreSQL, Spanner, MongoDB או Salesforce או מקור (פרופיל חיבור המקור), או יוצרים פרופיל חיבור מקור אם עדיין לא יצרתם כזה.
- הגדרת מידע על מסד הנתונים של המקור עבור הזרם על ידי ציון הטבלאות והסכימות במסד הנתונים של המקור ש-Datastream:
- אפשר להעביר את המספר ליעד.
- מוגבלת מהעברה ליעד.
האם Datastream יבצע מילוי חוזר של נתונים היסטוריים, וגם ישדר שינויים שוטפים ליעד, או ישדר רק שינויים בנתונים. כשמפעילים מילוי היסטורי, אפשר לציין סכימות וטבלאות במסד הנתונים של המקור ש-Datastream לא אמור למלא ביעד.
בוחרים את פרופיל החיבור שיצרתם ל-BigQuery או ל-Cloud Storage (פרופיל החיבור ליעד), או יוצרים פרופיל חיבור ליעד אם לא יצרתם כזה.
הגדרת פרטים על היעד של הנתונים. המידע כולל:
- ל-BigQuery:
- מערכי הנתונים שאליהם Datastream ישכפל סכימות, טבלאות ונתונים ממסד נתונים של מקור.
- ל-Cloud Storage:
- התיקייה בדלי היעד שאליה Datastream יעביר סכימות, טבלאות ונתונים ממסד נתונים של מקור.
- ל-BigQuery:
מבצעים אימות של הסטרימינג כדי לוודא שהוא יפעל בצורה תקינה. במהלך אימות של שידור נבדקים הדברים הבאים:
- האם המקור מוגדר בצורה נכונה כדי לאפשר ל-Datastream להזרים ממנו נתונים.
- האם אפשר לחבר את הזרם גם למקור וגם ליעד.
- ההגדרה מקצה לקצה של מקור הנתונים.
לפני שמתחילים
- מוודאים שהגדרתם את מסד הנתונים של המקור לשכפול. מידע על השלבים הנדרשים לכל סוג מקור נתמך זמין במאמר הגדרת מקורות.
- כאן אפשר לבדוק אילו שלבים נדרשים כדי להגדיר את היעד שבחרתם. מידע נוסף זמין במאמר בנושא הגדרת יעדים.
הגדרת ההגדרות של השידור
נכנסים לדף Streams במסוף Google Cloud .
לוחצים על יצירת מקור נתונים.
משתמשים בטבלה הבאה כדי למלא את השדות בקטע הגדרת פרטי עדכון התוכן בדף יצירת עדכון תוכן:
שדה תיאור שם מקור הנתונים מזינים את השם המוצג של מקור הנתונים. מזהה מקור הנתונים השדה הזה מאוכלס אוטומטית על ידי Datastream על סמך שם הסטרים שמזינים. אפשר להשאיר את המזהה שנוצר אוטומטית או לשנות אותו. אזור בוחרים את האזור שבו הזרם מאוחסן. סטרימינג, כמו כל המשאבים, נשמר באזור. בחירת האזור לא משפיעה על האפשרות של הזרם להתחבר למסד הנתונים של המקור או ליעד, אבל היא יכולה להשפיע על הזמינות אם יש השבתה באזור. כדי לשפר את העלות והביצועים, מומלץ לשמור את כל המשאבים של הזרם באותו אזור שבו נמצאים נתוני המקור. סוג המקור בוחרים את סוג הפרופיל שציינתם כשייצרתם פרופיל חיבור למקור Oracle, MySQL, SQL Server, PostgreSQL, Spanner, Salesforce או MongoDB. לחלופין, אם לא יצרתם פרופיל חיבור למסד הנתונים של המקור, אתם יכולים ליצור אותו עכשיו.
סוג היעד בוחרים את סוג הפרופיל שציינתם כשיצרתם פרופיל חיבור ליעד BigQuery או Cloud Storage. לחלופין, אם עדיין לא יצרתם פרופיל חיבור ליעד, אתם יכולים ליצור אותו עכשיו. הצפנה כברירת מחדל, הנתונים שלכם מוצפנים באמצעות מפתח שמנוהל על ידי Google Cloud. אם רוצים לנהל את ההצפנה, אפשר להשתמש במפתח הצפנה בניהול הלקוח (CMEK):
- מסמנים את תיבת הסימון מפתח Cloud KMS.
- בתפריט הנפתח סוג מפתח, בוחרים באפשרות Cloud KMS ואז בוחרים את מפתח ה-CMEK.
אם המפתח לא מופיע, לוחצים על ENTER KEY RESOURCE NAME (הזנת שם משאב של מפתח) כדי לספק את שם המשאב של המפתח שרוצים להשתמש בו. לדוגמה, אפשר להזין
projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-keyבשדה שם משאב המפתח ואז ללחוץ על שמירה.אפשר גם להשתמש בתוויות כדי לארגן את המשאבים של Datastream.
- כדי ליצור תווית, לוחצים על הוספת תווית ומזינים את צמד המפתח/ערך של התווית.
- כדי להסיר את התווית, לוחצים על סמל פח האשפה משמאל לשורה שמכילה את התווית.
אפשר גם להוסיף מדיניות התראות לזרם. מדיניות התראות מגדירה מתי ואיך רוצים לקבל התראות על כשלים בסטרימינג.
- כדי ליצור מדיניות התראות, לוחצים על הוספת מדיניות התראות.
- יופיע הדף Create alerting policy ב-Cloud Monitoring. בדף הזה מגדירים את מדיניות ההתראות למקרה שהסטרימינג ייכשל.
מידע נוסף על מדיניות התראות זמין במאמר ניהול מדיניות התראות שמבוססת על מדדים.
בודקים את התנאים המוקדמים הנדרשים שנוצרים באופן אוטומטי כדי להבין איך צריך להכין את הסביבה לשידור. הדרישות המוקדמות האלה יכולות לכלול מידע על אופן ההגדרה של מסד הנתונים של המקור ועל אופן החיבור שלו ליעד. מומלץ להשלים את הדרישות המוקדמות האלה בשלב הזה, אבל אפשר להשלים אותן בכל שלב לפני שבודקים את הזרם או מתחילים אותו. מידע נוסף על הדרישות המוקדמות האלה זמין במאמר בנושא מקורות.
לוחצים על המשך. מופיעה החלונית הגדרת פרופיל חיבור בדף יצירת מקור נתונים של סוג מסד הנתונים של המקור.
ציון מידע על פרופיל החיבור למקור
אם יצרתם פרופיל חיבור למקור ל-Oracle, ל-MySQL, ל-SQL Server, ל-PostgreSQL, ל-Spanner, ל-Salesforce או ל-MongoDB, בוחרים אותו מרשימת פרופילי החיבור.
אם לא יצרתם פרופיל לחיבור מקור, תוכלו ליצור אותו בלחיצה על יצירת פרופיל לחיבור בתחתית הרשימה הנפתחת, ואז לבצע את אותם השלבים כמו ביצירת פרופילים לחיבור.
לוחצים על הפעלת בדיקה כדי לוודא שניתן ליצור תקשורת בין מסד הנתונים של המקור לבין Datastream.
אם הבדיקה נכשלת, הבעיה שמשויכת לפרופיל החיבור מופיעה. בדף הזה מפורטים שלבים לפתרון בעיות. מבצעים את השינויים הנדרשים כדי לתקן את הבעיה, ואז בודקים שוב.
לוחצים על המשך. מופיעה החלונית Configure stream source בדף Create stream.
הגדרת מידע על מסד הנתונים של המקור עבור הזרם
הגדרת מסד נתונים של PostgreSQL כמקור
- מגדירים את מאפייני השכפול למסד הנתונים של PostgreSQL. בקטע Replication properties (מאפייני שכפול), מציינים את המאפיינים הבאים:
- בשדה Replication slot name (שם משבצת השכפול), מזינים את שם המשבצת שיצרתם במיוחד בשביל הזרם הזה. שרת מסד הנתונים משתמש במשבצת הזו כדי לשלוח אירועים ל-Datastream.
- בשדה שם אתר החדשות, מזינים את שם אתר החדשות שיצרתם במסד הנתונים. פרסום הוא קבוצה של כל הטבלאות שרוצים לשכפל מהן שינויים באמצעות הזרם הזה.
- בקטע Select objects to include (בחירת אובייקטים להכללה), משתמשים בתפריט הנפתח Objects to include (אובייקטים להכללה) כדי לציין את הטבלאות והסכימות במסד הנתונים של המקור ש-Datastream יכול להעביר ליעד.
- אם רוצים ש-Datastream יעביר את כל הטבלאות והסכימות, בוחרים באפשרות All tables from all schemas (כל הטבלאות מכל הסכימות).
- אם רוצים ש-Datastream יעביר רק טבלאות וסכימות ספציפיות, בוחרים באפשרות Specific schemas and tables (סכימות וטבלאות ספציפיות) ומסמנים את תיבות הסימון של הסכימות והטבלאות שרוצים ש-Datastream ישלוף.
- אם רוצים לספק הגדרה טקסטואלית של הטבלאות והסכימות שרוצים ש-Datastream יעביר, בוחרים באפשרות Custom (מותאם אישית) ואז בשדה Object matching criteria (קריטריונים להתאמת אובייקטים) מזינים את הסכימות והטבלאות שרוצים ש-Datastream ישלוף. אם במסד הנתונים שלכם יש מספר גדול של טבלאות וסכימות, מומלץ להשתמש באפשרות Custom כי יכול להיות שחלק מהטבלאות והסכימות לא ייכללו ברשימת האובייקטים שיש לשלוף.
- אם היעד הוא BigQuery, אפשר להגדיר חלוקה למחיצות ויצירת אשכולות לטבלאות:
- לכל טבלה שרוצים להגדיר עבורה חלוקה למחיצות או אשכולות, לוחצים על בחירת עמודות.
- כדי להגדיר חלוקה למחיצות, בקטע חלוקה למחיצות בוחרים באחת מהאפשרויות הבאות:
- ללא חלוקה למחיצות: אם בוחרים באפשרות הזו, לא מתבצעת חלוקה למחיצות בטבלאות.
- חלוקה למחיצות לפי זמן ההטמעה: כשבוחרים באפשרות הזו, הנתונים מאורגנים במחיצות לפי זמן. בוחרים ערך מהרשימה Partitioning type כדי להגדיר את רמת הפירוט של החלוקה למחיצות. האפשרויות הזמינות הן לפי שעה, יום, חודש או שנה. רמת הפירוט שמוגדרת כברירת מחדל היא 'יומית'.
- Partitioning by field: כשבוחרים באפשרות הזו, צריך לבחור את עמודת המקור שלפיה רוצים לבצע את החלוקה למחיצות בטבלה, ואת סוג החלוקה למחיצות. אפשר לבחור רק עמודות מקור עם סוגי נתונים נתמכים. מידע על סוגי נתוני המקור הנתמכים וסוגי החלוקה הזמינים מופיע במאמר הגדרת חלוקה לאזורים ואשכולות ליעד ב-BigQuery.
אפשר גם לבחור באפשרות Partitioning filter (מסנן חלוקה). אם בוחרים באפשרות הזו, נדרש מסנן מחיצה בכל השאילתות של הטבלה הזו. מסנן מחיצות יכול להפחית את העלות ולשפר את הביצועים. מידע נוסף זמין במאמר בנושא הגדרת דרישות לסינון מחיצות.
- כדי להגדיר אשכולות, בקטע אשכולות, בוחרים את השדות שלפיהם רוצים לאשכול את הטבלה. אפשר לבחור עד ארבעה שדות. הסדר שבו מוסיפים את שדות האשכול קובע את סדר המיון של הנתונים. אם לא מציינים הגדרות אשכול לטבלה, Datastream משתמש כברירת מחדל בעד ארבעה מפתחות ראשיים מטבלת המקור כמפתחות האשכול ב-BigQuery.
- לוחצים על שמירה כדי לשמור את ההגדרות.
מידע נוסף על חלוקה למחיצות ועל אשכולות זמין במאמר הגדרת חלוקה למחיצות ואשכולות.
- אפשר גם להרחיב את הצומת בחירת אובייקטים להחרגה. בשדה Objects to exclude (אובייקטים להחרגה), מזינים את הטבלאות והסכימות במסד הנתונים של המקור שרוצים להגביל את השליפה שלהם על ידי Datastream. הרשימה אובייקטים להחרגה מקבלת עדיפות על פני הרשימה אובייקטים להכללה. אם אובייקט עומד בקריטריונים של רשימת ההכללה וגם של רשימת ההחרגה, הוא מוחרג מהזרם.
- אופציונלי: מרחיבים את הצומת בחירת מצב מילוי חוסרים לנתונים היסטוריים ואז בוחרים באחת מהאפשרויות הבאות:
- בוחרים באפשרות אוטומטי כדי להזרים את כל הנתונים הקיימים, בנוסף לשינויים בנתונים, מהמקור ליעד. בשדה Objects excluded from automatic backfill (אובייקטים שמוחרגים ממילוי אוטומטי), מזינים את הטבלאות והסכימות במסד הנתונים של המקור שרוצים להגביל את Datastream כך שלא ימלא אותם באופן אוטומטי ביעד.
- בוחרים באפשרות ידני כדי להזרים רק את השינויים בנתונים אל היעד.
- לוחצים על המשך. מופיע החלונית Define connection profile (הגדרת פרופיל חיבור) בדף Create stream (יצירת מקור נתונים) עבור סוג היעד.
הגדרה של מסד נתונים של MySQL כמקור
- בקטע Select objects to include (בחירת אובייקטים להכללה), משתמשים בתפריט הנפתח Objects to include (אובייקטים להכללה) כדי לציין את הטבלאות והסכימות במסד הנתונים של המקור ש-Datastream יכול להעביר ליעד.
- אם רוצים ש-Datastream יעביר את כל הטבלאות והסכימות, בוחרים באפשרות All tables from all schemas (כל הטבלאות מכל הסכימות).
- אם רוצים ש-Datastream יעביר רק טבלאות וסכימות ספציפיות, בוחרים באפשרות Specific schemas and tables (סכימות וטבלאות ספציפיות) ומסמנים את תיבות הסימון של הסכימות והטבלאות שרוצים ש-Datastream ישלוף.
- אם רוצים לספק הגדרה טקסטואלית של הטבלאות והסכימות שרוצים ש-Datastream יעביר, בוחרים באפשרות Custom (מותאם אישית) ואז בשדה Object matching criteria (קריטריונים להתאמת אובייקטים) מזינים את הסכימות והטבלאות שרוצים ש-Datastream ישלוף. אם במסד הנתונים שלכם יש מספר גדול של טבלאות וסכימות, מומלץ להשתמש באפשרות Custom כי יכול להיות שחלק מהטבלאות והסכימות לא ייכללו ברשימת האובייקטים שיש לשלוף.
- אם היעד הוא BigQuery, אפשר להגדיר חלוקה למחיצות ויצירת אשכולות לטבלאות:
- לכל טבלה שרוצים להגדיר עבורה חלוקה למחיצות או אשכולות, לוחצים על בחירת עמודות.
- כדי להגדיר חלוקה למחיצות, בקטע חלוקה למחיצות בוחרים באחת מהאפשרויות הבאות:
- ללא חלוקה למחיצות: אם בוחרים באפשרות הזו, לא מתבצעת חלוקה למחיצות בטבלאות.
- חלוקה למחיצות לפי זמן ההטמעה: כשבוחרים באפשרות הזו, הנתונים מאורגנים במחיצות לפי זמן. בוחרים ערך מהרשימה Partitioning type כדי להגדיר את רמת הפירוט של החלוקה למחיצות. האפשרויות הזמינות הן לפי שעה, יום, חודש או שנה. רמת הפירוט שמוגדרת כברירת מחדל היא 'יומית'.
- חלוקה למחיצות לפי שדה: כשבוחרים באפשרות הזו, צריך לבחור את עמודת המקור שלפיה רוצים לחלק את הטבלה למחיצות, ואת סוג החלוקה למחיצות. אפשר לבחור רק עמודות מקור עם סוגי נתונים נתמכים. מידע על סוגי נתוני המקור הנתמכים וסוגי החלוקה הזמינים מופיע במאמר הגדרת חלוקה לאזורים ואשכולות ליעד ב-BigQuery.
אפשר גם לבחור באפשרות Partitioning filter (מסנן חלוקה). אם בוחרים באפשרות הזו, נדרש מסנן מחיצה בכל השאילתות של הטבלה הזו. מסנן מחיצות יכול להפחית את העלות ולשפר את הביצועים. מידע נוסף זמין במאמר בנושא הגדרת דרישות לסינון מחיצות.
- כדי להגדיר אשכולות, בקטע אשכולות, בוחרים את השדות שלפיהם רוצים לאשכול את הטבלה. אפשר לבחור עד ארבעה שדות. הסדר שבו מוסיפים את שדות האשכול קובע את סדר המיון של הנתונים. אם לא מציינים הגדרות אשכול לטבלה, Datastream משתמש כברירת מחדל בעד ארבעה מפתחות ראשיים מטבלת המקור כמפתחות האשכול ב-BigQuery.
- לוחצים על שמירה כדי לשמור את ההגדרות.
מידע נוסף על חלוקה למחיצות ועל אשכולות זמין במאמר הגדרת חלוקה למחיצות ואשכולות.
- אפשר גם להרחיב את הצומת בחירת אובייקטים להחרגה. בשדה Objects to exclude (אובייקטים להחרגה), מזינים את הטבלאות והסכימות במסד הנתונים של המקור שרוצים למנוע מ-Datastream לשלוף. הרשימה אובייקטים להחרגה מקבלת עדיפות על פני הרשימה אובייקטים להכללה. אם אובייקט עומד בקריטריונים של רשימת ההכללה וגם של רשימת ההחרגה, הוא מוחרג מהזרם.
- מציינים את שיטת ה-CDC של מקור הנתונים:
- שכפול מבוסס GTID (מזהי טרנזקציות גלובליים): בוחרים בשיטה הזו אם רוצים ש-Datastream יתמוך במעבר לגיבוי ויספק שכפול חלק ללא קשר לשינויים באשכול מסד הנתונים.
- שכפול מבוסס-Binlog: בוחרים בשיטה הזו כדי לקרוא ולשכפל שינויים ישירות מקובצי ה-Binlog של מופע מסד נתונים נבחר. אי אפשר להעביר סטרימינג פעיל למופע מקור אחר או לשכפול באמצעות שיטת ה-CDC הזו.
- אופציונלי: מרחיבים את הצומת בחירת מצב מילוי חוסרים לנתונים היסטוריים ואז בוחרים באחת מהאפשרויות הבאות:
- בוחרים באפשרות אוטומטי כדי להזרים את כל הנתונים הקיימים, בנוסף לשינויים בנתונים, מהמקור ליעד. בשדה Objects excluded from automatic backfill (אובייקטים שמוחרגים ממילוי אוטומטי), מזינים את הטבלאות והסכימות במסד הנתונים של המקור שרוצים להגביל את Datastream כך שלא ימלא אותם באופן אוטומטי ביעד.
- בוחרים באפשרות ידני כדי להזרים רק את השינויים בנתונים אל היעד.
- לוחצים על המשך. מופיע החלונית Define connection profile (הגדרת פרופיל חיבור) בדף Create stream (יצירת מקור נתונים) עבור סוג היעד.
הגדרת מסד נתונים של Oracle כמקור
- בקטע Select objects to include (בחירת אובייקטים להכללה), משתמשים בתפריט הנפתח Objects to include (אובייקטים להכללה) כדי לציין את הטבלאות והסכימות במסד הנתונים של המקור ש-Datastream יכול להעביר ליעד.
- אם רוצים ש-Datastream יעביר את כל הטבלאות והסכימות, בוחרים באפשרות All tables from all schemas (כל הטבלאות מכל הסכימות).
- אם רוצים ש-Datastream יעביר רק טבלאות וסכימות ספציפיות, בוחרים באפשרות Specific schemas and tables (סכימות וטבלאות ספציפיות) ומסמנים את תיבות הסימון של הסכימות והטבלאות שרוצים ש-Datastream ישלוף.
- אם רוצים לספק הגדרה טקסטואלית של הטבלאות והסכימות שרוצים ש-Datastream יעביר, בוחרים באפשרות Custom (מותאם אישית) ואז בשדה Object matching criteria (קריטריונים להתאמת אובייקטים) מזינים את הסכימות והטבלאות שרוצים ש-Datastream ישלוף. אם במסד הנתונים שלכם יש מספר גדול של טבלאות וסכימות, מומלץ להשתמש באפשרות Custom כי יכול להיות שחלק מהטבלאות והסכימות לא ייכללו ברשימת האובייקטים שיש לשלוף.
- אם היעד הוא BigQuery, אתם יכולים להגדיר חלוקה למחיצות וסידור באשכולות לטבלאות:
- לכל טבלה שרוצים להגדיר עבורה חלוקה למחיצות או אשכולות, לוחצים על בחירת עמודות.
- כדי להגדיר חלוקה למחיצות, בקטע חלוקה למחיצות בוחרים באחת מהאפשרויות הבאות:
- ללא חלוקה למחיצות: אם בוחרים באפשרות הזו, לא מתבצעת חלוקה למחיצות בטבלאות.
- חלוקה למחיצות לפי זמן ההטמעה: כשבוחרים באפשרות הזו, הנתונים מאורגנים במחיצות לפי זמן. בוחרים ערך מהרשימה Partitioning type כדי להגדיר את רמת הפירוט של החלוקה למחיצות. האפשרויות הזמינות הן לפי שעה, יום, חודש או שנה. רמת הפירוט שמוגדרת כברירת מחדל היא 'יומית'.
- חלוקה למחיצות לפי שדה: כשבוחרים באפשרות הזו, צריך לבחור את עמודת המקור שלפיה רוצים לחלק את הטבלה למחיצות, ואת סוג החלוקה למחיצות. אפשר לבחור רק עמודות מקור עם סוגי נתונים נתמכים. מידע על סוגי נתוני המקור הנתמכים וסוגי החלוקה הזמינים מופיע במאמר הגדרת חלוקה לאזורים ואשכולות ליעד ב-BigQuery.
אפשר גם לבחור באפשרות Partitioning filter (מסנן חלוקה). אם בוחרים באפשרות הזו, נדרש מסנן מחיצה בכל השאילתות של הטבלה הזו. מסנן מחיצות יכול להפחית את העלות ולשפר את הביצועים. מידע נוסף זמין במאמר בנושא הגדרת דרישות לסינון מחיצות.
- כדי להגדיר אשכולות, בקטע אשכולות, בוחרים את השדות שלפיהם רוצים לאשכול את הטבלה. אפשר לבחור עד ארבעה שדות. הסדר שבו מוסיפים את שדות האשכול קובע את סדר המיון של הנתונים. אם לא מציינים הגדרות אשכול לטבלה, Datastream משתמש כברירת מחדל בעד ארבעה מפתחות ראשיים מטבלת המקור כמפתחות האשכול ב-BigQuery.
- לוחצים על שמירה כדי לשמור את ההגדרות.
מידע נוסף על חלוקה למחיצות ועל אשכולות זמין במאמר הגדרת חלוקה למחיצות ואשכולות.
- אפשר גם להרחיב את הצומת בחירת אובייקטים להחרגה. בשדה Objects to exclude (אובייקטים להחרגה), מזינים את הטבלאות והסכימות במסד הנתונים של המקור שרוצים להגביל את השליפה שלהם על ידי Datastream. הרשימה אובייקטים להחרגה מקבלת עדיפות על פני הרשימה אובייקטים להכללה. אם אובייקט עומד בקריטריונים של רשימת ההכללה וגם של רשימת ההחרגה, הוא מוחרג מהזרם.
- מציינים את שיטת ה-CDC של מקור הנתונים:
- LogMiner: בוחרים בשיטה הזו כדי להריץ שאילתות על יומני ביצוע מחדש בארכיון באמצעות LogMiner API. LogMiner תומך ברוב האפשרויות שזמינות ל-Oracle, כמו אפשרויות הצפנה ודחיסה.
- Binary reader (תצוגה מקדימה): בוחרים בשיטה הזו כדי לחלץ שינויים ישירות מיומני Oracle. כך אפשר לבצע רפליקציה מהירה יותר של מסדי נתונים גדולים של Oracle, ולקצר את זמן האחזור ואת התקורה. כשבוחרים באפשרות הזו, מוצג תפריט נפתח נוסף. בוחרים את הדרך שבה רוצים לגשת לקובצי היומן של Oracle:
- ניהול אחסון אוטומטי (ASM): בוחרים באפשרות הזו אם מסד הנתונים משתמש ב-ASM. מוודאים שסימנתם את התיבה Enable ASM access for binary reader (הפעלת גישה ל-ASM עבור קורא בינארי) ומילאתם את הפרטים של מופע ה-ASM בפרופיל חיבור המקור.
- ספריות מסד נתונים: בוחרים באפשרות הזו אם לא משתמשים ב-ASM לאחסון קובצי היומן. אם בוחרים בספריות של מסדי נתונים, צריך לספק את השמות של יומן Redo ושל ספריית היומנים שנשמרו בארכיון.
- אופציונלי: מרחיבים את הצומת בחירת מצב מילוי חוסרים לנתונים היסטוריים ואז בוחרים באחת מהאפשרויות הבאות:
- בוחרים באפשרות אוטומטי כדי להזרים את כל הנתונים הקיימים, בנוסף לשינויים בנתונים, מהמקור ליעד. בשדה Objects excluded from automatic backfill (אובייקטים שמוחרגים ממילוי אוטומטי), מזינים את הטבלאות והסכימות במסד הנתונים של המקור שרוצים להגביל את Datastream כך שלא ימלא אותם באופן אוטומטי ביעד.
- בוחרים באפשרות ידני כדי להזרים רק את השינויים בנתונים אל היעד.
- לוחצים על המשך. מופיע החלונית Define connection profile (הגדרת פרופיל חיבור) בדף Create stream (יצירת מקור נתונים) עבור סוג היעד.
הגדרת מסד נתונים של SQL Server כמקור
- בקטע Select objects to include (בחירת אובייקטים להכללה), משתמשים בתפריט הנפתח Objects to include (אובייקטים להכללה) כדי לציין את הטבלאות והסכימות במסד הנתונים של המקור ש-Datastream יכול להעביר ליעד.
- אם רוצים ש-Datastream יעביר את כל הטבלאות והסכימות, בוחרים באפשרות All tables from all schemas (כל הטבלאות מכל הסכימות).
- אם רוצים ש-Datastream יעביר רק טבלאות וסכימות ספציפיות, בוחרים באפשרות Specific schemas and tables (סכימות וטבלאות ספציפיות) ומסמנים את תיבות הסימון של הסכימות והטבלאות שרוצים ש-Datastream ישלוף.
- אם רוצים לספק הגדרה טקסטואלית של הטבלאות והסכימות שרוצים ש-Datastream יעביר, בוחרים באפשרות Custom (מותאם אישית) ואז בשדה Object matching criteria (קריטריונים להתאמת אובייקטים) מזינים את הסכימות והטבלאות שרוצים ש-Datastream ישלוף. אם במסד הנתונים שלכם יש מספר גדול של טבלאות וסכימות, מומלץ להשתמש באפשרות Custom כי יכול להיות שחלק מהטבלאות והסכימות לא ייכללו ברשימת האובייקטים שיש לשלוף.
- אם היעד הוא BigQuery, אפשר להגדיר חלוקה למחיצות ויצירת אשכולות לטבלאות:
- לכל טבלה שרוצים להגדיר עבורה חלוקה למחיצות או אשכולות, לוחצים על בחירת עמודות.
- כדי להגדיר חלוקה למחיצות, בקטע חלוקה למחיצות בוחרים באחת מהאפשרויות הבאות:
- ללא חלוקה למחיצות: אם בוחרים באפשרות הזו, לא מתבצעת חלוקה למחיצות בטבלאות.
- חלוקה למחיצות לפי זמן ההטמעה: כשבוחרים באפשרות הזו, הנתונים מאורגנים במחיצות לפי זמן. בוחרים ערך מהרשימה Partitioning type כדי להגדיר את רמת הפירוט של החלוקה למחיצות. האפשרויות הזמינות הן לפי שעה, יום, חודש או שנה. רמת הפירוט שמוגדרת כברירת מחדל היא 'יומית'.
- Partitioning by field: כשבוחרים באפשרות הזו, צריך לבחור את עמודת המקור שלפיה רוצים לבצע את החלוקה למחיצות בטבלה, ואת סוג החלוקה למחיצות. אפשר לבחור רק עמודות מקור עם סוגי נתונים נתמכים. מידע על סוגי נתוני המקור הנתמכים וסוגי החלוקה הזמינים מופיע במאמר הגדרת חלוקה לאזורים ואשכולות ליעד ב-BigQuery.
אפשר גם לבחור באפשרות Partitioning filter (מסנן חלוקה). אם בוחרים באפשרות הזו, נדרש מסנן מחיצה בכל השאילתות של הטבלה הזו. מסנן מחיצות יכול להפחית את העלות ולשפר את הביצועים. מידע נוסף זמין במאמר בנושא הגדרת דרישות לסינון מחיצות.
- כדי להגדיר אשכולות, בקטע אשכולות, בוחרים את השדות שלפיהם רוצים לאשכול את הטבלה. אפשר לבחור עד ארבעה שדות. הסדר שבו מוסיפים את שדות האשכול קובע את סדר המיון של הנתונים. אם לא מציינים הגדרות אשכול לטבלה, Datastream משתמש כברירת מחדל בעד ארבעה מפתחות ראשיים מטבלת המקור כמפתחות האשכול ב-BigQuery.
- לוחצים על שמירה כדי לשמור את ההגדרות.
מידע נוסף על חלוקה למחיצות ועל אשכולות זמין במאמר הגדרת חלוקה למחיצות ואשכולות.
- אפשר גם להרחיב את הצומת בחירת אובייקטים להחרגה. בשדה Objects to exclude (אובייקטים להחרגה), מזינים את הטבלאות והסכימות במסד הנתונים של המקור שרוצים להגביל את השליפה שלהם על ידי Datastream. הרשימה אובייקטים להחרגה מקבלת עדיפות על פני הרשימה אובייקטים להכללה. אם אובייקט עומד בקריטריונים של רשימת ההכללה וגם של רשימת ההחרגה, הוא מוחרג מהזרם.
- מציינים את שיטת ה-CDC של מקור הנתונים:
- יומני עסקאות: בוחרים בשיטה הזו כדי לעבד שינויים ישירות מיומני מסד הנתונים. השיטה הזו מספקת את הביצועים הכי טובים והיא יעילה יותר, אבל נדרשים בה שלבי הגדרה נוספים.
- שינוי טבלאות: בוחרים בשיטה הזו כדי לעבד שינויים מטבלאות שינויים ייעודיות. השיטה הזו קלה יותר להגדרה ויש לה פחות מגבלות, אבל היא תומכת בנפח נתונים נמוך יותר ומייצרת עומס גבוה יותר על מסד הנתונים שלכם בהשוואה לשיטה של יומני העסקאות.
- אופציונלי: מרחיבים את הצומת בחירת מצב מילוי חוסרים לנתונים היסטוריים ואז בוחרים באחת מהאפשרויות הבאות:
- בוחרים באפשרות אוטומטי כדי להזרים את כל הנתונים הקיימים, בנוסף לשינויים בנתונים, מהמקור ליעד. בשדה Objects excluded from automatic backfill (אובייקטים שמוחרגים ממילוי אוטומטי), מזינים את הטבלאות והסכימות במסד הנתונים של המקור שרוצים להגביל את Datastream כך שלא ימלא אותם באופן אוטומטי ביעד.
- בוחרים באפשרות ידני כדי להזרים רק את השינויים בנתונים אל היעד.
- לוחצים על המשך. מופיע החלונית Define connection profile (הגדרת פרופיל חיבור) בדף Create stream (יצירת מקור נתונים) עבור סוג היעד.
הגדרת ארגון Salesforce כמקור
- בקטע Select objects to include (בחירת אובייקטים להכללה), משתמשים בתפריט הנפתח Objects to include (אובייקטים להכללה) כדי לציין את האובייקטים והשדות בארגון שרוצים ש-Datastream יעביר ליעד.
- אם רוצים ש-Datastream יעביר את כל האובייקטים, בוחרים באפשרות All objects (כל האובייקטים).
- אם רוצים ש-Datastream יעביר רק אובייקטים ספציפיים, בוחרים באפשרות אובייקטים ספציפיים ומסמנים את תיבות הסימון של האובייקטים שרוצים ש-Datastream ישלוף.
- אם רוצים לספק הגדרה טקסטואלית של האובייקטים שרוצים ש-Datastream יעביר, בוחרים באפשרות Custom (מותאם אישית) ואז בשדה Object matching criteria (קריטריונים להתאמת אובייקטים) מזינים את האובייקטים שרוצים ש-Datastream ישלוף. מזינים את האובייקטים כרשימה מופרדת בפסיקים, בפורמט
[object].[field]. אם במסד הנתונים שלכם יש מספר גדול של אובייקטים, מומלץ להשתמש באפשרות Custom כי יכול להיות שחלק מהטבלאות והסכימות לא ייכללו ברשימת האובייקטים שאפשר לשלוף. - מגדירים את הערך של מרווח הזמן בין בדיקות הזמינות בדקות. מערכת Datastream משתמשת בערך הזה כדי לבדוק אם יש שינויים בנתונים בארגון Salesforce. ככל שהערך גבוה יותר, כך העלות והעומס על הארגון נמוכים יותר. ככל שהערך נמוך יותר, כך הנתונים ביעד עדכניים יותר.
- אם היעד הוא BigQuery, אפשר להגדיר חלוקה למחיצות וסידור באשכולות לאובייקטים:
- לכל אובייקט שרוצים להגדיר עבורו חלוקה למחיצות או אשכולות, לוחצים על בחירת שדות.
- כדי להגדיר חלוקה למחיצות, בקטע חלוקה למחיצות בוחרים באחת מהאפשרויות הבאות:
- ללא חלוקה למחיצות: כשבוחרים באפשרות הזו, לא מתבצעת חלוקה למחיצות באובייקטים.
- חלוקה למחיצות לפי זמן ההטמעה: כשבוחרים באפשרות הזו, הנתונים מאורגנים במחיצות לפי זמן. בוחרים ערך מהרשימה Partitioning type כדי להגדיר את רמת הפירוט של החלוקה למחיצות. האפשרויות הזמינות הן לפי שעה, יום, חודש או שנה. רמת הפירוט שמוגדרת כברירת מחדל היא 'יומית'.
- Partitioning by field (חלוקה למחיצות לפי שדה): כשבוחרים באפשרות הזו, צריך לבחור את שדה המקור שלפיו רוצים לחלק את האובייקט למחיצות, ואת סוג החלוקה למחיצות. אפשר לבחור רק שדות עם סוגי נתונים נתמכים. מידע על סוגי נתונים נתמכים במקור ועל סוגי חלוקה למחיצות שזמינים מופיע במאמר בנושא חלוקה למחיצות וחלוקה לקלאסטרים של טבלאות ב-BigQuery.
אפשר גם לבחור באפשרות Partitioning filter (מסנן חלוקה). אם בוחרים באפשרות הזו, צריך להגדיר מסנן מחיצה בכל השאילתות של האובייקט הזה. מסנן מחיצות יכול להפחית את העלות ולשפר את הביצועים. מידע נוסף זמין במאמר בנושא הגדרת דרישות לסינון מחיצות.
- כדי להגדיר אשכולות, בקטע Clustering, בוחרים את השדות שלפיהם רוצים לאשכול את האובייקט. אפשר לבחור עד ארבעה שדות. הסדר שבו מוסיפים את שדות האשכול קובע את סדר המיון של הנתונים. אם לא מציינים הגדרות של אשכולות לאובייקט, Datastream משתמש כברירת מחדל בעד ארבעה מפתחות ראשיים מאובייקט המקור כמפתחות האשכולות ב-BigQuery.
- לוחצים על שמירה כדי לשמור את ההגדרות.
מידע נוסף על חלוקה למחיצות וסידור באשכולות זמין במאמר חלוקה למחיצות וסידור באשכולות של טבלאות ב-BigQuery.
- אפשר גם להרחיב את הצומת בחירת אובייקטים להחרגה. בשדה אובייקטים להחרגה, מזינים את האובייקטים והשדות בארגון המקור שרוצים להגביל את השליפה שלהם על ידי Datastream. הרשימה אובייקטים להחרגה מקבלת עדיפות על פני הרשימה אובייקטים להכללה. אם אובייקט עומד בקריטריונים של רשימת ההכללה וגם של רשימת ההחרגה, הוא מוחרג מהזרם.
- אופציונלי: מרחיבים את הצומת בחירת מצב מילוי חוסרים לנתונים היסטוריים ואז בוחרים באחת מהאפשרויות הבאות:
- בוחרים באפשרות אוטומטי כדי לשכפל את כל הנתונים הקיימים, בנוסף לשינויים בנתונים, מהמקור ליעד. בשדה Objects excluded from automatic backfill (אובייקטים שלא נכללים במילוי אוטומטי של נתונים חסרים), מזינים את האובייקטים בארגון המקור שרוצים למנוע ממקור הנתונים למלא עבורם נתונים חסרים ביעד.
- בוחרים באפשרות ידני כדי לשכפל רק את השינויים בנתונים ליעד.
- לוחצים על המשך. מופיע החלונית Define connection profile (הגדרת פרופיל חיבור) בדף Create stream (יצירת מקור נתונים) עבור סוג היעד.
הגדרה של מסד נתונים של MongoDB כמקור
- בקטע Select objects to include (בחירת אובייקטים להכללה), משתמשים בתפריט הנפתח Objects to include (אובייקטים להכללה) כדי לציין את מסדי הנתונים והאוספים שרוצים ש-Datastream יעביר ליעד.
- אם רוצים ש-Datastream יעביר את כל האוספים, בוחרים באפשרות All databases and collections (כל מסדי הנתונים והאוספים).
- אם רוצים ש-Datastream יעביר רק אוספים ספציפיים, בוחרים באפשרות Specific databases and collections (מסדי נתונים ואוספים ספציפיים) ואז מסמנים את תיבות הסימון של האוספים שרוצים ש-Datastream ישלוף.
- אם רוצים לספק הגדרה טקסטואלית של האוספים שרוצים ש-Datastream יעביר, בוחרים באפשרות Custom (בהתאמה אישית) ואז בשדה Object matching criteria (קריטריונים להתאמת אובייקטים) מזינים את האוספים שרוצים ש-Datastream ישלוף. מזינים את האובייקטים כרשימה מופרדת בפסיקים, בפורמט
[collection].[field]. אם במסד הנתונים שלכם יש מספר גדול של אובייקטים, מומלץ להשתמש באפשרות Custom כי יכול להיות שחלק מהטבלאות והסכימות לא ייכללו ברשימת האובייקטים שאפשר לשלוף. - אם היעד הוא BigQuery, אתם יכולים להגדיר חלוקה למחיצות עבור האוספים:
- לכל אוסף שרוצים להגדיר לו חלוקה למחיצות, לוחצים על בחירת שדות.
- בקטע חלוקה למחיצות, בוחרים באחת מהאפשרויות הבאות:
- ללא חלוקה למחיצות: כשבוחרים באפשרות הזו, לא מתבצעת חלוקה למחיצות באוספים.
- חלוקה למחיצות לפי זמן ההטמעה: כשבוחרים באפשרות הזו, הנתונים מאורגנים במחיצות לפי זמן. בוחרים ערך מהרשימה Partitioning type כדי להגדיר את רמת הפירוט של החלוקה למחיצות. האפשרויות הזמינות הן לפי שעה, יום, חודש או שנה. רמת הפירוט שמוגדרת כברירת מחדל היא 'יומית'.
אפשר גם לבחור באפשרות Partitioning filter (מסנן חלוקה). אם בוחרים באפשרות הזו, נדרש מסנן מחיצה בכל השאילתות של האוסף הזה. מסנן מחיצות יכול להפחית את העלות ולשפר את הביצועים. מידע נוסף זמין במאמר בנושא הגדרת דרישות לסינון מחיצות.
- לוחצים על שמירה כדי לשמור את ההגדרות.
מידע נוסף על חלוקה למחיצות וסידור באשכולות זמין במאמר חלוקה למחיצות וסידור באשכולות של טבלאות ב-BigQuery.
- אופציונלי: מרחיבים את הצומת בחירת מצב מילוי חוסרים לנתונים היסטוריים ואז בוחרים באחת מהאפשרויות הבאות:
- בוחרים באפשרות אוטומטי כדי לשכפל את כל הנתונים הקיימים, בנוסף לשינויים בנתונים, מהמקור ליעד. בשדה Objects excluded from automatic backfill (אובייקטים שלא נכללים במילוי אוטומטי של נתונים חסרים), מזינים את האובייקטים בארגון המקור שרוצים למנוע ממקור הנתונים למלא עבורם נתונים חסרים ביעד.
- בוחרים באפשרות ידני כדי לשכפל רק את השינויים בנתונים ליעד.
- לוחצים על המשך. מופיע החלונית Define connection profile (הגדרת פרופיל חיבור) בדף Create stream (יצירת מקור נתונים) עבור סוג היעד.
הגדרה של מסד נתונים ב-Spanner כמקור
- בקטע Select objects to include (בחירת אובייקטים להכללה), משתמשים בתפריט הנפתח Objects to include (אובייקטים להכללה) כדי לציין את הטבלאות והסכימות במסד הנתונים של המקור ש-Datastream יכול להעביר ליעד.
- אם רוצים ש-Datastream יעביר את כל הטבלאות והסכימות, בוחרים באפשרות All tables from all schemas (כל הטבלאות מכל הסכימות).
- אם רוצים ש-Datastream יעביר רק טבלאות וסכימות ספציפיות, בוחרים באפשרות Specific schemas and tables (סכימות וטבלאות ספציפיות) ומסמנים את תיבות הסימון של הסכימות והטבלאות שרוצים ש-Datastream ישלוף.
- אם רוצים לספק הגדרה טקסטואלית של הטבלאות והסכימות שרוצים ש-Datastream יעביר, בוחרים באפשרות Custom (מותאם אישית) ואז בשדה Object matching criteria (קריטריונים להתאמת אובייקטים) מזינים את הסכימות והטבלאות שרוצים ש-Datastream ישלוף. אם במסד הנתונים שלכם יש מספר גדול של טבלאות וסכימות, מומלץ להשתמש באפשרות Custom כי יכול להיות שחלק מהטבלאות והסכימות לא ייכללו ברשימת האובייקטים שיש לשלוף.
- בשדה שם מקור הנתונים של השינויים, מזינים את השם של מקור הנתונים של השינויים ב-Spanner שיצרתם. מקור הנתונים קורא את זרם השינויים הזה כדי לשכפל שינויים ממסד הנתונים של המקור.
- אופציונלי: בשדה Objects to exclude (אובייקטים להחרגה), מזינים את הטבלאות והסכימות במסד הנתונים של המקור שרוצים להגביל את השליפה שלהם על ידי Datastream. הרשימה אובייקטים להחרגה מקבלת עדיפות על פני הרשימה אובייקטים להכללה. אם אובייקט עומד בקריטריונים של רשימת ההכללה וגם של רשימת ההחרגה, הוא מוחרג מהזרם.
- בקטע Choose backfill mode for historical data (בחירת מצב מילוי חוסרים לנתונים היסטוריים), בוחרים את מצב מילוי החוסרים:
- בוחרים באפשרות אוטומטי כדי להזרים את כל הנתונים הקיימים, בנוסף לשינויים בנתונים, מהמקור ליעד. בשדה Objects excluded from automatic backfill (אובייקטים שמוחרגים ממילוי אוטומטי), מזינים את הטבלאות והסכימות במסד הנתונים של המקור שרוצים להגביל את Datastream כך שלא ימלא אותם באופן אוטומטי ביעד.
- בוחרים באפשרות ידני כדי להזרים רק את השינויים בנתונים אל היעד.
- אפשר לציין את המספר המקסימלי של משימות CDC ומילוי חוסרים בו-זמניות בשדות המתאימים.
- בתפריט הנפתח RPC priority, בוחרים את remote procedure call priority עבור בקשות Spanner:
- נמוכה
- בינונית
- גבוהה
- בשדה FGAC role (תפקיד FGAC), מציינים את תפקיד בקרת הגישה הפרטנית עבור בקשות Spanner.
- מסמנים את התיבה Backfill Data Boost enabled (הפעלת Data Boost למילוי חוסרים בנתונים) אם רוצים להשתמש ב-Data Boost למילוי חוסרים בנתונים. כדי להשתמש באפשרות הזו, צריך להפעיל את Data Boost במסד הנתונים. מידע נוסף מופיע במאמר סקירה כללית על Data Boost.
- לוחצים על המשך. מופיע החלונית Define connection profile (הגדרת פרופיל חיבור) בדף Create stream (יצירת מקור נתונים) עבור סוג היעד.
בחירת פרופיל חיבור ליעד
אם יצרתם פרופיל חיבור ליעד, בוחרים אותו מתוך רשימת פרופילי החיבור.
אם לא יצרתם פרופיל חיבור ליעד, תוכלו ליצור אותו על ידי לחיצה על יצירת פרופיל חיבור בתחתית הרשימה הנפתחת, ואז לבצע את אותם השלבים כמו ביצירת פרופילי חיבור.
לוחצים על המשך. מופיעה החלונית Configure stream destination בדף Create stream.
הגדרת מידע על היעד של מקור הנתונים
בקטע הזה מוסבר איזה מידע צריך לספק כדי להגדיר את יעד הייצוא ב-BigQuery או ב-Cloud Storage.
יעד ב-BigQuery
בקטע Specify how Datastream should stream into a BigQuery dataset (ציון אופן ההזרמה של Datastream למערך נתונים ב-BigQuery), בוחרים אחת מהאפשרויות הבאות מתוך התפריט הנפתח Schema grouping (קיבוץ סכימות):
מערך נתונים לכל סכימה: Datastream יוצר מערך נתונים ב-BigQuery לכל סכימת מקור, על סמך שם הסכימה.
אם בוחרים באפשרות הזו, לכל סכימה במסד הנתונים של המקור, Datastream יוצר מערך נתונים בפרויקט שמכיל את מקור הנתונים.
בנוסף, אם בוחרים באפשרות מערך נתונים לכל סכימה, צריך לספק את הפרטים הבאים:
- בקטע Location type, מציינים איפה רוצים לאחסן את הנתונים ב-BigQuery. בוחרים באפשרות Region כדי לציין מיקום גיאוגרפי יחיד, או באפשרות Multi-region כדי לציין אזור גדול יותר שמכיל שני אזורים או יותר. אם העדיפות שלכם היא אופטימיזציה של העלויות והביצועים, בוחרים באפשרות אזור ושומרים את מערכי הנתונים לצד Google Cloud משאבים אחרים שאתם מנהלים. כדי ליהנות ממכסות גדולות יותר, אפשר לבחור באפשרות מספר אזורים כדי לאפשר ל-BigQuery להשתמש בכמה אזורים בתוך קבוצה. כשבוחרים באפשרות אזור, השדה מוגדר כברירת מחדל לאזור שנבחר לשידור.
- (אופציונלי) בשדה Dataset prefix (קידומת של מערך הנתונים), מגדירים קידומת למערך הנתונים שנוצר על ידי המקור. המחרוזת שאתם מציינים מתווספת לשם סכימת המקור. לדוגמה, אם הסכימה נקראת
<mySchema>והגדרתם את הקידומת של מערך הנתונים כ-<myPrefix>, Datastream יוצר מערך נתונים בשם<myPrefix><mySchema>. - מרחיבים את הקטע הצגת אפשרויות מתקדמות להצפנה.
מציינים איך רוצים להצפין את הנתונים ב-BigQuery על ידי בחירה במפתח הצפנה שמנוהל על ידי Google או במפתח הצפנה בניהול הלקוח.
מערך נתונים יחיד לכל הסכימות: Datastream יוצר את כל הטבלאות בתוך מערך הנתונים הקיים ב-BigQuery שאתם מציינים. לכל טבלה ש-Datastream יוצר יש שם שמורכב משם הסכימה של המקור ושם הטבלה, מופרדים באמצעות קו תחתון (לדוגמה,
). מערכי הנתונים הזמינים מקובצים לפי אזור. אפשר גם ליצור מערך נתונים חדש.<mySchemaName>_<myTableName>
מציינים את מצב הכתיבה של מקור הנתונים. בוחרים את מצב הכתיבה כדי להגדיר איך הנתונים ייכתבו ויעובדו ב-BigQuery:
- מיזוג: בוחרים באפשרות הזו אם רוצים שהנתונים יסונכרנו עם המקור.
- הוספה בלבד: בוחרים באפשרות הזו אם רוצים לשמור את כל הנתונים ההיסטוריים של אירועי השינוי.
מציינים את מגבלת הטריות של הנתונים. האפשרות הזו זמינה רק כשבוחרים במצב מיזוג בשלב הקודם. כדי לאזן בין ביצועי השאילתות ב-BigQuery לבין העלות ועדכניות הנתונים, צריך לבחור מגבלה. המערכת של BigQuery מחילה את השינויים ברקע באופן שוטף, או בזמן ההרצה של השאילתה, בהתאם למגבלת הטריות. הפחתת רמת הטריות (נתונים עדכניים יותר) עשויה להגדיל את עלויות העיבוד ב-BigQuery.
לוחצים על המשך. מופיעה החלונית בדיקת פרטי מקור הנתונים ויצירה בדף יצירת מקור נתונים.
יעד לטבלאות Apache Iceberg
בקטע Specify how Datastream should stream into a BigQuery dataset (הגדרה של אופן ההזרמה של Datastream למערך נתונים ב-BigQuery), בוחרים בתפריט הנפתח Schema grouping (קיבוץ סכימות) את האופן שבו רוצים ש-Datastream ייצור סכימות וטבלאות חדשות:
מערך נתונים לכל סכימה: Datastream יוצר מערך נתונים ב-BigQuery לכל סכימת מקור, על סמך שם הסכימה.
אם בוחרים באפשרות הזו, לכל סכימה במסד הנתונים של המקור, Datastream יוצר מערך נתונים בפרויקט שמכיל את מקור הנתונים.
בנוסף, אם בוחרים באפשרות מערך נתונים לכל סכימה, צריך לספק את הפרטים הבאים:
- בקטע Location type, מציינים איפה רוצים לאחסן את הנתונים ב-BigQuery. בוחרים באפשרות Region כדי לציין מיקום גיאוגרפי יחיד, או באפשרות Multi-region כדי לציין אזור גדול יותר שמכיל שני אזורים או יותר. אם העדיפות שלכם היא אופטימיזציה של העלויות והביצועים, בוחרים באפשרות אזור ושומרים את מערכי הנתונים לצד Google Cloud משאבים אחרים שאתם מנהלים. כדי ליהנות ממכסות גדולות יותר, אפשר לבחור באפשרות מספר אזורים כדי לאפשר ל-BigQuery להשתמש בכמה אזורים בתוך קבוצה. כשבוחרים באפשרות אזור, השדה מוגדר כברירת מחדל לאזור שנבחר לשידור.
- (אופציונלי) בשדה Dataset prefix (קידומת של מערך הנתונים), מגדירים קידומת למערך הנתונים שנוצר על ידי המקור. המחרוזת שאתם מציינים מתווספת לשם סכימת המקור. לדוגמה, אם הסכימה נקראת
<mySchema>והגדרתם את הקידומת של מערך הנתונים כ-<myPrefix>, Datastream יוצר מערך נתונים בשם<myPrefix><mySchema>. - מרחיבים את הקטע הצגת אפשרויות מתקדמות להצפנה.
מציינים איך רוצים להצפין את הנתונים ב-BigQuery על ידי בחירה במפתח הצפנה שמנוהל על ידי Google או במפתח הצפנה בניהול הלקוח.
מערך נתונים יחיד לכל הסכימות: Datastream יוצר את כל הטבלאות בתוך מערך הנתונים הקיים ב-BigQuery שאתם מציינים. לכל טבלה ש-Datastream יוצר יש שם שמורכב משם הסכימה של המקור ושם הטבלה, מופרדים באמצעות קו תחתון (לדוגמה,
). מערכי הנתונים הזמינים מקובצים לפי אזור. אפשר גם ליצור מערך נתונים חדש.<mySchemaName>_<myTableName>
בקטע Define Datastream connection to Apache Iceberg tables (הגדרת חיבור Datastream לטבלאות Apache Iceberg), מספקים את הפרטים הבאים:
בתפריט הנפתח מזהה החיבור, בוחרים את המזהה של חיבור BigQuery שיצרתם ושבו אתם רוצים להשתמש בשביל הזרם. מידע על יצירת חיבור למשאב ב-Cloud ב-BigQuery זמין במאמר הגדרת טבלאות Apache Iceberg ב-BigQuery.
מזינים או בוחרים את כתובת ה-URI של הקטגוריה שיצרתם ב-Cloud Storage. מידע על יצירת קטגוריה של Cloud Storage זמין במאמר יצירת קטגוריה.
בודקים את פורמט הקובץ ואת פורמט הטבלה. Datastream תומך בפורמט הקובץ Parquet ובפורמט הטבלה Iceberg.
בודקים את מצב הכתיבה של הסטרימינג. Datastream תומך במצב כתיבה Append-only בלבד כשמבצעים סטרימינג לטבלאות Apache Iceberg.
לוחצים על המשך. מופיעה החלונית בדיקת פרטי מקור הנתונים ויצירה בדף יצירת מקור נתונים.
יעד ב-Cloud Storage
אופציונלי: בשדה Stream path prefix (קידומת של נתיב מקור הנתונים), מזינים את התיקייה של יעד ה-bucket שאליו Datastream יעביר סכימות, טבלאות ונתונים ממסד נתונים של מקור.
לדוגמה, אם רוצים ש-Datastream יעביר נתונים ממסד הנתונים של המקור לתיקייה
/root/exampleבדלי היעד, מזינים/root/exampleבשדה קידומת של נתיב מקור הנתונים.בשדה פורמט הפלט, בוחרים את פורמט הקבצים שנכתבים ב-Cloud Storage.
זה שינוי אופציונלי. אם בוחרים בפורמט JSON, מופיעות שתי תיבות סימון:
- הוספת קובץ סכימה של סוגים מאוחדים לנתיב הקובץ: אם מסמנים את התיבה הזו, Datastream כותב שני קבצים ל-Cloud Storage: קובץ נתונים בפורמט JSON וקובץ סכימה בפורמט Avro. קובץ הסכימה נקרא באותו שם כמו קובץ הנתונים, עם הסיומת
.schema. אם לא מסמנים את תיבת הסימון הזו, Datastream כותב רק את קובץ נתוני ה-JSON ב-Cloud Storage. כברירת מחדל, תיבת הסימון הזו לא מסומנת. - הפעלת דחיסת gzip: אם מסמנים את תיבת הסימון הזו, Datastream משתמש בכלי
gzipכדי לדחוס את הקבצים ש-Datastream כותב ל-Cloud Storage. אם לא מסמנים את התיבה הזו, Datastream כותב את הקבצים ב-Cloud Storage בלי לדחוס אותם. תיבת הסימון הזו מסומנת כברירת מחדל.
- הוספת קובץ סכימה של סוגים מאוחדים לנתיב הקובץ: אם מסמנים את התיבה הזו, Datastream כותב שני קבצים ל-Cloud Storage: קובץ נתונים בפורמט JSON וקובץ סכימה בפורמט Avro. קובץ הסכימה נקרא באותו שם כמו קובץ הנתונים, עם הסיומת
לוחצים על המשך. מופיעה החלונית בדיקת פרטי מקור הנתונים ויצירה בדף יצירת מקור נתונים.
יצירת מקור הנתונים
- בודקים את הפרטים של הזרם, וגם את פרופילי החיבור של המקור והיעד שבהם הזרם ישתמש כדי להעביר נתונים ממסד נתונים של מקור אל יעד.
לוחצים על הפעלת אימות כדי לאמת את הזרם. באימות של זרם, Datastream בודק שהמקור מוגדר בצורה תקינה, מוודא שהזרם יכול להתחבר גם למקור וגם ליעד, ומאמת את ההגדרה מקצה לקצה של הזרם.
אם מסד הנתונים של המקור הוא Oracle, Datastream מבצע את הבדיקות הבאות:
המחאה תיאור תוקף של רשימת אובייקטים Datastream מוודא שרשימת ההחרגות לא כוללת את רשימת ההכללות. העברת קישוריות של מנהרת SSH Datastream מאמתת שהיא יכולה להתחבר ליעד מבוצר (bastion host) דרך מנהרת SSH. קישוריות למסד נתונים של Oracle Datastream מוודא שהוא יכול להתחבר למסד הנתונים של Oracle כמקור. הרשאות משתמשים ב-Oracle Datastream מוודא שלמשתמש שבו הוא משתמש כדי להתחבר למסד הנתונים של המקור יש את כל ההרשאות הנדרשות לאחזור סכימות, טבלאות ונתונים ממסד הנתונים, כדי ש-Datastream יוכל להזרים את המידע הזה ליעד. הגדרת מצב רישום ביומן Datastream מוודא שמצב הרישום ביומן של מסד הנתונים של Oracle מוגדר ל-ARCHIVELOG. הגדרת רישום משלים ביומן הכלי Datastream מוודא שהרישום המשלים מופעל עבור טבלאות מסד הנתונים שמוזרמות מהמקור ליעד. הגדרת Oracle CDC ב-Datastream מתבצע אימות של שיטת ה-CDC שבחרתם כדי לוודא שהיא תואמת להגדרות של מסד הנתונים. הגדרת קובצי יומן לארכיון Datastream מוודא שרישום בארכיון מוגדר במקור, ושיש קובצי יומן רישום בארכיון. הרשאות ב-Cloud Storage (ליעדים ב-Cloud Storage) Datastream מוודא שיש לו את ההרשאות הנדרשות לכתיבה לקטגוריית היעד ב-Cloud Storage. אם מסד הנתונים של המקור הוא MySQL, Datastream מבצע את הבדיקות הבאות:
המחאה תיאור הרשאות שכפול Datastream מוודא שיש לו הרשאות לשכפל מסד נתונים של MySQL. גרסת מסד הנתונים Datastream מוודא שיש תמיכה בגרסת מסד הנתונים של MySQL. מידע על מהדורות נתמכות זמין במאמר בנושא גרסאות. הגדרה של פורמט יומן בינארי Datastream מוודא שפורמט היומן הבינארי של מסד הנתונים MySQL מוגדר ל- ROW.הרישום ביומן בינארי מופעל הכלי Datastream מוודא שקבצי היומן הבינאריים מוגדרים בצורה נכונה ושיש קבצי יומן. הגדרת תמונת שורה ביומן בינארי Datastream מוודא שתמונת השורה של ה-binlog מוגדרת ל- FULL.הדחיסה של Binlog מושבתת Datastream מוודא שהדחיסה של binlog מושבתת. העדכונים של העותק או של השרת המשני ביומן מופעלים הכלי Datastream מוודא שהעדכונים של העותק או של העבד של היומן מופעלים. הגדרת מצב GTID ( applies only to GTID-based CDC)אם משתמשים בשכפול מבוסס-GTID, Datastream מוודא שמצב ה-GTID מוגדר ל- ON.GtidSet לא מכיל GTID מתויגים ( applies only to GTID-based CDC)הכלי Datastream מוודא שקבוצת ה-GTID לא מכילה GTID מתויג. הרשאות ב-Cloud Storage (ליעדים ב-Cloud Storage) Datastream מוודא שיש לו את ההרשאות הנדרשות לכתיבה לקטגוריית היעד ב-Cloud Storage. בדיקת אזהרות תיאור הגדרה של Expire logs days (תפוגה של יומני רישום בימים), Expire logs seconds (תפוגה של יומני רישום בשניות) או Binlog retention hours (שעות שמירה של יומני רישום בינאריים) ב-Datastream מוודאים שהערכים של expire_logs_days,binlog_expire_logs_secondsו-binlog retention hoursגדולים מ-7,604800ו-168, בהתאמה.הגדרת מספר מקסימלי של חבילות מותרות ב-Datastream מוודאים שהערך של max_allowed_packetמוגדר ל-1GB.אכיפה של עקביות GTID או מצב קפדני של GTID ( applies only to GTID-based CDC)הכלי Datastream מוודא שהעקביות של GTID או המצב הקפדני של GTID מופעלים. אם מסד הנתונים של המקור הוא PostgreSQL, Datastream מבצע את הבדיקות הבאות:
המחאה תיאור קישוריות למסד נתונים של PostgreSQL Datastream מוודא שהוא יכול להתחבר למסד הנתונים של PostgreSQL. פענוח לוגי מופעל Datastream מוודא שהפרמטר wal_levelשל מסד הנתונים PostgreSQL מוגדר לערךlogical.הגדרת משבצת שכפול Datastream בודק אם משבצת השכפול של PostgreSQL קיימת ופעילה, אם ל-Datastream יש את ההרשאות הנדרשות כדי לגשת אליה ואם היא מוגדרת בצורה נכונה. הגדרת אתר החדשות הכלי Datastream מוודא שהפרסום קיים ושהטבלאות לשכפול עבור הזרם כלולות בפרסום. הרשאות למילוי חוסרים Datastream מוודא שהטבלאות שנדרשות למילוי חוזר של נתונים היסטוריים קיימות ושיש לו את ההרשאות הנדרשות לקריאתן. אם מסד הנתונים של המקור הוא SQL Server, Datastream מבצע את הבדיקות הבאות:
המחאה תיאור מהדורת SQL Server Datastream מוודא שמהדורת מסד הנתונים של SQL Server נתמכת. מידע על מהדורות נתמכות זמין במאמר בנושא גרסאות. הרשאות משתמשים ב-SQL Server Datastream מוודא שלמשתמש יש את ההרשאות הנדרשות לגישה למסד הנתונים של SQL Server. התכונה SQL Server CDC מופעלת הכלי Datastream בודק אם CDC מופעל במסד הנתונים ובכל הטבלאות שנכללות בזרם. אימותים של מסד נתונים של SQL Server Datastream בודק אם מסד הנתונים של המקור מוגדר בצורה נכונה, אם כל הדרישות לשכפול מתקיימות ואם אין עמודות עם סוגי נתונים שלא נתמכים. הרשאות ב-Cloud Storage או ב-BigQuery Datastream מוודא שלמשתמש יש את ההרשאות הנדרשות לכתיבה ביעד. אם מסד הנתונים של המקור הוא Salesforce, Datastream מבצע את הבדיקות הבאות:
המחאה תיאור כניסה באמצעות פרטי כניסה שירות Datastream מאמת שהוא יכול לבצע אימות מול ארגון Salesforce של הלקוח באמצעות פרטי הכניסה שסופקו. Bulk API Datastream מוודא שיש לו את ההרשאות הנדרשות כדי לגשת ל-Salesforce Bulk API 2.0. כדי לקרוא כמות גדולה של נתונים, צריך להשתמש ב-Bulk API 2.0. בדיקת אזהרות תיאור מגבלות על API Datastream מחשב אומדן של השימוש הצפוי ב-API על סמך מספר האובייקטים ומרווח התשאול שנבחרו. אם מספר הבקשות היומי הצפוי גבוה מהמגבלה שנאכפת על ידי Salesforce, Datastream מציג אזהרה. אפשר ליצור ולהפעיל את הסטרים גם אם בדיקת האימות לא עוברת. אם מסד הנתונים של המקור הוא MongoDB, Datastream מבצע את הבדיקות הבאות:
המחאה תיאור הרשאות של משתמשים Datastream מוודא שהתפקיד readAnyDatabaseהוקצה למשתמש.הגדרות חיבור Datastream משתמש בפקודה helloכדי לוודא שהגדרות החיבור תקינות.גרסת MongoDB הכלי Datastream מוודא שגרסת MongoDB היא 5.0 ואילך. הרשאות ב-Cloud Storage או ב-BigQuery Datastream מוודא שלמשתמש יש את ההרשאות הנדרשות לכתיבה ביעד. אם מסד הנתונים של המקור הוא Spanner, Datastream מבצע את הבדיקות הבאות:
המחאה תיאור Spanner API מופעל Datastream מוודא ש-Spanner API מופעל. מסד הנתונים קיים Datastream מוודא שמסד הנתונים של Spanner קיים. הרשאות IAM Datastream מוודא שלסוכן השירות שלו יש את הרשאות ה-IAM הנדרשות במסד נתוני המקור. שינוי השידור החי קיים מקור הנתונים מוודא שזרם השינויים שצוין קיים במסד הנתונים. סוג לכידת הערך הכלי Datastream מוודא שסוג הלכידה של הערך NEW_ROWמוגדר בזרם השינויים.
אחרי שכל בדיקות האימות עוברות, לוחצים על יצירה והתחלה כדי ליצור את הסטרימינג ולהתחיל אותו מיד, או על יצירה כדי ליצור את הסטרימינג בלי להתחיל אותו מיד.
אם לא מתחילים את השידור עכשיו, אפשר להתחיל אותו בדף שידורים בלחיצה על התחלה.
אחרי שיוצרים מקור נתונים, אפשר לראות מידע כללי ומפורט לגביו.
יצירת סטרימינג באמצעות התהליך האוטומטי
אתם יכולים להשתמש בהגדרה אוטומטית של סטרימינג כדי ליצור סטרימינג ישירות מדף הסקירה הכללית של Cloud SQL ב- Google Cloud. התהליך האוטומטי מפשט את תהליך יצירת הזרם, ואפשר להשתמש בו אם אתם משכפלים ל-BigQuery ממופע של Cloud SQL ל-PostgreSQL, Cloud SQL ל-MySQL או Cloud SQL ל-SQL Server.
במאמר יצירת שידור באמצעות התהליך האוטומטי מוסבר איך להשתמש בתהליך האוטומטי להגדרת שידור.
המאמרים הבאים
- מידע נוסף על סטרימינג זמין במאמר בנושא מחזור החיים של סטרימינג.
- איך מריצים שידור
- במאמר שינוי של שידור מוסבר איך משנים את השידורים.
- מידע נוסף על שחזור סטרימינג זמין במאמר שחזור סטרימינג.