העברה מ-Teradata ל-BigQuery: מבוא

במסמך הזה מפורטים הנימוקים למעבר מ-Teradata ל-BigQuery, מוצגות השוואות בין התכונות של Teradata ו-BigQuery, ומוצגות הנחיות לשלבים הראשונים בתהליך המעבר ל-BigQuery.

למה כדאי לעבור מ-Teradata ל-BigQuery?

חברת Teradata הייתה בין החברות הראשונות שפיתחו פתרונות לניהול ולניתוח של נפחי נתונים גדולים. עם זאת, ככל שהצרכים שלכם בתחום מחשוב הענן מתפתחים, יכול להיות שתצטרכו פתרון מודרני יותר לניתוח הנתונים.

אם השתמשתם בעבר ב-Teradata, כדאי לשקול מעבר ל-BigQuery מהסיבות הבאות:

  • איך מתמודדים עם מגבלות של פלטפורמות מדור קודם
    • הארכיטקטורה המקובלת של Teradata מתקשה לעיתים קרובות לעמוד בדרישות של ניתוח נתונים מודרני, במיוחד בצורך במקביליות בלתי מוגבלת ובביצועים גבוהים באופן עקבי עבור עומסי עבודה מגוונים. הארכיטקטורה בלי שרת (serverless) ב-BigQuery מיועדת לטפל בדרישות האלה במאמץ מינימלי.
  • אימוץ אסטרטגיה מבוססת-ענן
    • ארגונים רבים עוברים באופן אסטרטגי מתשתית מקומית לענן. השינוי הזה מחייב מעבר מפתרונות קונבנציונליים שמבוססים על חומרה, כמו Teradata, לשירות מנוהל באופן מלא, ניתן להרחבה ועל פי דרישה, כמו BigQuery, כדי לצמצם את התקורה התפעולית.
  • שילוב עם מקורות נתונים וניתוחים מודרניים
    • יותר ויותר נתונים עסקיים חשובים נמצאים במקורות מבוססי-ענן. ‫BigQuery משולב באופן מקורי עם המערכת האקולוגית של Google Cloud , ומספק גישה חלקה למקורות האלה. הוא מאפשר ניתוח מתקדם, למידת מכונה ועיבוד נתונים בזמן אמת, ללא מגבלות התשתית של Teradata.
  • אופטימיזציה של העלויות והמדרגיות
    • בדרך כלל, השימוש ב-Teradata כולל תהליכי שינוי גודל מורכבים ויקרים. ‫BigQuery מציע התאמה אוטומטית לעומס שקופה של האחסון והמחשוב בנפרד, כך שלא צריך לבצע שינוי הגדרה ידני, והעלות הכוללת של הבעלות צפויה להיות נמוכה יותר.

השוואה בין תכונות

בטבלה הבאה מוצגת השוואה בין התכונות והמושגים ב-Teradata לבין התכונות המקבילות ב-BigQuery:

מושג Teradata מקבילה ב-BigQuery תיאור
‫Teradata (במקום, בענן, היברידי) ‫BigQuery (פלטפורמת נתונים מאוחדת מבוססת-AI). ‫BigQuery מספק קבוצה גדולה של יכולות נוספות בהשוואה למחסן נתונים רגיל. ‫BigQuery הוא מחסן נתונים (data warehouse) מנוהל בענן ב- Google Cloud. ‫Teradata מציעה אפשרויות מקומיות, בענן והיברידיות. ‫BigQuery הוא שירות ללא שרתים שזמין בכל העננים כ-BQ Omni.
Teradata Tools (Teradata Studio, BTEQ) Google Cloud מסוף, BigQuery Studio, כלי שורת הפקודה של BigQuery שניהם מציעים ממשקים לניהול של מחסן הנתונים ולביצוע אינטראקציות איתו. ‫BigQuery Studio מבוסס על אינטרנט ומשולב עם Google Cloud ומאפשר לכתוב SQL, ‏ Python ו-Apache Spark.
מסדי נתונים/סכימות מערכי נתונים ב-Teradata, מסדי נתונים וסכימות משמשים לארגון טבלאות ותצוגות, בדומה למערכי נתונים ב-BigQuery. עם זאת, יכול להיות הבדל באופן הניהול והשימוש בהם.
טבלה טבלה בשתי הפלטפורמות, הנתונים מאוחסנים בטבלאות בשורות ובעמודות.
הצגה הצגה התצוגות פועלות באופן דומה בשתי הפלטפורמות, ומאפשרות ליצור טבלאות וירטואליות שמבוססות על שאילתות.
מפתח ראשי מפתח ראשי (לא נאכף ב-GoogleSQL) ‫BigQuery תומך במפתחות ראשיים שלא נאכפים ב-GoogleSQL. ההמלצות האלה נועדו בעיקר לעזור באופטימיזציה של שאילתות.
מפתח זר מפתח זר (לא נאכף ב-GoogleSQL) ‫BigQuery תומך במפתחות זרים שלא נאכפים ב-GoogleSQL. ההמלצות האלה נועדו בעיקר לעזור באופטימיזציה של שאילתות.
אינדקס אשכולות, אינדקסים של חיפוש, אינדקסים של וקטורים (אוטומטיים או מנוהלים) ‫Teradata מאפשרת יצירה מפורשת של אינדקסים.

מומלץ ליצור אשכולות ב-BigQuery. האשכולות לא שווים לאינדקסים של מסדי נתונים, אבל הם עוזרים לאחסן את הנתונים לפי סדר בדיסק, וכך לבצע אופטימיזציה של אחזור הנתונים כשמשתמשים בעמודות מקובצות כתנאים.
‫BigQuery תומך באינדקסים של חיפוש ובאינדקסים של וקטורים.
חלוקה למחיצות חלוקה למחיצות שתי הפלטפורמות תומכות בחלוקת טבלאות למחיצות כדי לשפר את ביצועי השאילתות בטבלאות גדולות.

‫BigQuery תומך בחלוקה למחיצות רק לפי תאריכים ומספרים שלמים. למחרוזות, צריך להשתמש באשכולות במקום זאת.
הקצאת משאבים (על סמך חומרה ורישוי) מקומות שמורים (מבוססי-קיבולת), תמחור על פי דרישה (תמחור ניתוח) ב-BigQuery יש מודלים גמישים לתמחור. הזמנות מספקות עלויות צפויות לעומסי עבודה עקביים וגם לעומסי עבודה אד-הוק באמצעות התאמה אוטומטית לעומס, בעוד שתמחור על פי דרישה מתמקד בחיובים לפי סריקת בייט לכל שאילתה.
BTEQ, ‏ SQL Assistant, כלים אחרים ללקוח BigQuery Studio, כלי שורת הפקודה של BigQuery, ממשקי API ‫BigQuery מספק ממשקים שונים להרצת שאילתות, כולל עורך מבוסס-אינטרנט, כלי שורת פקודה וממשקי API לגישה פרוגרמטית.
רישום ביומן/היסטוריה של שאילתות היסטוריית השאילתות, INFORMATION_SCHEMA.JOBS ‫BigQuery שומר היסטוריה של שאילתות שהופעלו, כך שאפשר לבדוק שאילתות קודמות, לנתח את הביצועים ולפתור בעיות. INFORMATION_SCHEMA.JOBS שומר את ההיסטוריה של כל המשימות שנשלחו ב-6 החודשים האחרונים.
תכונות אבטחה (בקרת גישה, הצפנה) תכונות אבטחה (IAM, ‏ ACL, ‏ הצפנה) שניהם מציעים אבטחה חזקה. ‫BigQuery משתמש ב- Google Cloud IAM לבקרת גישה ברמת גרנולריות גבוהה.
אמצעי בקרת רשת (חומות אש, רשתות VPN) VPC Service Controls, גישה פרטית ל-Google ‫BigQuery משתלב עם VPC Service Controls כדי להגביל את הגישה למשאבי BigQuery מרשתות ספציפיות. באמצעות גישה פרטית ל-Google אפשר לגשת ל-BigQuery בלי להשתמש בכתובות IP ציבוריות.
ניהול משתמשים ותפקידים ניהול זהויות והרשאות גישה (IAM) ב-BigQuery נעשה שימוש ב-IAM לבקרת גישה פרטנית. אתם יכולים להעניק הרשאות ספציפיות למשתמשים ולחשבונות שירות ברמת הפרויקט, מערך הנתונים והטבלה.
הרשאות ותפקידים באובייקטים רשימות של בקרת גישה (ACL) במערכי נתונים ובטבלאות ‫BigQuery מאפשר לכם להגדיר רשימות ACL במערכי נתונים ובטבלאות כדי לשלוט בגישה ברמה פרטנית.
הצפנה במנוחה ובזמן ההעברה הצפנה במנוחה ובזמן ההעברה, מפתחות הצפנה בניהול הלקוח (CMEK), אפשר לארח מפתחות במערכות EKM חיצוניות. כברירת מחדל, הנתונים ב-BigQuery מוצפנים. אפשר גם לנהל מפתחות הצפנה משלכם כדי לקבל שליטה נוספת.
תכונות של משילות מידע (data governance) ועמידה בדרישות כללי מדיניות של משילות מידע (data governance), DLP (מניעת אובדן נתונים) ‫BigQuery תומך במדיניות משילות מידע וב-DLP כדי לעזור לכם לאכוף את דרישות אבטחת המידע והתאימות.
כלי טעינה של Teradata (למשל, FastLoad, MultiLoad), bteq שירות העברת נתונים ל-BigQuery, כלי שורת הפקודה של BigQuery, ממשקי API יש ב-BigQuery שיטות שונות לטעינת נתונים. ל-Teradata יש כלי טעינה ייעודיים. ב-BigQuery מושם דגש על יכולת הרחבה ומהירות של הכנסת נתונים.
כלי ייצוא של Teradata‏, bteq כלי שורת הפקודה של BigQuery, ממשקי API, ייצוא ל-Cloud Storage ב-BigQuery אפשר לייצא נתונים ליעדים שונים. ל-Teradata יש כלים משלה לייצוא. השילוב של BigQuery עם Cloud Storage הוא יתרון מרכזי.

‫BigQuery Storage Read API מאפשר לכל יכולת מחשוב חיצונית לקרוא נתונים בכמות גדולה.
טבלאות חיצוניות טבלאות חיצוניות שתי השיטות תומכות בשליחת שאילתות לנתונים באחסון חיצוני. ‫BigQuery משתלב היטב עם Cloud Storage,‏ Spanner,‏ Bigtable,‏ Cloud SQL,‏ AWS S3,‏ Azure Blob Storage ו-Google Drive.
תצוגות מהותיות תצוגות מהותיות שתי האפשרויות מציעות תצוגות חומריות לביצועי שאילתות.‫

‫BigQuery מספק תצוגות חומריות עם כוונון חכם שתמיד מחזירות נתונים עדכניים, וגם מספקות שכתוב אוטומטי של שאילתות לתצוגות חומריות, גם כשהשאילתה מתייחסת לטבלת הבסיס.
פונקציות בהגדרת המשתמש (UDF) פונקציות בהגדרת המשתמש (UDF) ‏(SQL, ‏ JavaScript) ‫BigQuery תומך בפונקציות UDF ב-SQL וב-JavaScript.
Teradata Scheduler, other scheduling tools שאילתות מתוזמנות, Cloud Composer, ‏ Cloud Functions, ‏ צינורות נתונים של BigQuery ‫BigQuery משתלב עם Google Cloud שירותי תזמון ועם כלי תזמון חיצוניים אחרים.
נקודת תצפית ניהול BigQuery לצורך מעקב, בדיקת תקינות, בדיקת משימות וניהול קיבולת. ‫BigQuery מציע ארגז כלים מקיף לניהול שמבוסס על ממשק משתמש, ומכיל כמה חלוניות למעקב אחרי תקינות תפעולית וניצול משאבים.
גיבוי ושחזור שיבוט של מערכי נתונים, חזרה בזמן, גיבוי ושחזור חוצי אזורים, יצירת קובץ snapshot ושיבוט של טבלאות, אחסון אזורי ואחסון במספר אזורים. ב-BigQuery יש תכונות של תמונות מצב ומסע בזמן לשחזור נתונים. התכונה 'מסע בזמן' מאפשרת לכם לגשת לנתונים היסטוריים בתוך מסגרת זמן מסוימת. ב-BigQuery יש גם אפשרות לשכפול מערכי נתונים, לאחסון אזורי ורב-אזורי ולאפשרויות גיבוי ושחזור בין אזורים.
פונקציות גיאו-מרחביות פונקציות גיאו-מרחביות שתי הפלטפורמות תומכות בנתונים ובפונקציות גיאו-מרחביים.

קדימה, מתחילים

בקטעים הבאים מופיע סיכום של תהליך המיגרציה מ-Teradata ל-BigQuery:

הפעלת הערכת העברה

במהלך המיגרציה מ-Teradata ל-BigQuery, מומלץ להתחיל בהפעלת כלי ההערכה של מיגרציה ל-BigQuery כדי להעריך את ההיתכנות והיתרונות הפוטנציאליים של העברת מחסן הנתונים מ-Teradata ל-BigQuery. הכלי הזה מספק גישה מובנית להבנת סביבת Teradata הנוכחית שלכם ולאומדן המאמץ הנדרש להעברה מוצלחת.

הפעלת כלי ההערכה של ההעברה ל-BigQuery יוצרת דוח הערכה שמכיל את הקטעים הבאים:

  • דוח מערכת קיים: תמונת מצב של מערכת Teradata הקיימת והשימוש בה, כולל מספר מסדי הנתונים, הסכימות, הטבלאות והגודל הכולל ב-TB. בנוסף, היא מפרטת את הסכימות לפי גודל ומצביעה על ניצול משאבים פוטנציאלי לא אופטימלי, כמו טבלאות ללא פעולות כתיבה או עם מעט פעולות קריאה.
  • הצעות לשינוי מצב יציב ב-BigQuery: מציגות איך המערכת תיראה ב-BigQuery אחרי ההעברה. הוא כולל הצעות לאופטימיזציה של עומסי עבודה ב-BigQuery ולמניעת בזבוז.
  • תוכנית ההעברה: מספקת מידע על מאמץ ההעברה עצמו. לדוגמה, המעבר מהמערכת הקיימת למצב יציב ב-BigQuery. בקטע הזה מופיע מספר השאילתות שתורגמו באופן אוטומטי והזמן הצפוי להעברת כל טבלה ל-BigQuery.

מידע נוסף על תוצאות ההערכה של ההעברה זמין במאמר בדיקת הדוח ב-Looker Studio.

העברת סכימה ונתונים מ-Teradata

אחרי שבודקים את תוצאות ההערכה של ההעברה, אפשר להתחיל את ההעברה מ-Teradata על ידי הכנת BigQuery להעברה, ואז הגדרת משימת העברת נתונים.

מידע נוסף על תהליך ההעברה מ-Teradata זמין במאמר העברת סכימה ונתונים מ-Teradata.

אימות ההעברה

אחרי שמבצעים מיגרציה של נתוני Teradata ל-BigQuery, מריצים את כלי אימות הנתונים (DVT) כדי לבצע אימות נתונים בנתוני BigQuery החדשים שעברו מיגרציה. הכלי מאמת פונקציות שונות, מרמת הטבלה ועד רמת השורה, כדי לוודא שהנתונים שעברו מיגרציה פועלים כמצופה. מידע נוסף על DVT זמין במאמר הכרות עם הכלי לאימות נתונים להעברות EDW.

אפשר לגשת ל-DVT במאגר הציבורי של DVT ב-GitHub.

המאמרים הבאים