‫Google משתמשת בטכנולוגיית AI כדי לתרגם תוכן לשפה המועדפת עליך. בתרגומים כאלו עשויות להיות שגיאות.

ייבוא מ-Cloud SQL ל-Spanner

בדף הזה מוסבר איך לייבא נתונים מ-Cloud SQL ל-MySQL אל Spanner.

במהלך התהליך, משתמשים ב-Cloud Shell במסוף Google Cloud כדי להריץ פקודות שמגדירות ומריצות משימת Dataflow לייבוא מסד נתונים מ-Cloud SQL ל-Spanner.

סקירה כללית על התהליך

תהליך הייבוא כולל את השלבים הבאים:

משלימים תהליך עבודה ב- Google Cloud console שבו מספקים מידע על מסדי הנתונים של המקור והיעד:
- פרטים של מסד הנתונים של המקור: שם המכונה של Cloud SQL, שם מסד הנתונים והאישורים שלכם.
- פרטי Spanner: שם מכונת Spanner ושם מסד הנתונים. הפקודה יוצרת את מסד הנתונים אם הוא לא קיים.
- אחסון פלט: שם של קטגוריה ב-Cloud Storage לאחסון קובצי פלט.
מערכת Spanner פותחת את Cloud Shell ומאכלסת פקודה. הפקודה מבצעת את הפעולות הבאות:
- העברת הסכימה: הפקודה מעבירה את הסכימה באמצעות כלי ההעברה של Spanner. ההעברה הזו מתבצעת ב-Cloud Shell ומשתמשת בכתובת IP ציבורית כדי להתחבר למכונת Cloud SQL. מכיוון ש-Cloud Shell נמצא ברשת משלו, הוא צריך גישה ל-Cloud SQL באמצעות כתובת ה-IP הציבורית. עם זאת, לא צריך להוסיף לרשימת ההיתרים אף רשת משנה (subnet) מול כתובת ה-IP הציבורית.
- התחלת העברת נתונים: אחרי שהכלי מעביר את הסכימה, הפקודה מתחילה עבודת Dataflow להעברת נתונים. העבודה קוראת ממסד הנתונים של המקור ישירות דרך כתובת ה-IP הפרטית שלו וכותבת ל-Spanner. המשימה הזו פועלת באמצעות חשבון השירות שמוגדר כברירת מחדל ב-Compute Engine. בסיום, הפקודה מדפיסה את כתובת ה-URL של משימת Dataflow.

מגבלות

ההגבלות הבאות חלות:

ייבוא הנתונים הזה תומך רק במכונה אחת של Cloud SQL ל-MySQL.
המרת הסכימה היא אוטומטית, ואי אפשר לבצע שינויים בסכימה במהלך הייבוא.
ייבוא הנתונים הזה הוא טעינה בכמות גדולה חד-פעמית, ולא מתבצעת שכפול רציף.

לפני שמתחילים

לפני שמייבאים את מסד הנתונים, צריך לבצע את הפעולות הבאות:

מוודאים שלמכונת Cloud SQL יש כתובת IP ציבורית וכתובת IP פרטית. מידע נוסף זמין במאמרים הגדרת קישוריות של כתובת IP ציבורית והגדרת כתובת IP פרטית.
יוצרים משתמש וסיסמה למכונה של Cloud SQL שאפשר להשתמש בהם כדי לשלוח שאילתות למסד הנתונים.
מאחסנים את הסיסמה ב-Secret Manager. צריך את version ID של גרסת הסוד. מידע נוסף זמין במאמר בנושא יצירת סוד.
מוודאים שיש לכם קטגוריה של Cloud Storage. ‫Dataflow משתמש בקטגוריה הזו כדי לאחסן קובצי הגדרה ותוצאות של משימות Dataflow.
מוודאים ש-Spanner ו-Cloud SQL נמצאים באותו פרויקט Google Cloud.
מפעילים את ממשקי ה-API של Dataflow,‏ Cloud Storage,‏ Spanner,‏ Cloud SQL ו-Secret Manager.
תפקידים שנדרשים להפעלת ממשקי API
כדי להפעיל ממשקי API, נדרשת ההרשאה serviceusage.services.enable. אם יצרתם את הפרויקט, סביר להניח שכבר יש לכם את ההרשאה הזו דרך התפקיד 'בעלים' (roles/owner). אחרת, תוכלו לקבל את ההרשאה הזו דרך התפקיד 'אדמין בממשק 'שימוש בשירות'' (roles/serviceusage.serviceUsageAdmin). איך מקצים תפקידים
הפעלת ממשקי ה-API

התפקידים הנדרשים

כדי לוודא שלחשבון השירות שמוגדר כברירת מחדל ב-Compute Engine יש את ההרשאות הנדרשות להרצת משימת Dataflow, צריך לבקש מהאדמין להקצות לחשבון השירות שמוגדר כברירת מחדל ב-Compute Engine את תפקידי ה-IAM הבאים בפרויקט:

Secret Manager Secret Accessor (roles/secretmanager.secretAccessor)
Cloud SQL Client (roles/cloudsql.client)
אדמין של מסד נתונים ב-Cloud Spanner (roles/spanner.databaseAdmin)
אדמין של אובייקטים באחסון (roles/storage.objectAdmin)
‫Dataflow Worker (roles/dataflow.worker)

כדי לקבל את ההרשאות שדרושות להגדרת הייבוא, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקט:

Cloud SQL Client (roles/cloudsql.client)
אדמין של מסד נתונים ב-Cloud Spanner (roles/spanner.databaseAdmin)
Secret Manager Secret Accessor (roles/secretmanager.secretAccessor)
אדמין באחסון (roles/storage.admin)
מפתח Dataflow (roles/dataflow.developer)
משתמש בחשבון שירות (roles/iam.serviceAccountUser)

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות להגדרת הייבוא. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי להגדיר את הייבוא, צריך את ההרשאות הבאות:

cloudsql.instances.connect
cloudsql.instances.get
cloudsql.instances.login
spanner.instances.list
spanner.instances.get
spanner.databases.create
spanner.databases.list
spanner.databases.get
spanner.databases.getDdl
spanner.databases.updateDdl
spanner.databases.read
spanner.databases.write
spanner.databases.select
secretmanager.versions.access
storage.objects.create
storage.objects.get
storage.buckets.get
dataflow.jobs.create
dataflow.jobs.get
dataflow.jobs.list
iam.serviceAccounts.actAs

דרישות מכסה

אלה הדרישות בנוגע למכסה:

‫Spanner: צריכה להיות לכם קיבולת מחשוב מספקת כדי לתמוך בכמות הנתונים שאתם מייבאים. מומלץ להתחיל עם לפחות צומת Spanner אחד. יכול להיות שתצטרכו להוסיף עוד קיבולת חישוב כדי שהעבודה תסתיים תוך זמן סביר. לא נדרשת קיבולת חישוב נוספת כדי לייבא סכימת מסד נתונים. מידע נוסף זמין במאמר בנושא סקירה כללית על שינוי גודל אוטומטי.
‫Dataflow: מכסות Compute Engine של כתובות IP, שימוש בדיסק ומעבד (CPU) שחלות על משימות ייבוא, חלות גם על משימות אחרות של Dataflow.
‫Compute Engine: לפני שמריצים את עבודת הייבוא, צריך להגדיר מכסות ראשוניות ל-Compute Engine, שמשמש את Dataflow. המכסות האלה מייצגות את המספר המקסימלי של משאבים שאתם מאפשרים ל-Dataflow להשתמש בהם עבור העבודה שלכם. ערכי התחלה מומלצים:
- מעבדים: 200
- כתובות IP בשימוש: 200
- Standard persistent disk: 50 TB
בדרך כלל לא צריך לבצע התאמות נוספות. ‫Dataflow מספקת התאמה אוטומטית של המשאבים לעומס (autoscaling), כך שמשלמים רק על המשאבים בפועל שנעשה בהם שימוש במהלך הייבוא. אם העבודה יכולה להשתמש ביותר משאבים, בממשק המשתמש של Dataflow מוצג סמל אזהרה. העבודה יכולה להסתיים גם אם מופיע סמל אזהרה.