שימוש בהעברה מנוהלת עם שירות Dataproc Metastore

בדף הזה מוסבר איך להתחיל ולנהל העברה מנוהלת של Dataproc Metastore.

אפשר להגדיר העברה באמצעות ממשקי ה-API של Dataproc Metastore.

לפני שמתחילים

להתחלת ההעברה

כשמריצים העברה, Dataproc Metastore מתחבר ל-Cloud SQL ומשתמש ב-Cloud SQL כמסד הנתונים העורפי שלו. במהלך התהליך הזה, Dataproc Metastore מפעיל צינור עיבוד נתונים שמעתיק נתונים מ-Cloud SQL למסד הנתונים שלו (Spanner).

‫Dataproc Metastore ממשיך להשתמש ב-Cloud SQL כקצה העורפי שלו ומשכפל נתונים עד להפעלת תהליך ההעברה המלאה.

לפני שמתחילים בהעברה, חשוב לוודא שהגדרתם את הדרישות המוקדמות להעברה מנוהלת.

שיקולים לפני התחלת ההעברה

  • שירות Dataproc Metastore יכול להריץ רק העברה אחת בכל פעם.

  • ההעברה נשארת פעילה עד שמשלימים את תהליך ההעברה. אין מועד אחרון להשלמת ההעברה. למשל, ההעברה יכולה להימשך יום אחד, 30 ימים או שנה.

  • גיבויים מתוזמנים לא מוגבלים במהלך העברה. עם זאת, יכול להיות שהגיבוי יהיה חלקי. כדי להימנע מבעיות, כדאי להשבית את כל הגיבויים המתוזמנים בזמן שההעברה מתבצעת.

התחלת העברה מפעילה את שינויי המצב הבאים:

  • הסטטוס של Dataproc Metastore משתנה ל-MIGRATING.
  • סטטוס הביצוע של ההעברה משתנה לRUNNING.
  • שלב הביצוע של ההעברה עובר לREPLICATION.

המסוף

שנתחיל?

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore:

    מעבר אל Dataproc Metastore

  2. בדף Dataproc Metastore, לוחצים על השם של השירות שאליו רוצים להעביר את הנתונים.

    ייפתח הדף פרטי השירות.

  3. בראש הדף, לוחצים על העברת נתונים.

    הדף יצירת העברה נפתח בכרטיסייה קישוריות ומוצגות בו הגדרות התצורה של מסד נתונים של Cloud SQL ל-Dataproc Metastore.

הגדרת מסד נתונים של Cloud SQL ל-DPMS

  1. בשדה Instance connection name (שם החיבור של המופע), מזינים את שם החיבור של מסד הנתונים ב-Cloud SQL, בפורמט הבא: project_id:region:instance_name.

  2. בשדה כתובת IP, מזינים את כתובת ה-IP שנדרשת כדי להתחבר למופע Cloud SQL.

  3. בשדה יציאה מזינים 3306.

  4. בשדה שם מסד הנתונים של Hive מזינים את השם של מסד הנתונים שמשמש כקצה העורפי של Hive Metastore בניהול עצמי.

  5. בשדה שם משתמש, מזינים את שם המשתמש שבו משתמשים כדי לקשר את Cloud SQL אל Hive Metastore.

  6. בשדה Password (סיסמה), מזינים את הסיסמה שבה משתמשים כדי לקשר את Cloud SQL ל-Hive Metastore.

שירות SOCKS5 Proxy

  1. בשדה Proxy Subnet (רשת משנה של שרת Proxy), מזינים רשת משנה מסוג Regular (רגיל). רשת המשנה צריכה להיות נוכחת ברשת ה-VPC של Cloud SQL. רשת משנה זו משמשת לפריסת שירות ה-proxy של SOCKS5 הביניים

  2. בשדה Nat Subnet, מזינים רשת משנה מסוג Private Service Connect. רשת המשנה הזו צריכה להיות ברשת ה-VPC של Cloud SQL, והיא משמשת לפרסום שירות ה-proxy של SOCKS5 באמצעות Private Service Connect.

  3. לוחצים על Continue.

    הכרטיסייה Change Data Capture (CDC) נפתחת ומוצגות בה הגדרות התצורה של Cloud SQL database configuration for Datastream.

הגדרת מסד נתונים ב-Cloud SQL למקור נתונים

  1. בשדה שם משתמש, מזינים את שם המשתמש שבו אתם משתמשים כדי להתחבר ל-Cloud SQL CDC שמשמש את Datastream.

  2. בשדה סיסמה, מזינים את הסיסמה שבה משתמשים כדי להתחבר ל-CDC של Cloud SQL שמשמש את Datastream.

  3. בשדה VPC network (רשת VPC), מזינים את הרשת באותה רשת VPC כמו מופע Cloud SQL שבו Datastream משתמש כדי ליצור חיבור פרטי ל-CDC.

  4. בשדה טווח כתובות ה-IP של רשת המשנה מזינים טווח כתובות IP של רשת משנה של לפחות /29. ‫Datastream משתמש בכתובת ה-IP הזו כדי ליצור peering לרשת ה-VPC.

  5. בשדה Reverse proxy subnet (תת-רשת של שרת proxy הפוך), מזינים את רשת המשנה שיצרתם באותה רשת VPC כמו Cloud SQL. ‫Datastream משתמש ברשת המשנה הזו. רשת המשנה משמשת לאירוח של חיבור לשרת proxy הפוך עבור CDC של Datastream. רשת המשנה צריכה להיות מוגדרת באותו אזור כמו שירות Dataproc Metastore.

הגדרת GCS

  1. בשדה מזהה קטגוריה בוחרים את הנתיב ב-Cloud Storage לאחסון נתוני ה-CDC במהלך ההעברה.

  2. בשדה Root path (נתיב הבסיס), מזינים את נתיב הבסיס בתוך הקטגוריה של Cloud Storage. נתוני האירועים של הסטרימינג נכתבים בנתיב הזה.

  3. לוחצים על יצירה.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d \
  '{
    "migration_execution": {
      "cloud_sql_migration_config": {
        "cloud_sql_connection_config": {
          "instance_connection_name": INSTANCE_CONNECTION_NAME,
          "hive_database_name": "HIVE_DATABASE_NAME",
          "ip_address": "IP_ADDRESS",
          "port": 3306,
          "username": "CONNECTION_USERNAME",
          "password": "CONNECTION_PASSWORD",
          "proxy_subnet": "PROXY_SUBNET",
          "nat_subnet": "NAT_SUBNET"
        },
        "cdc_config": {
          "username": "CDC_USENAME",
          "password": "CDC_PASSWORD",
          "vpc_network": "VPC_NETWORK",
          "subnet_ip_range": "SUBNET_IP_RANGE",
          "reverse_proxy_subnet": "REVERSE_PROXY_SUBNET_ID",
          "bucket": "BUCKET_NAME",
          "root_path": "ROOT_PATH",
        }
      }
    }
}' \
  https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:startMigration

מחליפים את מה שכתוב בשדות הבאים:

  • SERVICE: השם או המזהה של שירות Dataproc Metastore.
  • PROJECT_ID: מזהה הפרויקט שבו נמצא שירות Dataproc Metastore. Google Cloud
  • LOCATION: האזור שבו נמצא שירות Dataproc Metastore. Google Cloud

הגדרת העברה של Cloud SQL

  • INSTANCE_CONNECTION_NAME: שם החיבור של מסד הנתונים ב-Cloud SQL, בפורמט הבא: ‫PROJECT_ID/LOCATION/CLOUDSQL_INSTANCE_ID.
  • HIVE_DATABASE_NAME: השם של מסד הנתונים של Hive בניהול עצמי שמחובר ל-Cloud SQL.
  • IP_ADDRESS: כתובת ה-IP שנדרשת כדי להתחבר למופע Cloud SQL.
  • CONNECTION_USERNAME: שם המשתמש שבו משתמשים כדי לחבר את Cloud SQL ל-Hive Metastore.
  • CONNECTION_PASSWORD הסיסמה שבה משתמשים כדי לחבר את Cloud SQL ל-Hive Metastore
  • PROXY_SUBNET: רשת המשנה שנעשה בה שימוש ברשת ה-VPC של Cloud SQL. רשת המשנה הזו מארחת שרת proxy ביניים כדי לספק קישוריות בין רשתות טרנזיטיביות.
  • NAT_SUBNET: רשת משנה של Private Service Connect שמספקת חיבור משירות Dataproc Metastore לגישה לשרת ה-proxy המתווך. גודל רשת המשנה צריך להיות עם אורך קידומת של לפחות ‎ /29 ובטווח IPv4.

הגדרת CDC

  • CDC_USERNAME: שם המשתמש ששירות Datastream משתמש בו כדי להתחבר ל-Cloud SQL.
  • CDC_PASSWORD: הסיסמה ששירות Datastream משתמש בה כדי להתחבר ל-Cloud SQL.
  • VPC_NETWORK: רשת באותה רשת VPC כמו מופע Cloud SQL שמשמש את Datastream ליצירת חיבור פרטי ל-CDC.
  • SUBNET_IP_RANGE: טווח כתובות IP של רשת משנה (subnet) בפורמט ‎ /29 לפחות, שמשמש את Datastream כדי ליצור קישור בין רשתות שכנות (peering) לרשת ה-VPC.
  • REVERSE_PROXY_SUBNET_ID: רשת משנה באותה רשת VPC שבה נמצא מופע Cloud SQL שמשמש את Datastream. רשת המשנה משמשת לאירוח חיבור של שרת proxy הפוך ל-CDC של Datastream. רשת המשנה צריכה להיות מוגדרת באותו אזור כמו שירות Dataproc Metastore.
  • BUCKET_NAME: הנתיב ב-Cloud Storage לאחסון נתוני ה-CDC במהלך ההעברה.
  • ROOT_PATH: נתיב הבסיס בתוך הקטגוריה של Cloud Storage. נתוני האירועים של הסטרימינג נכתבים בנתיב הזה.

סיום ההעברה

כשמשלימים העברה, Dataproc Metastore מתחבר ל-Spanner ומתחיל להשתמש ב-Spanner כמסד הנתונים של העורף האחורי שלו.

העברה מלאה מפעילה את שינויי הסטטוס הבאים:

  • ‫Dataproc Metastore חוזר למצב ACTIVE.
  • מצב הביצוע של ההעברה משתנה לSUCCEEDED.

המסוף

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore.

  2. בראש הדף, לוחצים על העברת נתונים.

    ייפתח הדף העברת נתונים ויוצגו בו העברות מנוהלות שהושלמו.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d '' \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:completeMigration

מחליפים את מה שכתוב בשדות הבאים:

  • SERVICE: השם או המזהה של שירות Dataproc Metastore.
  • PROJECT_ID: מזהה הפרויקט שבו נמצא שירות Dataproc Metastore. Google Cloud
  • LOCATION: האזור שבו נמצא שירות Dataproc Metastore. Google Cloud

בטל הגירה

כשמבטלים העברה, Dataproc Metastore מבטל את כל השינויים ומתחיל להשתמש בסוג מסד הנתונים Spanner כמסד הנתונים של העורף. כל הנתונים שהועברו במהלך המיגרציה נמחקים.

ביטול ההעברה מפעיל את שינויי המצב הבאים:

  • ‫Dataproc Metastore חוזר למצב ACTIVE.
  • מצב הביצוע של ההעברה משתנה לCANCELLED.

המסוף

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore.

  2. בראש הדף, לוחצים על העברת נתונים.

    נפתח הדף העברת נתונים ומוצגות בו העברות מנוהלות שבוטלו.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type:application/json" \
  -X POST -d '' \
    https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE:cancelMigration

מחליפים את מה שכתוב בשדות הבאים:

  • SERVICE_NAME: השם או המזהה של שירות Dataproc Metastore.
  • PROJECT_ID: מזהה הפרויקט שבו נמצא שירות Dataproc Metastore. Google Cloud
  • LOCATION: האזור שבו נמצא שירות Dataproc Metastore. Google Cloud

קבלת פרטים על ההעברה

קבלת פרטים על העברה מנוהלת יחידה.

המסוף

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore.

  2. בראש הדף, לוחצים על העברת נתונים.

    ייפתח הדף העברת נתונים ויוצגו בו ההעברות המנוהלות שלכם.

    כדי לקבל פרטים נוספים על העברה, לוחצים על השם של העברה מנוהלת.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -X GET \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

מחליפים את מה שכתוב בשדות הבאים:

  • SERVICE: השם או המזהה של שירות Dataproc Metastore.
  • PROJECT_ID: מזהה הפרויקט שבו נמצא שירות Dataproc Metastore. Google Cloud
  • LOCATION: האזור שבו נמצא שירות Dataproc Metastore. Google Cloud
  • MIGRATION_ID: השם או המזהה של ההעברה של Dataproc Metastore.

הצגת רשימה של העברות

רשימה של מיגרציות מנוהלות.

המסוף

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore.

  2. בראש הדף, לוחצים על העברת נתונים.

    ייפתח הדף העברת נתונים ויוצגו בו ההעברות המנוהלות שלכם.

  3. מוודאים שהפקודה מציגה את ההעברות.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -X GET \
   https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

מחליפים את מה שכתוב בשדות הבאים:

  • SERVICE: השם או המזהה של שירות Dataproc Metastore.
  • PROJECT_ID: מזהה הפרויקט שבו נמצא שירות Dataproc Metastore. Google Cloud
  • LOCATION: האזור שבו נמצא שירות Dataproc Metastore. Google Cloud

מחיקת העברות

מחיקת העברות מנוהלות.

המסוף

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore.

  2. בראש הדף, לוחצים על העברת נתונים.

    ייפתח הדף העברת נתונים ויוצגו בו ההעברות המנוהלות שלכם.

  3. בוחרים את ההעברה ולוחצים על מחיקה.

REST

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
   -X DELETE \
    https://metastore.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/services/SERVICE/migrationExecutions/MIGRATION_ID

מחליפים את מה שכתוב בשדות הבאים:

  • SERVICE: השם או המזהה של שירות Dataproc Metastore.
  • PROJECT_ID: מזהה הפרויקט שבו נמצא שירות Dataproc Metastore. Google Cloud
  • LOCATION: האזור שבו נמצא שירות Dataproc Metastore. Google Cloud
  • MIGRATION_ID: השם או המזהה של ההעברה של Dataproc Metastore.

המאמרים הבאים