תכנון ויצירה של צינור עיבוד נתונים לשימוש חוזר

במדריך הזה מוסבר איך לבנות פייפליין לשימוש חוזר שקורא נתונים מ-Cloud Storage, מבצע בדיקות של איכות הנתונים וכותב ל-Cloud Storage.

לצינורות עיבוד נתונים לשימוש חוזר יש מבנה רגיל של צינור עיבוד נתונים, אבל אפשר לשנות את ההגדרה של כל צומת בצינור עיבוד הנתונים על סמך הגדרות שסופקו על ידי שרת HTTP. לדוגמה, צינור סטטי יכול לקרוא נתונים מ-Cloud Storage, להחיל טרנספורמציות ולכתוב לטבלת פלט ב-BigQuery. אם רוצים שהטרנספורמציה וטבלת הפלט של BigQuery ישתנו בהתאם לקובץ Cloud Storage שהצינור קורא, צריך ליצור צינור שאפשר להשתמש בו שוב.

מטרות

  • משתמשים בתוסף Cloud Storage Argument Setter כדי לאפשר לצינור עיבוד הנתונים לקרוא קלט שונה בכל הפעלה.
  • משתמשים בתוסף Cloud Storage Argument Setter כדי לאפשר לצינור לבצע בדיקות איכות שונות בכל הפעלה.
  • כתיבת נתוני הפלט של כל הרצה ל-Cloud Storage.

עלויות

במסמך הזה משתמשים ברכיבים הבאים של Google Cloud, והשימוש בהם כרוך בתשלום:

  • Cloud Data Fusion
  • Cloud Storage

כדי להעריך את ההוצאות בהתאם לתחזית השימוש שלכם, אתם יכולים להיעזר במחשבון העלויות.

משתמשים חדשים של Google Cloud ? יכול להיות שאתם זכאים לתקופת ניסיון בחינם.

לפני שמתחילים

  1. נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. מפעילים את ממשקי ה-API של Cloud Data Fusion,‏ Cloud Storage,‏ BigQuery ו-Dataproc.

    תפקידים שנדרשים להפעלת ממשקי API

    כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים

    הפעלת ממשקי ה-API

  7. יצירת מכונת Cloud Data Fusion

כשמשתמשים ב-Cloud Data Fusion, משתמשים גם ב Google Cloud מסוף וגם בממשק האינטרנט הנפרד של Cloud Data Fusion. במסוף Google Cloud , אתם יכולים ליצור פרויקט במסוף Google Cloud וליצור ולמחוק מכונות Cloud Data Fusion. בממשק האינטרנט של Cloud Data Fusion, אפשר להשתמש בתכונות של Cloud Data Fusion באמצעות הדפים השונים, כמו Pipeline Studio או Wrangler.

  1. נכנסים לדף Instances במסוף Google Cloud .

    פותחים את הדף Instances

  2. בעמודה פעולות של המופע, לוחצים על הקישור הצגת המופע. ממשק האינטרנט של Cloud Data Fusion נפתח בכרטיסייה חדשה בדפדפן.

פריסת הפלאגין Cloud Storage Argument Setter

  1. בממשק האינטרנט של Cloud Data Fusion, עוברים לדף Studio.

  2. בתפריט Actions (פעולות), לוחצים על GCS Argument Setter (הגדרת ארגומנטים של GCS).

קריאה מ-Cloud Storage

  1. בממשק האינטרנט של Cloud Data Fusion, עוברים לדף Studio.
  2. לוחצים על מקור ובוחרים באפשרות Cloud Storage. הצומת של מקור Cloud Storage מופיע בצינור.
  3. בצומת Cloud Storage, לוחצים על Properties (מאפיינים).

  4. מזינים שם בשדה Reference name.

  5. בשדה נתיב, מזינים ${input.path}. המאקרו הזה קובע מה יהיה נתיב הקלט של Cloud Storage בהרצות שונות של צינורות.

  6. בחלונית 'סכימת פלט' שמשמאל, מסירים את השדה offset מסכימת הפלט על ידי לחיצה על סמל האשפה בשורה של השדה offset.

  7. לוחצים על אימות ומתקנים את השגיאות.

  8. לוחצים על כדי לצאת מתיבת הדו-שיח Properties (מאפיינים).

טרנספורמציה של הנתונים

  1. בממשק האינטרנט של Cloud Data Fusion, עוברים לצנרת הנתונים בדף Studio.
  2. בתפריט הנפתח Transform (שינוי) , בוחרים באפשרות Wrangler.
  3. באזור העריכה של Pipeline Studio, גוררים חץ מהצומת Cloud Storage לצומת Wrangler.
  4. עוברים לצומת Wrangler בצינור הנתונים ולוחצים על Properties (מאפיינים).
  5. בשדה שם שדה להזנת קלט, מזינים body.
  6. בשדה Recipe, מזינים ${directives}. הפקודה מאקרו הזו קובעת מה יהיה היגיון השינוי בהרצות שונות של צינור עיבוד הנתונים.
  7. לוחצים על אימות ומתקנים את השגיאות.
  8. לוחצים על כדי לצאת מתיבת הדו-שיח Properties (מאפיינים).

כתיבה ל-Cloud Storage

  1. בממשק האינטרנט של Cloud Data Fusion, עוברים לצנרת הנתונים בדף Studio.
  2. בתפריט הנפתח Sink, בוחרים באפשרות Cloud Storage.
  3. באזור העריכה של Pipeline Studio, גוררים חץ מהצומת Wrangler לצומת Cloud Storage שהוספתם.
  4. עוברים לצומת של יעד Cloud Storage בצינור הנתונים ולוחצים על מאפיינים.
  5. מזינים שם בשדה Reference name.
  6. בשדה נתיב, מזינים את הנתיב של קטגוריה של Cloud Storage בפרויקט, שצינור עיבוד הנתונים יכול לכתוב אליה את קובצי הפלט. אם אין לכם קטגוריה של Cloud Storage, צרו אחת.
  7. לוחצים על אימות ומתקנים את השגיאות.
  8. לוחצים על כדי לצאת מתיבת הדו-שיח Properties (מאפיינים).

הגדרת הארגומנטים של המאקרו

  1. בממשק האינטרנט של Cloud Data Fusion, עוברים לצנרת הנתונים בדף Studio.
  2. בתפריט הנפתח Conditions and Actions (תנאים ופעולות), לוחצים על GCS Argument Setter (הגדרת ארגומנטים של GCS).
  3. באזור העריכה של Pipeline Studio, גוררים חץ מהצומת Cloud Storage Argument Setter אל הצומת source של Cloud Storage.
  4. עוברים לצומת Cloud Storage Argument Setter בצינור הנתונים ולוחצים על Properties (מאפיינים).
  5. בשדה כתובת URL, מזינים את כתובת ה-URL הבאה:

    gs://reusable-pipeline-tutorial/args.json
    

    כתובת ה-URL תואמת לאובייקט שנגיש לכולם ב-Cloud Storage ומכיל את התוכן הבא:

    {
      "arguments" : [
        {
          "name": "input.path",
          "value": "gs://reusable-pipeline-tutorial/user-emails.txt"
        },
        {
          "name": "directives",
          "value": "send-to-error !dq:isEmail(body)"
        }
      ]
    }
    

    הארגומנט הראשון מבין השניים הוא הערך של input.path. הנתיב gs://reusable-pipeline-tutorial/user-emails.txt הוא אובייקט שנגיש לכולם ב-Cloud Storage ומכיל את נתוני הבדיקה הבאים:

    alice@example.com
    bob@example.com
    craig@invalid@example.com
    

    הארגומנט השני הוא הערך של directives. הערך send-to-error !dq:isEmail(body) מגדיר את Wrangler כך שיסנן את כל השורות שלא מכילות כתובת אימייל תקינה. לדוגמה, craig@invalid@example.com מסונן.

  6. לוחצים על אימות כדי לוודא שאין שגיאות.

  7. לוחצים על כדי לצאת מתיבת הדו-שיח Properties (מאפיינים).

פריסה והפעלה של צינור עיבוד הנתונים

  1. בסרגל העליון של הדף Pipeline Studio, לוחצים על Name your pipeline (מתן שם לצינור). נותנים שם לצינור ולוחצים על שמירה.

  2. לוחצים על פריסה.

  3. כדי לפתוח את Runtime Arguments (ארגומנטים של זמן ריצה) ולהציג את המאקרו (זמן ריצה) input.path ואת הארגומנטים של directives, לוחצים על התפריט הנפתח לצד Run (הפעלה).

    משאירים את שדות הערכים ריקים כדי להודיע ל-Cloud Data Fusion שהצומת Cloud Storage Argument Setter בצינור יגדיר את הערכים של הארגומנטים האלה במהלך זמן הריצה.

  4. לוחצים על Run.

הסרת המשאבים

כדי להימנע מחיובים בחשבון Google Cloud בגלל השימוש במשאבים שנעשה במסגרת המדריך הזה, אפשר למחוק את הפרויקט שמכיל את המשאבים, או להשאיר את הפרויקט ולמחוק את המשאבים בנפרד.

בסיום המדריך, חשוב להסיר את המשאבים שיצרתם ב-Google Cloud כדי שלא יתפסו מכסה ולא תחויבו עליהם בעתיד. בסעיפים הבאים מוסבר איך למחוק או להשבית את המשאבים האלו.

מחיקת מכונת Cloud Data Fusion

פועלים לפי ההוראות למחיקת מכונת Cloud Data Fusion.

מחיקת הפרויקט

הדרך הקלה ביותר לבטל את החיוב היא למחוק את הפרויקט שיצרתם בשביל המדריך הזה.

כדי למחוק את הפרויקט:

  1. במסוף Google Cloud , נכנסים לדף Manage resources.

    כניסה לדף Manage resources

  2. ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על Delete.
  3. כדי למחוק את הפרויקט, כותבים את מזהה הפרויקט בתיבת הדו-שיח ולוחצים על Shut down.

המאמרים הבאים