יצירת צינור נתונים

במדריך למתחילים הזה מוסבר איך:

  1. יוצרים מכונת Cloud Data Fusion.
  2. פריסת צינור לדוגמה שמסופק עם מכונת Cloud Data Fusion. הפייפליין מבצע את הפעולות הבאות:
    1. קורא קובץ JSON שמכיל נתונים של רבי מכר של NYT מ-Cloud Storage.
    2. מבצע טרנספורמציות בקובץ כדי לנתח ולנקות את הנתונים.
    3. טוען ל-BigQuery את הספרים שקיבלו את הדירוג הכי גבוה והוספו בשבוע האחרון, ושעלותם נמוכה מ-25$.

לפני שמתחילים

לפני שיוצרים צינור נתונים, צריך לבצע את השלבים הבאים.

הגדרת הפרויקט

  1. נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Enable the Cloud Data Fusion API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Enable the Cloud Data Fusion API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

התפקידים הנדרשים

כדי לקבל את ההרשאות שנדרשות ליצירת מופע של Cloud Data Fusion ולניהול צינורות, צריך לבקש מהאדמין להקצות לכם ב-IAM את התפקיד אדמין של Cloud Data Fusion (roles/datafusion.admin) בפרויקט. כדי לקרוא הסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.

כדי לוודא שלחשבון השירות שמוגדר כברירת מחדל ב-Compute Engine יש את ההרשאות שנדרשות להרצת משימה ב-Managed Service for Apache Spark, צריך לבקש מהאדמין להקצות לחשבון השירות שמוגדר כברירת מחדל ב-Compute Engine את תפקידי ה-IAM הבאים בפרויקט:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שהאדמין גם יוכל לתת לחשבון השירות שמוגדר כברירת מחדל ב-Compute Engine את ההרשאות שנדרשות באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

יצירת מכונת Cloud Data Fusion

  1. לוחצים על Create an instance (יצירת מופע).

    כניסה לדף Instances

  2. מזינים שם מכונה.
  3. מזינים תיאור למופע.
  4. מזינים את האזור שבו רוצים ליצור את המכונה.
  5. בוחרים את הגרסה של Cloud Data Fusion שרוצים להשתמש בה.
  6. בוחרים את המהדורה של Cloud Data Fusion.
  7. בגרסאות 6.2.3 ואילך של Cloud Data Fusion, בשדה Authorization בוחרים את Managed Service for Apache Spark service account שבו רוצים להשתמש להרצת צינור Cloud Data Fusion ב-Managed Service for Apache Spark. ערך ברירת המחדל, חשבון Compute Engine, נבחר מראש.
  8. לוחצים על יצירה. תהליך יצירת המכונה יימשך עד 30 דקות. בזמן שמכונת Cloud Data Fusion נוצרת, גלגל התקדמות מוצג לצד שם המכונה בדף Instances (מכונות). אחרי שהתהליך מסתיים, הסמל הופך לסימן וי ירוק ומציין שאפשר להתחיל להשתמש במופע.

כשמשתמשים ב-Cloud Data Fusion, משתמשים גם ב Google Cloud מסוף וגם בממשק האינטרנט הנפרד של Cloud Data Fusion.

  • במסוף Google Cloud , אפשר לבצע את הפעולות הבאות:

    • יצירת פרויקט במסוף Google Cloud
    • יצירה ומחיקה של מכונות Cloud Data Fusion
    • הצגת הפרטים של מכונת Cloud Data Fusion
  • בממשק האינטרנט של Cloud Data Fusion, אפשר להשתמש בדפים שונים, כמו Studio או Wrangler, כדי להשתמש בפונקציונליות של Cloud Data Fusion.

כדי לנווט בממשק של Cloud Data Fusion:

  1. נכנסים לדף Instances במסוף Google Cloud .

    כניסה לדף Instances

  2. בעמודה פעולות של המופע, לוחצים על הקישור הצגת המופע.
  3. בממשק האינטרנט של Cloud Data Fusion, משתמשים בחלונית הניווט הימנית כדי לעבור לדף הרצוי.

פריסת צינור עיבוד נתונים לדוגמה

צינורות לדוגמה זמינים דרך המרכז של Cloud Data Fusion, שמאפשר לכם לשתף צינורות, פלאגינים ופתרונות של Cloud Data Fusion שאפשר לעשות בהם שימוש חוזר.

  1. בממשק האינטרנט של Cloud Data Fusion, לוחצים על Hub.
  2. בחלונית הימנית, לוחצים על צנרת.
  3. לוחצים על צינור Cloud Data Fusion Quickstart.
  4. לוחצים על יצירה.
  5. בחלונית ההגדרות של Cloud Data Fusion Quickstart, לוחצים על Finish (סיום).
  6. לוחצים על התאמה אישית של הצינור.

    ייצוג חזותי של צינור עיבוד הנתונים מופיע בדף Studio, שהוא ממשק גרפי לפיתוח צינורות עיבוד נתונים לשילוב נתונים. תוספים זמינים לצינורות מפורטים בצד ימין, וצינור הנתונים מוצג באזור הראשי של בד הציור. כדי לעיין בצינור, מעבירים את הסמן מעל כל צומת בצינור ולוחצים על מאפיינים. בתפריט המאפיינים של כל צומת אפשר לראות את האובייקטים והפעולות שמשויכים לצומת.

  7. בתפריט שבפינה השמאלית העליונה, לוחצים על פריסה. בשלב הזה, הצינור נשלח אל Cloud Data Fusion. בקטע הבא במדריך למתחילים הזה תריצו את צינור העיבוד.

פריסת צינור עיבוד הנתונים

הצגת הפייפליין

הפייפליין שנפרס מופיע בתצוגת פרטי הפייפליין, שבה אפשר לבצע את הפעולות הבאות:

  • צפייה במבנה ובהגדרות של צינור עיבוד הנתונים.
  • מריצים את צינור עיבוד הנתונים באופן ידני או מגדירים לוח זמנים או טריגר.
  • הצגת סיכום של הפעלות היסטוריות של צינור עיבוד הנתונים, כולל זמני ביצוע, יומנים ומדדים.

העתקה של חשבון השירות

הפעלת הפייפליין

בתצוגת הפרטים של צינור הנתונים, לוחצים על Run כדי להפעיל את צינור הנתונים.

הרצת צינור עיבוד הנתונים

כשמריצים פייפליין, Cloud Data Fusion מבצע את הפעולות הבאות:

  1. הקצאת אשכול זמני של Managed Service for Apache Spark
  2. מפעיל את צינור עיבוד הנתונים באשכול באמצעות Apache Spark
  3. מחיקת האשכול

צפייה בתוצאות

אחרי כמה דקות, הצינור מסתיים. הסטטוס של הצינור משתנה לSucceeded ומוצג מספר הרשומות שעובדו בכל צומת.

ההרצה של צינור עיבוד הנתונים הושלמה

  1. עוברים אל ממשק האינטרנט של BigQuery.
  2. כדי לראות דוגמה של התוצאות, עוברים אל מערך הנתונים DataFusionQuickstart בפרויקט, לוחצים על הטבלה top_rated_inexpensive ומריצים שאילתה פשוטה. לדוגמה:

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    מחליפים את PROJECT_ID במזהה הפרויקט.

הצגת תוצאות

הסרת המשאבים

כדי לא לצבור חיובים לחשבון Google Cloud על המשאבים שבהם השתמשתם בדף הזה, פועלים לפי השלבים הבאים:

  1. מחיקת מערך הנתונים ב-BigQuery שאליו צינור הנתונים כתב במידע הזה.
  2. מוחקים את מכונת Cloud Data Fusion.

  3. אופציונלי: מוחקים את הפרויקט.

  1. במסוף Google Cloud , נכנסים לדף Manage resources.

    כניסה לדף Manage resources

  2. ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על Delete.
  3. כדי למחוק את הפרויקט, כותבים את מזהה הפרויקט בתיבת הדו-שיח ולוחצים על Shut down.

המאמרים הבאים