תרשימי משימות ב-Dataflow

ממשק המעקב של Dataflow מספק ייצוג גרפי של כל משימה: תרשים המשימה. גרף המשימות כולל גם סיכום של המשימה, יומן משימות ומידע על כל שלב בצינור.

כדי לראות את גרף העבודה של משימה:

במסוף Google Cloud , נכנסים לדף Dataflow‏ > Jobs.

מעבר לדף Jobs
בוחרים משרה.
לוחצים על הכרטיסייה תרשים משימות.

כברירת מחדל, בדף של תרשים העבודה מוצגת תצוגת התרשים. כדי לראות את גרף העבודה כטבלה, בJob steps view, בוחרים באפשרות Table view. תצוגת הטבלה מכילה את אותו מידע בפורמט שונה. התצוגה של הטבלה שימושית בתרחישים הבאים:

למשימה יש שלבים רבים, ולכן קשה לנווט בתרשים המשימה.
אתם רוצים למיין את שלבי העבודה לפי מאפיין ספציפי. לדוגמה, אפשר למיין את הטבלה לפי זמן בפועל כדי לזהות שלבים איטיים.

תצוגת תרשים

בתרשים של העבודה, כל טרנספורמציה בצינור מוצגת כתיבה. בתמונה הבאה מוצג גרף של עבודה עם שלוש טרנספורמציות: Read PubSub Events,‏ 5m Window ו-Write File(s).

צילום מסך של גרף העבודה בממשק המשתמש של המעקב

כל תיבה מכילה את הפרטים הבאים:

שם השינוי
סטטוס; אחד מהערכים הבאים:
- פועל: השלב פועל
- בתור: השלב בעבודת FlexRS נמצא בתור
- הושלם: השלב הסתיים בהצלחה
- Stopped: השלב הופסק כי העבודה הופסקה
- לא ידוע: השלב נכשל ולא דיווח על הסטטוס
- נכשל: השלב לא הושלם
השהיית נתונים
זמן בפועל
זמן אחזור מקסימלי של פעולה
מספר השלבים בעבודות שבהם מבוצע השלב הזה

אם שלב מייצג טרנספורמציה מורכבת, אפשר להרחיב את השלב כדי לראות את טרנספורמציות המשנה. כדי להרחיב את השלב, לוחצים על החץ הרחבת הצומת.

שינוי שמות

יש כמה דרכים שונות להשיג את שם הטרנספורמציה ב-Dataflow שמוצג בתרשים של משימת המעקב. שמות של טרנספורמציות משמשים במקומות שגלויים לכולם, כולל ממשק המעקב של Dataflow, קובצי יומן וכלי ניפוי באגים. אל תשתמשו בשמות של טרנספורמציות שכוללים פרטים אישיים מזהים (PII), כמו שמות משתמשים או שמות של ארגונים.

Java

אפשר להשתמש בשם שאתם מקצים ל-Dataflow כשמחילים את הטרנספורמציה. הארגומנט הראשון שמעבירים לשיטה apply הוא שם הטרנספורמציה.
מערכת Dataflow יכולה להסיק את שם הטרנספורמציה, או משם המחלקה, אם יוצרים טרנספורמציה בהתאמה אישית, או מהשם של אובייקט הפונקציה DoFn, אם משתמשים בטרנספורמציה מרכזית כמו ParDo.

Python

אפשר להשתמש בשם שאתם מקצים ל-Dataflow כשמחילים את הטרנספורמציה. אפשר להגדיר את שם הטרנספורמציה על ידי ציון הארגומנט label של הטרנספורמציה.
מערכת Dataflow יכולה להסיק את שם הטרנספורמציה, או משם המחלקה, אם יוצרים טרנספורמציה בהתאמה אישית, או מהשם של אובייקט הפונקציה DoFn, אם משתמשים בטרנספורמציה מרכזית כמו ParDo.

Go

אפשר להשתמש בשם שאתם מקצים ל-Dataflow כשמחילים את הטרנספורמציה. אפשר להגדיר את שם הטרנספורמציה על ידי ציון Scope.
מערכת Dataflow יכולה להסיק את שם הטרנספורמציה, או משם המבנה אם משתמשים ב-DoFn מבני, או משם הפונקציה אם משתמשים ב-DoFn פונקציונלי.

הצגת פרטי השלב

כשלוחצים על שלב בתרשים המשימה, בחלונית Step Info מוצגים פרטים נוספים על השלב. מידע נוסף זמין במאמר מידע על שלבי עבודה.

צווארי בקבוק

אם Dataflow מזהה צוואר בקבוק, בתרשים של העבודה מופיע סמל התראה בשלבים המושפעים. כדי לראות את הגורם לצוואר הבקבוק, לוחצים על השלב כדי לפתוח את החלונית 'פרטי השלב'. מידע נוסף זמין במאמר פתרון בעיות של צווארי בקבוק.

שני שלבים בעבודה עם התראות על צוואר בקבוק

דוגמאות לתרשימי משימות

בקטע הזה מוצג קוד לדוגמה של צינורות וגרפים של משימות שמתאימים לקוד.

תרשים בסיסי של משימה

קוד צינור עיבוד הנתונים:

Java

  // Read the lines of the input text.
  p.apply("ReadLines", TextIO.read().from(options.getInputFile()))
     // Count the words.
     .apply(new CountWords())
     // Write the formatted word counts to output.
     .apply("WriteCounts", TextIO.write().to(options.getOutput()));

Python

(
    pipeline
    # Read the lines of the input text.
    | 'ReadLines' >> beam.io.ReadFromText(args.input_file)
    # Count the words.
    | CountWords()
    # Write the formatted word counts to output.
    | 'WriteCounts' >> beam.io.WriteToText(args.output_path))

Go

  // Create the pipeline.
  p := beam.NewPipeline()
    s := p.Root()
  // Read the lines of the input text.
  lines := textio.Read(s, *input)
  // Count the words.
  counted := beam.ParDo(s, CountWords, lines)
  // Write the formatted word counts to output.
  textio.Write(s, *output, formatted)

תרשים המשימה:

תרשים הביצוע של צינור עיבוד נתונים של WordCount, כפי שמוצג בממשק המעקב של Dataflow.

איור 1: קוד צינור עיבוד הנתונים של WordCount מוצג עם תרשים הביצוע שנוצר בממשק המעקב של Dataflow.

תרשים של משימות עם טרנספורמציות מורכבות

טרנספורמציות מורכבות הן טרנספורמציות שמכילות כמה טרנספורמציות משנה מקוננות. בתרשים העבודות, אפשר להרחיב טרנספורמציות מורכבות. כדי להרחיב את הטרנספורמציה ולהציג את טרנספורמציות המשנה, לוחצים על החץ.

תרשים המשימות של צינור עיבוד נתונים של WordCount עם טרנספורמציית CountWords מורחבת כדי להציג את טרנספורמציות הרכיבים שלה. — איור 2: קוד צינור הנתונים של שלבי המשנה בטרנספורמציה CountWords. מוצג עם תרשים המשימות המורחב של כל צינור הנתונים.

בקוד של צינור הנתונים, אפשר להשתמש בקוד הבא כדי להפעיל את הטרנספורמציה המורכבת:

result = transform.apply(input);

כשמפעילים טרנספורמציות מורכבות באופן הזה, הקינון הצפוי מושמט והן עשויות להופיע בממשק המעקב של Dataflow במצב מורחב. יכול להיות שצינור עיבוד הנתונים יפיק גם אזהרות או שגיאות לגבי שמות ייחודיים ויציבים בזמן ההפעלה של צינור עיבוד הנתונים.

כדי להימנע מהבעיות האלה, צריך להפעיל את ההמרות באמצעות הפורמט המומלץ:

result = input.apply(transform);

תרשימי משימות ב-Dataflow קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

תצוגת תרשים

שינוי שמות

Java

Python

Go

הצגת פרטי השלב

צווארי בקבוק

דוגמאות לתרשימי משימות

תרשים בסיסי של משימה

Java

Python

Go

תרשים של משימות עם טרנספורמציות מורכבות

Java

Python

Go

המאמרים הבאים

תרשימי משימות ב-Dataflow