במקום להריץ תהליך עבודה באשכול מנוהל, אפשר להשתמש בכלי לבחירת אשכול כדי לבחור אשכול קיים לתהליך העבודה. בסיום תהליך העבודה, האשכול שנבחר לא נמחק.
הסלקטורים מציינים תווית משתמש של Dataproc אחת או יותר. אפשר להריץ משימות של זרימת עבודה באשכולות שנמצאים באותו אזור כמו זרימת העבודה, אם התוויות שלהם תואמות לכל התוויות של הסלקטור. אם כמה אשכולות תואמים לסלקטור, Dataproc יבחר את האשכול עם הכי הרבה זיכרון YARN פנוי.
הוספת בורר אשכולות לתבנית
אפשר להוסיף בורר אשכול לתבנית של תהליך עבודה באמצעות Google Cloud CLI או Dataproc API.
פקודת gcloud
gcloud dataproc workflow-templates set-cluster-selector template-id \ --region=region \ --cluster-labels=name=value[[,name=value]...]
API ל-REST
מידע נוסף זמין במאמר בנושא WorkflowTemplatePlacement.ClusterSelector. השדה הזה מסופק כחלק מWorkflowTemplate שהושלם ונשלח עם בקשת workflowTemplates.create או workflowTemplates.update.המסוף
אפשר לראות תבניות קיימות של תהליכי עבודה ותהליכי עבודה שיצרתם בדף Workflows ב-Dataproc ב- Google Cloud console.
שימוש בתוויות שמוחלות באופן אוטומטי
אפשר להפנות את הכלי לבחירת אשכולות לאשכול קיים באמצעות אחת מתוויות האשכולות שמוחלות באופן אוטומטי:
goog-dataproc-cluster-namegoog-dataproc-cluster-uuid
לדוגמה:
gcloud dataproc workflow-templates set-cluster-selector template-id \ --region=region \ --cluster-labels=goog-dataproc-cluster-name=my-cluster
בחירה מתוך מאגר של אשכולות
אתם יכולים לאפשר ל-Dataproc לבחור אשכול מתוך מאגר של אשכולות. אפשר להגדיר את מאגרי האשכולות באמצעות תוויות.
לדוגמה:
gcloud dataproc clusters create cluster-1 --labels cluster-pool=pool-1 \ --region=region gcloud dataproc clusters create cluster-2 --labels cluster-pool=pool-1 \ --region=region gcloud dataproc clusters create cluster-3 --labels cluster-pool=pool-2 \ --region=region
אחרי יצירת האשכול ...
gcloud dataproc workflow-templates create my-template \ --region=region gcloud dataproc workflow-templates set-cluster-selector my-template \ --region=region \ --cluster-labels=cluster-pool=pool-1
תהליך העבודה יופעל באשכול 1 או באשכול 2, אבל לא באשכול 3.