תזמון איסוף נתונים מ-TPU לעומסי עבודה של הסקת מסקנות

‫Trillium (v6e) כולל תכונה שנקראת "תזמון איסוף" שמאפשרת לקבץ קבוצה של פרוסות TPU, עם מארח יחיד או כמה מארחים, שמיועדות להצגת רפליקות של אותו מודל. התכונה הזו זמינה גם ב-Cloud TPU וגם בהגדרות של Google Kubernetes Engine ‏ (GKE).

במסמך הזה מוסבר איך להשתמש בתזמון איסוף עם Cloud TPU API. מידע נוסף על שימוש בתזמון איסוף נתונים ב-GKE מופיע במאמרי העזרה של GKE.

יצירת אוסף לעומס העבודה של ההסקה,Google Cloud מגבילה ומייעלת את ההפרעות לפעולות של עומסי עבודה של הסקה. האפשרות הזו שימושית לעומסי עבודה של הסקת מסקנות שבהם זמינות גבוהה היא שיקול חשוב. Google Cloud היא מבטיחה זמינות גבוהה לאוסף כדי לנהל את התנועה הנכנסת. חלק מהפרוסות באוסף תמיד זמין לטיפול בתנועה נכנסת.

לכל פרוסת TPU באוסף יהיו אותו סוג מאיץ וטופולוגיה.

יצירת אוסף מ-Cloud TPU API

כשמבקשים משאב בתור באמצעות Cloud TPU API, משתמשים בדגל --workload-type=AVAILABILITY-OPTIMIZED כדי ליצור אוסף. הדגל הזה מציין לתשתית Cloud TPU שהיא מיועדת לשימוש בעומסי עבודה שמתמקדים בזמינות.

הפקודה הבאה מספקת אוסף באמצעות Cloud TPU API:

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

הדגל --node-count מציין את מספר הפרוסות שרוצים במשאב שנמצא בתור. הפעולה הזו יוצרת אוסף של חלקי TPU.

אופציונלי: הדגל --node-prefix מציין קידומת לשמות של הפלחים.