Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

מעקב אחרי מכונות וירטואליות של TPU

במדריך הזה מוסבר איך להשתמש ב-Cloud Monitoring כדי לעקוב אחרי מכונות וירטואליות של TPU. ‫Cloud Monitoring אוסף באופן אוטומטי מדדים ויומנים מה-TPU וממכונת המארח שלו. אפשר להשתמש בנתונים האלה כדי לעקוב אחרי התקינות של TPU ו-Compute Engine.

מדדים מאפשרים לכם לעקוב אחרי כמות מספרית לאורך זמן, לדוגמה, ניצול מעבד (CPU), שימוש ברשת או משך הזמן שבו TensorCore היה בלי פעילות. היומנים מתעדים אירועים בנקודת זמן ספציפית. רשומות ביומן נכתבות על ידי הקוד שלכם, Google Cloud שירותים, אפליקציות של צד שלישי והתשתית שלGoogle Cloud . אפשר גם ליצור מדדים מהנתונים שמופיעים ברשומה ביומן על ידי יצירת מדד מבוסס-יומן. אפשר גם להגדיר מדיניות התראות על סמך ערכי מדדים או רשומות ביומן.

כדי לעקוב אחרי יחידות TPU, אפשר גם להשתמש ב-Capacity Planner ‏(תצוגה מקדימה). בעזרת Capacity Planner, אתם יכולים לראות את נתוני השימוש ב-TPU ואת נתוני התחזיות של הפרויקט, התיקייה או הארגון שלכם. הנתונים האלה מתעדכנים כל 24 שעות, ואפשר להשתמש בהם כדי לנתח את מגמות השימוש ולתכנן את צורכי הקיבולת העתידיים. מידע נוסף מופיע במאמר סקירה כללית על Capacity Planner.

גישה למדדי TPU

‫Compute Engine יוצר שני סוגים של מדדי TPU: מדדי זמן ריצה של TPU ומדדי תשתית של מכונות TPU. יש שתי דרכים לקבל את המדדים:

‫TPU Monitoring Library: אפשר לקבל מדדי זמן ריצה של TPU מ-LibTPU SDK באמצעות TPU Monitoring Library. כך האפליקציות יכולות לקבל טלמטריה בזמן אמת מתוך סביבת האורח. מידע נוסף זמין במאמר ספריית מעקב אחרי TPU.
AI Telemetry Collector: אפשר לקבל מדדי זמן ריצה ומדדי תשתית של מכונות וירטואליות באמצעות AI Telemetry Collector. הכלי לאיסוף טלמטריה של AI פועל בתוך מכונת ה-TPU הווירטואלית ומאפשר לכם לגשת למדדים דרך Cloud Monitoring או דרך צינור מעקב משלכם שמבוסס על Prometheus. מידע נוסף זמין במאמר בנושא AI Telemetry Collector.

מדדי TPU

מדדים של Cloud TPU נוצרים באופן אוטומטי על ידי מכונות וירטואליות של Compute Engine וזמן הריצה של Cloud TPU.Google Cloud המדדים בטבלה הבאה נוצרים על ידי מכונות וירטואליות ב-Compute Engine.

לפני המחרוזות של 'סוג המדד' בטבלה הזו צריך להוסיף את הקידומת compute.googleapis.com/. הקידומת הזו הושמטה מהערכים בטבלה. כשמריצים שאילתה על תווית, משתמשים בקידומת metric.labels. לדוגמה, metric.labels.LABEL="VALUE".

סוג המדד ^{שלב ההשקה} (רמות בהיררכיית המשאבים) שם לתצוגה
סוג, יחידה משאבים במעקב	תיאור תוויות
`instance/tpu/accelerator/duty_cycle` ^בטא *(פרויקט)* מחזור הפעילות של המאיץ
`GAUGE`, `DOUBLE`, `%` gce_instance	אחוז הזמן במהלך תקופת הדגימה שבו המאיץ עיבד באופן פעיל. הערכים הם בטווח [0,100]. ‫ `accelerator_id`: מזהה המכשיר של המאיץ.
`instance/tpu/accelerator/memory_bandwidth_utilization` ^בטא *(project)* ניצול רוחב הפס של הזיכרון של המאיץ
`GAUGE`, `DOUBLE`, `%` gce_instance	אחוז השימוש הנוכחי ברוחב הפס של זיכרון המאיץ. החישוב מתבצע על ידי חלוקת רוחב הפס של הזיכרון שנעשה בו שימוש במהלך תקופת דגימה ברוחב הפס המקסימלי הנתמך במהלך אותה תקופת דגימה. ‫ `accelerator_id`: מזהה המכשיר של המאיץ.
`instance/tpu/accelerator/memory_total` ^בטא *(פרויקט)* Accelerator Memory Total
`GAUGE`, `INT64`, `By` gce_instance	הזיכרון הכולל של המאיץ שהוקצה כרגע בבייטים. ‫ `accelerator_id`: מזהה המכשיר של המאיץ.
`instance/tpu/accelerator/memory_used` ^בטא *(פרויקט)* הזיכרון שנעשה בו שימוש ב-Accelerator
`GAUGE`, `INT64`, `By` gce_instance	סך הזיכרון של המאיץ שנעשה בו שימוש כרגע בבייטים. ‫ `accelerator_id`: מזהה המכשיר של המאיץ.
`instance/tpu/accelerator/tensorcore_utilization` ^בטא *(פרויקט)* השימוש ב-TensorCore של המאיץ
`GAUGE`, `DOUBLE`, `%` gce_instance	האחוז הנוכחי של ליבות Tensor בשימוש. החישוב מתבצע על ידי חלוקת מספר הפעולות של Tensorcore שבוצעו במהלך תקופת דגימה במספר הפעולות הנתמכות של Tensorcore במהלך אותה תקופת דגימה. ‫ `accelerator_id`: מזהה המכשיר של המאיץ.
`instance/tpu/active_chips` ^בטא *(פרויקט)* מספר שבבי TPU פעילים
`GAUGE`, `INT64`, `1` gce_instance	המספר הנוכחי של שבבים שנמצאים בשימוש פעיל (כלומר, לא במצב המתנה). ‫ `accelerator_type`: סוג המאיץ והדור שלו. ‫ `reservation_id`: המזהה של ההזמנה של המכונה הפיזית. `provisioning_model`: מודל הקצאת ההרשאות המשויך. `protection_tier`: מודל ההגנה המשויך. ‫ `block_id`: המזהה של הבלוק בתוך האשכול שמארח את המכונה הווירטואלית. ‫ `subblock_id`: המזהה של תת-הבלוק שמארח את המכונה הווירטואלית. ‫ `is_exr`: (BOOL) מציין אם הצ'יפ הוא חלק מהזמנה מורחבת.
`instance/tpu/chip_state` ^בטא *(פרויקט)* TPU Chip State Count
`GAUGE`, `INT64`, `1` gce_instance	מספר שבבי ה-TPU בסטטוסים שונים, כמו תקין, לא תקין ולא ידוע. `state`: מצב הצ'יפ. ‫ `accelerator_type`: סוג המאיץ והדור שלו. ‫ `block_id`: המזהה של הבלוק בתוך האשכול שמארח את המכונה הווירטואלית. ‫ `subblock_id`: המזהה של תת-הבלוק שמארח את המכונה הווירטואלית. ‫ `reservation_id`: המזהה של ההזמנה של המכונה הפיזית. ‫ `is_exr`: (BOOL) מציין אם הצ'יפ הוא חלק מהזמנה מורחבת.
`instance/tpu/infra_health` ^בטא *(פרויקט)* תקינות של מופע TPU
`GAUGE`, `INT64`, `1` gce_instance	מציין את סטטוס הבריאות הכללי של מופע TPU. תוויות המדדים עוזרות לזהות את סטטוס הבריאות הספציפי ואת הסיבות לבעיות במופעי TPU שהביצועים שלהם ירודים או שהם לא תקינים. המדדים מתמקדים בעיקר בחומרה של TPU ובבריאות המערכת. יכולות לחלוף כמה דקות עד שהשינויים בסטטוס התקינות ישתקפו במדד הזה. המדדים נדגמים כל 60 שניות. אחרי הדגימה, הנתונים לא מוצגים למשך עד 420 שניות. ‫ `health_status`: מצב התקינות הכללי של מופע ה-TPU. ערכים אפשריים: תקין (פועל כצפוי), לא תקין (זוהתה בעיה קריטית), ירוד (בעיה שמשפיעה על הביצועים), לא ידוע (לא ניתן לקבוע את הסטטוס). ‫ `unhealthy_category`: הסבר על הסטטוס הלא תקין של המכונה הווירטואלית. התווית הזו מאוכלסת רק כשהערך של המדד הוא 'לא תקין'. `machine_type`: סוג המכונה של המופע (לדוגמה, ct6e-standard-4t-tpu). ‫ `machine_id`: המזהה של המכונה הפיזית שמארחת את המכונה הווירטואלית. ‫ `block_id`: המזהה של הבלוק בתוך האשכול שמארח את המכונה הווירטואלית. ‫ `cluster_id`: המזהה של האשכול שמארח את המכונה הווירטואלית. ‫ `reservation_id`: המזהה של ההזמנה של המכונה הפיזית. ‫ `subblock_id`: המזהה של תת-הבלוק שמארח את המכונה הווירטואלית.
`instance/tpu/runtime/uptime` ^בטא *(פרויקט)* זמן פעולה רציפה (Uptime)
`GAUGE`, `INT64`, `s` gce_instance	זמן הפעולה של סביבת זמן הריצה של למידת המכונה מאז ההפעלה של ספריית זמן הריצה (libtpu.so) על ידי משימת למידת המכונה. במהלך התקופה הזו, ספריית זמן הריצה חוסמת את מכשירי ה-TPU לשימוש על ידי משימת ה-ML. ‫ `ml_framework_name`: שם ה-framework של למידת המכונה. ‫ `ml_framework_version`: גרסת מסגרת ה-ML.
`instance/tpu/scheduled_chips` ^בטא *(פרויקט)* מספר שבבי TPU מתוזמנים
`GAUGE`, `INT64`, `1` gce_instance	המספר הנוכחי של צ'יפים שהוקצו למכונה וירטואלית במצב תקין (HEALTHY) ושלא הושבתו לצורך תחזוקה. ‫ `accelerator_type`: סוג המאיץ והדור שלו. ‫ `reservation_id`: המזהה של ההזמנה של המכונה הפיזית. `provisioning_model`: מודל הקצאת ההרשאות המשויך. `protection_tier`: מודל ההגנה המשויך. ‫ `block_id`: המזהה של הבלוק בתוך האשכול שמארח את המכונה הווירטואלית. ‫ `subblock_id`: המזהה של תת-הבלוק שמארח את המכונה הווירטואלית. ‫ `is_exr`: (BOOL) מציין אם הצ'יפ הוא חלק מהזמנה מורחבת.
`instance/tpu/utilized_chips` ^בטא *(פרויקט)* שבבי TPU בשימוש
`GAUGE`, `DOUBLE`, `1` gce_instance	הקיבולת הכוללת הנוכחית שנעשה בה שימוש, שמוצגת כמספר אפקטיבי של שבבים פעילים. הוא שווה לסכום של ניצול השברים (0.0 עד 1.0) של כל השבבים הפעילים. ‫ `accelerator_type`: סוג המאיץ והדור שלו. ‫ `reservation_id`: המזהה של ההזמנה של המכונה הפיזית. `provisioning_model`: מודל הקצאת ההרשאות המשויך. `protection_tier`: מודל ההגנה המשויך. ‫ `block_id`: המזהה של הבלוק בתוך האשכול שמארח את המכונה הווירטואלית. ‫ `subblock_id`: המזהה של תת-הבלוק שמארח את המכונה הווירטואלית. ‫ `is_exr`: (BOOL) מציין אם הצ'יפ הוא חלק מהזמנה מורחבת.
`quota/tpus_per_tpu_family/exceeded` ^אלפא *(פרויקט)* מספר יחידות ה-TPU לכל משפחת TPU. חריגה מהמכסה
`DELTA`, `INT64`, `1` compute.googleapis.com/Location	מספר הניסיונות לחרוג מהמגבלה של מדד הקווטה compute.googleapis.com/tpus_per_tpu_family. אחרי הדגימה, הנתונים לא גלויים למשך עד 150 שניות. ‫ `limit_name`: שם המגבלה. ‫ `tpu_family`: מאפיין מותאם אישית של משפחת TPU.
`quota/tpus_per_tpu_family/limit` ^אלפא *(פרויקט)* מכסת יחידות ה-TPU לכל משפחת TPU.
`GAUGE`, `INT64`, `1` compute.googleapis.com/Location	המכסה הנוכחית במדד המכסה compute.googleapis.com/tpus_per_tpu_family. המדדים נדגמים כל 60 שניות. אחרי הדגימה, הנתונים לא גלויים למשך עד 150 שניות. ‫ `limit_name`: שם המגבלה. ‫ `tpu_family`: מאפיין מותאם אישית של משפחת TPU.
`quota/tpus_per_tpu_family/usage` ^אלפא *(פרויקט)* מספר יחידות ה-TPU לכל משפחת TPU. ניצול המכסה
`GAUGE`, `INT64`, `1` compute.googleapis.com/Location	השימוש הנוכחי במדד המכסה compute.googleapis.com/tpus_per_tpu_family. אחרי הדגימה, הנתונים לא גלויים למשך עד 150 שניות. ‫ `limit_name`: שם המגבלה. ‫ `tpu_family`: מאפיין מותאם אישית של משפחת TPU.
`tpu/multislice/accelerator/device_to_host_transfer_latencies` ^בטא *(פרויקט)* זמני האחזור של העברת נתונים ממכשיר למארח
`CUMULATIVE`, `DISTRIBUTION`, `us` gce_instance	התפלגות מצטברת של זמן האחזור של העברת נתונים מהמכשיר למארח עבור כל נתח נתונים. השהייה מתחילה כשמוציאים בקשה להעברת נתונים למארח, ומסתיימת כשמתקבל אישור שהעברת הנתונים הושלמה. ‫ `buffer_size`: גודל המאגר.
`tpu/multislice/accelerator/host_to_device_transfer_latencies` ^בטא *(project)* Host to Device Transfer Latencies
`CUMULATIVE`, `DISTRIBUTION`, `us` gce_instance	התפלגות מצטברת של זמן האחזור של העברת נתונים ממארח למכשיר עבור כל נתח נתונים של תנועת נתונים מרובת-פרוסות. השהייה מתחילה כשמוציאים את הבקשה להעברת הנתונים למכשיר, ומסתיימת כשמתקבל אישור שהעברת הנתונים הסתיימה. ‫ `buffer_size`: גודל המאגר.
`tpu/multislice/network/collective_end_to_end_latencies` ^בטא *(פרויקט)* זמני האחזור הכוללים מקצה לקצה
`CUMULATIVE`, `DISTRIBUTION`, `us` gce_instance	התפלגות מצטברת של השהייה הכוללת מקצה לקצה עבור תנועה מרובת פרוסות. השיהוי מתחיל כשמוציאים את הבקשה לאוסף ומסתיים כשמתקבל אישור שהעברת הנתונים הסתיימה. ‫ `input_size`: גודל הקלט של הפעולה הקולקטיבית. ‫ `collective_type`: סוג הפעולה הקולקטיבית.
`tpu/multislice/network/dcn_transfer_latencies` ^בטא *(פרויקט)* זמני האחזור של העברת DCN
`CUMULATIVE`, `DISTRIBUTION`, `us` gce_instance	התפלגות מצטברת של השהיות בהעברת נתונים ברשת עבור תנועה מרובת פרוסות. השהייה מתחילה כשמוציאים בקשה להעברת נתונים דרך ה-DCN ומסתיימת כשמתקבל אישור שהעברת הנתונים הושלמה. ‫ `buffer_size`: גודל המאגר. `type`: סוג.
`tpu/multislice/network/grpc_client_call_latencies` ^בטא *(פרויקט)* זמני האחזור של קריאות ללקוח gRPC
`CUMULATIVE`, `DISTRIBUTION`, `us` gce_instance	התפלגות מצטברת של השהיות בהעברת נתונים ברשת שנדרשות לספריית gRPC כדי להשלים RPC מנקודת המבט של המתקשר. ‫ `buffer_size`: גודל המאגר.
`tpu/multislice/network/grpc_server_call_latencies` ^בטא *(פרויקט)* זמני האחזור של קריאות לשרת gRPC
`CUMULATIVE`, `DISTRIBUTION`, `us` gce_instance	התפלגות מצטברת של השהיות בהעברת נתונים ברשת עבור שרת gRPC להשלמת קריאה לשירות מרוחק (RPC) מנקודת מבט של שכבת התעבורה. ‫ `buffer_size`: גודל המאגר.
`tpu/multislice/network/grpc_tcp_delivery_rates` ^בטא *(project)* שיעורי המסירה של TCP ב-gRPC
`CUMULATIVE`, `DISTRIBUTION`, `Mb/s` gce_instance	התפלגות מצטברת של שיעורי העברת הנתונים בחיבורי TCP. כל דגימה היא קצב העברת הנתונים הממוצע האחרון עבור חיבור TCP נתון במהלך מרווח ה-TCP ACK האחרון. דגימות של קצב העברת הנתונים נלקחות מליבת ה-TCP של Linux כל 20 שניות, ולכן אפשר לצפות שכל חיבור TCP ייצור בערך 3 דגימות לכל פרק זמן של 60 שניות.
`tpu/multislice/network/grpc_tcp_min_round_trip_times` ^בטא *(project)* gRPC TCP Min Round Trip Times
`CUMULATIVE`, `DISTRIBUTION`, `us` gce_instance	התפלגות מצטברת של זמני אחזור מינימליים של העברת נתונים ברשת לכל חיבור TCP.
`tpu/multislice/network/grpc_tcp_packets_retransmitted_count` ^בטא *(פרויקט)* מספר המנות של TCP ב-gRPC שמועברות מחדש
`CUMULATIVE`, `INT64`, `1` gce_instance	המספר הכולל של חבילות הנתונים ששודרו מחדש.
`tpu/multislice/network/grpc_tcp_packets_sent_count` ^בטא *(project)* gRPC TCP Packets Sent Count
`CUMULATIVE`, `INT64`, `1` gce_instance	המספר הכולל של חבילות הנתונים שנשלחו באמצעות TCP.
`tpu/slice/capacity/available_chips` ^בטא *(פרויקט)* מספר שבבי ה-TPU הזמינים
‫`GAUGE`, `INT64`, `1` compute.googleapis.com/AcceleratorSlice	המספר הנוכחי של שבבי TPU בהזמנה מורחבת שזמינים באופן פעיל ומוכנים לשימוש. המדדים נדגמים כל 60 שניות. אחרי הדגימה, הנתונים לא מוצגים למשך עד 360 שניות. ‫ `accelerator_type`: סוג המאיץ והדור שלו. ‫ `reservation_id`: המזהה של ההזמנה של המכונה הפיזית. ‫ `block_id`: מזהה הבלוק שמשויך לפרוסה. ‫ `subblock_id`: מזהה תת-הבלוק שמשויך לפרוסה. `provisioning_model`: מודל הקצאת ההרשאות המשויך. `protection_tier`: מודל ההגנה המשויך.
`tpu/slice/capacity/committed_chips` ^בטא *(project)* Purchased TPU Chips Count
‫`GAUGE`, `INT64`, `1` compute.googleapis.com/AcceleratorSlice	המספר הנוכחי של שבבי TPU שנרכשו בהזמנה מורחבת. המדדים נדגמים כל 60 שניות. אחרי הדגימה, הנתונים לא מוצגים למשך עד 360 שניות. ‫ `accelerator_type`: סוג המאיץ והדור שלו. ‫ `reservation_id`: המזהה של ההזמנה של המכונה הפיזית. ‫ `block_id`: מזהה הבלוק שמשויך לפרוסה. ‫ `subblock_id`: מזהה תת-הבלוק שמשויך לפרוסה. `provisioning_model`: מודל הקצאת ההרשאות המשויך. `protection_tier`: מודל ההגנה המשויך.

רשימה מלאה של המדדים שנוצרים על ידי Compute Engine זמינה במאמר בנושא מדדים של Compute Engine.

AI Telemetry Collector

הכלי AI Telemetry Collector אוסף ומפרסם מדדי TPU במרחב השמות compute.googleapis.com עבור יחידות TPU שנוצרו באמצעות Compute Engine API. המדדים האלה הם מדדים מובנים של המערכת, שמאפשרים לראות את התקינות והביצועים.

ארכיטקטורת AI Telemetry Collector מתוכננת כ-OpenTelemetry (OTEL) Collector קל משקל ומיוחד. הוא משתמש בשני מקלטים עיקריים כדי לתעד נתונים:

‫TPU Runtime Receiver: אוסף מדדים של זמן ריצה ועומס עבודה (כמו מחזור פעילות ושימוש בזיכרון) ישירות מזמן הריצה של TPU כשעומס עבודה של למידת מכונה פעיל.
TPU Host Receiver: אוסף מדדים של ניצול החומרה, כמו TensorCore Utilization ו-Memory Bandwidth Utilization, ישירות מהמכשיר, בלי קשר לשאלה אם עומס העבודה פועל.

לאחר מכן, כלי האיסוף של טלמטריית ה-AI משתמש במעבדים כדי להחיל באופן אוטומטי תגי משאבים נדרשים (כמו project_id, ‏ instance_id ו-zone) ומייצא את הטלמטריה ישירות ל-Cloud Monitoring בצורה מאובטחת.

כלי איסוף הטלמטריה של AI מותקן מראש בתמונות של Ubuntu LTS שעברו אופטימיזציה ל-TPU מבית Google, והוא פועל אוטומטית כשהמכונה הווירטואלית מופעלת. כדי להשתמש בהגדרה הזו, צריך לציין את פרויקט התמונות הרשמי של מאיץ Google ואת המשפחה כשיוצרים מכונה וירטואלית של TPU או תבנית של הגדרות מכונה. אחרי שהמכונה הווירטואלית מופעלת, כלי איסוף הטלמטריה של AI שולח אוטומטית מדדים ללוחות הבקרה של Cloud Monitoring.

אם אתם יוצרים קובצי אימג' מותאמים אישית של מערכת הפעלה, אתם יכולים להשתמש ב-AI Telemetry Collector אחרי שמתקינים ומריצים את קובץ האימג' של ai-telemetry-collector Docker. מידע נוסף מופיע במאמר בנושא שימוש בתמונה מותאמת אישית של מערכת הפעלה.

הגדרות אישיות

הכלי לאיסוף טלמטריה של AI שולח מדדים באופן אוטומטי ללוחות בקרה של Cloud Monitoring, ולא נדרשים שלבי הגדרה נוספים. עם זאת, אפשר להגדיר את חבילת Snap או את תמונת Docker כדי להוסיף יעדי ייצוא חיצוניים, לשנות את מרווחי הזמן של איסוף המדדים ולכלול אפשרויות ניפוי באגים.

אפשר להחליף את הגדרות ברירת המחדל בקובץ הגדרה חדש, או לצרף קובץ הגדרה נוסף להגדרות ברירת המחדל הקיימות. כשמוסיפים הגדרות, מפתחות שלא קיימים כבר מתווספים, ומפתחות שכבר קיימים נמחקים. עם זאת, מערכים ורשימות לא מצטברים, ולכן רשימות חדשות צריכות לכלול גם ערכים קיימים וגם ערכים חדשים.

קובץ ה-YAML הבא מגדיר את הכלי לאיסוף טלמטריה מבוססת-AI לשליחת מדדים אל Prometheus, ערכת כלים בקוד פתוח למעקב אחר מערכות ולשליחת התראות. היא גם מפעילה את אפשרות הניפוי באגים, שמציגה מדדי הדפסה במסוף.

exporters:
  prometheus:
    endpoint: 0.0.0.0:8889

service:
  pipelines:
    metrics:
      exporters:
      -   prometheus # For more: https://prometheus.io/docs/introduction/overview/
      -   googlecloud # If you do not include this, you'll lose Google Cloud Monitoring
      -   debug # print metrics within the console

מערכת הפעלה שמוגדרת כברירת מחדל

אם אתם משתמשים בתמונות של Ubuntu LTS שעברו אופטימיזציה ל-TPU של Google, מריצים את פקודת Snap הבאה כדי להוסיף את קובץ ההגדרות החדש להגדרה הקיימת:

sudo snap set \
  ai-telemetry-collector \
  extra-flags="--config /home/username/additional-config.yaml"

כדי להחליף את ההגדרה הקיימת, משתמשים בדגל config-path במקום בדגל extra-flags:

sudo snap set \
  ai-telemetry-collector \
  config-path="/home/username/new-config.yaml"

הפקודה snap set אמורה להפעיל מחדש באופן אוטומטי את הכלי לאיסוף טלמטריה של AI. כדי לוודא שהאיסוף הופעל מחדש וההגדרות שלכם הוחלו בהצלחה, משתמשים בפקודה הבאה כדי לראות את היומנים:

sudo snap logs -f ai-telemetry-collector

מערכת הפעלה בהתאמה אישית

אם אתם משתמשים במערכת הפעלה בהתאמה אישית, מריצים את פקודת Docker הבאה כדי להוסיף את קובץ ההגדרות החדש להגדרה הקיימת:

# First apply the default configs via `--config=/etc/ai-telemetry-collector/config.yaml`
# Then apply your additional config by volume mount.

docker run --privileged --net=host                                                                   \
  -v <path>/additional-config.yaml:/etc/ai-telemetry-collector/additional-config.yaml \
  ai-telemetry-collector:latest                                                       \
  --config=/etc/ai-telemetry-collector/config.yaml                                    \
  --config=/etc/ai-telemetry-collector/additional-config.yaml

כדי להחליף את ההגדרה הקיימת, משתמשים בפקודת Docker הבאה:

# Mount a volume (your config file) to `/etc/ai-telemetry-collector/config.yaml`
# The binary automatically picks up this file.

docker run --privileged --net=host                                               \
  -v <path>/my-config.yaml:/etc/ai-telemetry-collector/config.yaml   \
  ai-telemetry-collector:latest

יומני ביקורת

שירותיGoogle Cloud יוצרים יומני ביקורת שבהם מתועדים אירועי גישה למשאבי Google Cloud ופעילויות אדמין שנעשות בהם. למידע נוסף, ראו יומני ביקורת של Compute Engine.