שימוש בתובנות לגבי המערכת כדי לשפר את הביצועים שלה

בדף הזה מוסבר איך להשתמש במרכז הבקרה 'תובנות לגבי המערכת' ב-Cloud SQL. במרכז הבקרה System insights מוצגים מדדים של המשאבים שבהם נעשה שימוש במופע, והוא עוזר לכם לזהות ולנתח בעיות בביצועי המערכת.

אתם יכולים להשתמש ב-Gemini במסדי נתונים כדי לעקוב אחרי המשאבים שלכם ב-Cloud SQL ל-PostgreSQL ולפתור בעיות שקשורות אליהם. מידע נוסף זמין במאמר מעקב ופתרון בעיות בעזרת Gemini.

הצגת מרכז הבקרה System insights

כדי לראות את מרכז הבקרה System insights (תובנות לגבי המערכת):

  1. נכנסים לדף Cloud SQL Instances במסוף Google Cloud .

    כניסה לדף Cloud SQL Instances

  2. לוחצים על השם של המכונה.
  3. בחלונית הניווט של SQL בצד ימין, בוחרים בכרטיסייה תובנות לגבי המערכת.

מרכז הבקרה System insights ייפתח.

תמונה של לוח בקרה שמוצגים בה ציר זמן של אירועים וכרטיסי סיכום של מדדים.
איור 1. תמונה של לוח בקרה שרואים בה ציר זמן של אירועים וכרטיסי סיכום.

תמונה של לוח בקרה שבו מוצגים תרשימים של מדדי מפתח.
איור 2. תמונה של לוח בקרה שבו מוצגים תרשימים של מדדים עיקריים.

בלוח הבקרה 'תובנות לגבי המערכת' מוצג המידע הבא:

  1. פרטי המופע

  2. ציר זמן של אירועים: מציג את אירועי המערכת בסדר כרונולוגי. המידע הזה עוזר לכם להעריך את ההשפעה של אירועי המערכת על התקינות והביצועים של המופע.

  3. כרטיסי סיכום: בכרטיסים האלה מוצגת סקירה כללית של תקינות המופע והביצועים שלו. הם מציגים את הערכים האחרונים והמצטברים של מדדי ניצול המעבד, ניצול הדיסק ושגיאות ביומן.

  4. תרשימי מדדים: מציגים את המידע על מערכת ההפעלה ומדדי מסד הנתונים, שעוזרים לקבל תובנות לגבי כמה בעיות, כמו קצב העברת נתונים, זמן אחזור ועלות.

בלוח הבקרה מוצגות האפשרויות הבאות:

  • כדי להציג תרשים אחד או שניים בכל שורה. לוחצים על התאמה אישית של התצוגה כדי לבחור איך התרשימים האלה יוצגו. אפשר גם להשתמש באפשרות הזו כדי לבחור את המדדים שרוצים להציג בלוח הבקרה.
  • כדי שהמרכז לבקרה יהיה מעודכן, מפעילים את האפשרות רענון אוטומטי. כשמפעילים את האפשרות רענון אוטומטי, הנתונים במרכז הבקרה מתעדכנים כל דקה. התכונה הזו לא תואמת לתקופות זמן מותאמות אישית.

  • בורר הזמן מציג את האפשרות 1 day כברירת מחדל. כדי לשנות את התקופה, בוחרים אחת מהתקופות המוגדרות מראש או לוחצים על התאמה אישית ומגדירים שעת התחלה ושעת סיום. הנתונים זמינים מ-30 הימים האחרונים.

  • כדי ליצור קישור מוחלט למרכז הבקרה, לוחצים על הלחצן העתקת קישור. אפשר לשתף את הקישור הזה עם משתמשי Cloud SQL אחרים שיש להם את אותן הרשאות.

  • כדי ליצור התראה על אירוע ספציפי, לוחצים על התראה.

  • כדי להציג התראות ספציפיות, לוחצים על הערות.

כרטיסי סיכום

בטבלה הבאה מפורטים כרטיסי הסיכום שמוצגים בחלק העליון של מרכז השליטה 'תובנות לגבי המערכת'. בכרטיסים האלה מוצגת סקירה כללית קצרה של תקינות המופע והביצועים שלו במהלך תקופת הזמן שנבחרה.

כרטיס סיכוםתיאור
ניצול יחידת העיבוד המרכזית (CPU) – P99 | P50 ערכי השימוש במעבד (CPU) ב-P99 וב-P50 במהלך התקופה שנבחרה.
מספר החיבורים המקסימלי היחס בין מספר החיבורים בשיא לבין מספר החיבורים המקסימלי בתקופה שנבחרה. יכול להיות שמספר החיבורים בשיא יהיה גבוה ממספר החיבורים המקסימלי אם המספר המקסימלי השתנה לאחרונה, למשל בגלל שינוי גודל המופע או שינוי ידני של ההגדרה max_connections.
שימוש במזהה עסקה הערך העדכני ביותר של ניצול מזהה העסקה בתקופה שנבחרה.
ניצול הדיסק הערך האחרון של ניצול הדיסק.
שגיאות ביומן מספר השגיאות שהמשתמשים מתעדים.

תרשימי מדדים

כרטיס תרשים של מדד לדוגמה נראה כך.

תרשים שמציג נתונים לדוגמה של מדדים ב-Cloud SQL.
תרשים מדדים שבו מוצגים מדדי זמן האחזור של השאילתה.

סרגל הכלים בכל כרטיס תרשים כולל את קבוצת האפשרויות הסטנדרטית הבאה:

  • כדי לראות את ערכי המדדים בנקודת זמן ספציפית בתקופה שנבחרה, מזיזים את הסמן מעל התרשים.

  • כדי להתקרב לתרשים, לוחצים על התרשים וגוררים אופקית לאורך ציר ה-x או אנכית לאורך ציר ה-y. כדי לבטל את פעולת הזום, לוחצים על איפוס הזום. אפשר גם ללחוץ על אחד מפרקי הזמן המוגדרים מראש בחלק העליון של מרכז הבקרה. פעולות הזום חלות בו-זמנית על כל התרשימים בלוח הבקרה.

  • כדי לראות אפשרויות נוספות, לוחצים על אפשרויות נוספות של תרשימים. ברוב התרשימים מוצגות האפשרויות הבאות:

    • כדי להציג תרשים במסך מלא, לוחצים על הצגה במסך מלא. כדי לצאת ממצב מסך מלא, לוחצים על ביטול.

    • להסתיר או לכווץ את המקרא.

    • הורדה של תרשים כקובץ PNG או CSV.

    • View in Metrics Explorer (צפייה ב-Metrics Explorer). צפייה במדד ב-Metrics Explorer. אפשר לראות מדדים אחרים של Cloud SQL ב-Metrics Explorer אחרי שבוחרים את סוג המשאב Cloud SQL Database.

  • כדי ליצור מרכז בקרה בהתאמה אישית, לוחצים על התאמה אישית של מרכז הבקרה ונותנים לו שם. אפשרות נוספת: מרחיבים את התפריט מוגדר מראש ובוחרים מרכז שליטה קיים בהתאמה אישית.

  • כדי לראות את הנתונים של תרשים מדד בפירוט, לוחצים על ניתוח הנתונים. כאן אפשר לסנן מדדים ספציפיים ולבחור איך התרשים יוצג:

    תצוגה שניתנת להתאמה אישית של נתוני מדדים של Cloud SQL.

    כדי לשמור את התצוגה המותאמת הזו כתרשים מדדים, לוחצים על שמירה בלוח הבקרה.

מדדי ברירת המחדל

בטבלה הבאה מתוארים המדדים של Cloud SQL שמופיעים כברירת מחדל בלוח הבקרה של תובנות המערכת של Cloud SQL.

מחרוזות של סוגי מדדים מתחילות בקידומת הבאה: cloudsql.googleapis.com/database/.

כדי לראות את הזמינות של המדדים הבאים לפי שלב ההשקה האחרון, אפשר לעיין בGoogle Cloud מדדים.

שם המדד וסוג המדדתיאור
חיבורים חדשים בשנייה
postgresql/new_connection_count

הקצב של מספר החיבורים החדשים שאתם יוצרים במכונה של Cloud SQL ל-PostgreSQL, בכל שנייה. ‫Cloud SQL מחשב ומציג את המדד הזה לכל מסד נתונים.

המדד הזה זמין ב-PostgreSQL בגרסה 14 ואילך.

סוגים של אירועי המתנה
postgresql/backends_in_wait

מספר החיבורים לכל סוג של אירוע המתנה במכונת Cloud SQL ל-PostgreSQL.

אירועי המתנה
postgresql/backends_in_wait

מספר אירועי ההמתנה במופע Cloud SQL ל-PostgreSQL. לוח הבקרה מציג את המדד הזה כשם אירוע ההמתנה:סוג אירוע ההמתנה.

מספר העסקאות
postgresql/transaction_count

מספר העסקאות במצבים commit ו-rollback במופע Cloud SQL ל-PostgreSQL.

רכיבי זיכרון
memory/components

רכיבי הזיכרון שזמינים למסד הנתונים. הערך של כל רכיב זיכרון מחושב כאחוז מסך הזיכרון שזמין למסד הנתונים.

השהיית בייט מקסימלית של רפליקה
postgresql/external_sync/max_replica_byte_lag

השהיית השכפול המקסימלית (בבייטים) בין כל מסדי הנתונים ברפליקה של השרת החיצוני (ES).

זמן האחזור של השאילתה
postgresql/insights/aggregate/latencies

התפלגות זמן האחזור של השאילתות המצטברות לפי P99,‏ P95 ו-P50 לכל משתמש ומסד נתונים.

האפשרות הזו זמינה רק במופעים שבהם מופעלת תובנות לגבי שאילתות.

עומס על מסד הנתונים לפי מסד נתונים/משתמש/כתובת לקוח
postgresql/insights/aggregate/execution_time

זמן הביצוע המצטבר של השאילתה לכל מסד נתונים, משתמש או כתובת לקוח. זהו סכום הזמן של יחידת העיבוד המרכזית (CPU), זמן ההמתנה של קלט/פלט, זמן ההמתנה של נעילה, החלפת הקשר של התהליך ותזמון של כל התהליכים שקשורים להרצת השאילתה.

האפשרות הזו זמינה רק במופעים שבהם מופעלת תובנות לגבי שאילתות.

ניצול המעבד (CPU)
cpu/utilization

השימוש הנוכחי במעבד, שמוצג כאחוז מהמעבד ששמור כרגע בשימוש.

אחסון בדיסק לפי סוג
disk/bytes_used_by_data_type

פירוט השימוש בדיסק של המופע לפי סוגי נתונים, כולל data,‏ binlog ו-tmp_data.

המדד הזה עוזר להבין את עלויות האחסון. מידע נוסף על חיובים על שימוש בנפח אחסון זמין במאמר תמחור של אחסון ורשת.

שחזור לנקודת זמן (PITR) משתמש בארכיון של יומן פעולות (WAL). היומנים האלה מתעדכנים באופן קבוע ומשתמשים במקום אחסון. יומני רישום מראש נמחקים אוטומטית עם הגיבוי האוטומטי המשויך, בדרך כלל אחרי 7 ימים.

אם גודל יומני הרישום של פעולות הכתיבה גורם לבעיה במופע, אפשר להגדיל את גודל האחסון, אבל יכול להיות שהגידול בגודל יומני הרישום של פעולות הכתיבה בשימוש בדיסק יהיה זמני. כדי למנוע בעיות לא צפויות באחסון, Google ממליצה להפעיל הגדלות אוטומטיות של נפח האחסון כשמשתמשים ב-PITR.

כדי למחוק את היומנים ולשחזר את נפח האחסון, אפשר להשבית את שחזור מערכת מנקודה מסוימת בזמן (PITR). עם זאת, חשוב לזכור שאם מקטינים את נפח האחסון שבשימוש, נפח האחסון שהוקצה למופע לא יקטן.

נתונים זמניים נכללים במדד נפח האחסון הנדרש. נתונים זמניים מוסרים כחלק מהתחזוקה, ויכולים לחרוג ממגבלות הקיבולת שהוגדרו על ידי המשתמש כדי למנוע אירוע של דיסק מלא, ללא חיוב המשתמש.

מסד נתונים חדש שנוצר צורך בערך 100MB לטבלאות ולקבצים של המערכת.

אחסון בדיסק לפי סוג
disk/bytes_used_by_data_type

פירוט השימוש בדיסק של המופע לפי סוגי נתונים, כולל data,‏ binlog ו-tmp_data.

המדד הזה עוזר להבין את עלויות האחסון. מידע נוסף על חיובים על שימוש בנפח אחסון זמין במאמר תמחור של אחסון ורשת.

שחזור מערכת מנקודה מסוימת בזמן משתמש בארכיון של רישום פעולות ביומן (WAL). במקרים הבאים, היומנים לא יאוחסנו יותר בדיסק, אלא ב-Cloud Storage באותו אזור כמו המופעים: מופעי Cloud SQL חדשים שמופעלת בהם האפשרות לשחזור לנקודת זמן מסוימת, או מופעים קיימים שמופעלת בהם האפשרות לשחזור לנקודת זמן מסוימת אחרי שהתכונה הזו לאחסון יומני WAL ב-Cloud Storage זמינה.

כדי לבדוק אם היומנים של מופע מאוחסנים ב-Cloud Storage, בודקים את המדד bytes_used_by_data_type של המופע. אם הערך של סוג הנתונים archived_wal_log הוא 0, היומנים של המופע מאוחסנים ב-Cloud Storage.

כל המופעים הקיימים האחרים שמופעל בהם שחזור מערכת מנקודה מסוימת בזמן (PITR) ממשיכים לאחסן את היומנים שלהם בדיסק. השינוי לאחסון יומנים ב-Cloud Storage יהיה זמין במועד מאוחר יותר.

יומני ה-WAL שמשמשים לשחזור מערכת מנקודה מסוימת בזמן (PITR) נמחקים אוטומטית עם הגיבוי האוטומטי המשויך שלהם, בדרך כלל אחרי שהערך שמוגדר ל-transactionLogRetentionDays מתקיים. זהו מספר הימים של יומני העסקאות ש-Cloud SQL שומר לצורך שחזור מערכת מנקודה מסוימת בזמן (PITR), מ-1 עד 7.

במקרים שבהם יומני פעולות לכתיבה מראש מאוחסנים ב-Cloud Storage, היומנים מאוחסנים באותו אזור כמו המופע הראשי. אחסון היומנים הזה (עד שבעה ימים, האורך המקסימלי לשחזור מערכת מנקודה מסוימת בזמן) לא יוצר עלות נוספת לכל מופע.

אם במכונה שלכם מופעלת האפשרות לשחזור לנקודת זמן מסוימת, וגודל היומנים של פעולות הכתיבה בדיסק גורם לבעיה במכונה, כדאי להשבית את האפשרות לשחזור לנקודת זמן מסוימת ולהפעיל אותה מחדש כדי לוודא שהיומנים החדשים מאוחסנים ב-Cloud Storage באותו אזור שבו נמצאת המכונה. הפעולה הזו מוחקת את יומני הכתיבה מראש הקיימים, ולכן אי אפשר לבצע שחזור מערכת מנקודה מסוימת בזמן מוקדמת יותר מהזמן שבו הפעלתם מחדש את שחזור מערכת מנקודה מסוימת בזמן. עם זאת, למרות שהיומנים הקיימים נמחקים, גודל הדיסק נשאר ללא שינוי.

כדי למנוע בעיות אחסון בלתי צפויות, מומלץ להפעיל הגדלות אוטומטיות של נפח האחסון בכל המופעים כשמשתמשים בשחזור מערכת מנקודה מסוימת בזמן. ההמלצה הזו רלוונטית רק אם הפעלתם את האפשרות לשחזור מערכת מנקודה מסוימת בזמן (PITR) במופע שלכם, והיומנים מאוחסנים בדיסק.

כדי למחוק את היומנים ולשחזר את נפח האחסון, אפשר להשבית את שחזור מערכת מנקודה מסוימת בזמן (PITR). עם זאת, חשוב לזכור שצמצום היומנים של פעולות הכתיבה לא מקטין את גודל הדיסק שהוקצה למופע.

נתונים זמניים נכללים במדד נפח האחסון הנדרש. נתונים זמניים מוסרים כחלק מהתחזוקה, ויכולים לחרוג ממגבלות הקיבולת שהוגדרו על ידי המשתמש כדי למנוע אירוע של דיסק מלא, ללא חיוב המשתמש.

מסד נתונים חדש שנוצר צורך בערך 100MB לטבלאות ולקבצים של המערכת.

פעולות קריאה/כתיבה בדיסק
disk/read_ops_count, disk/write_ops_count

המדד 'מספר הקריאות' מציין את מספר פעולות הקריאה שמוצגות מהדיסק ולא מהמטמון. אתם יכולים להשתמש במדד הזה כדי להבין אם הגודל של המופע מתאים לסביבה שלכם. במקרה הצורך, אפשר לעבור לסוג מכונה גדול יותר כדי לטפל ביותר בקשות מהמטמון ולהקטין את זמן האחזור.

המדד 'מספר פעולות הכתיבה' מציין את מספר פעולות הכתיבה בדיסק. פעילות כתיבה נוצרת גם אם האפליקציה לא פעילה, כי מכונות Cloud SQL, למעט רפליקות, כותבות לטבלת מערכת בערך כל שנייה.

חיבורים לפי סטטוס
postgresql/num_backends_by_state

מספר החיבורים שמקובצים לפי הסטטוסים האלה: idle,‏ active,‏ idle_in_transaction,‏ idle_in_transaction_aborted,‏ disabled ו-fastpath_function_call.

מידע על הסטטוסים האלה מופיע בשורה state text במאמר pg_stat_activity.

חיבורים לכל מסד נתונים
postgresql/num_backends

מספר החיבורים שמוחזקים על ידי מופע מסד הנתונים.

בייטים של תעבורת נכנסת/יוצאת
network/received_bytes_count, network/sent_bytes_count

תעבורת הרשת במונחים של מספר הבייטים הנכנסים (בייטים שהתקבלו) והבייטים היוצאים (בייטים שנשלחו) אל המופע וממנו, בהתאמה.

פירוט של זמן ההמתנה של קלט/פלט לפי סוג
postgresql/insights/aggregate/io_time

פירוט של זמן ההמתנה של קלט/פלט להצהרות SQL לפי סוגי קריאה וכתיבה.

האפשרות הזו זמינה רק במופעים שבהם מופעלת תובנות לגבי שאילתות.

מספר הקיפאונות לפי מסד נתונים
postgresql/deadlock_count

מספר הקיפאונות לכל מסד נתונים.

חסימת מספר הקריאות
postgresql/blocks_read_count

מספר הבלוקים שנקראים בשנייה מהדיסק וממטמון המאגר.

שורות שעובדו לפי פעולה
postgresql/tuples_processed_count

מספר השורות שעובדו לכל פעולה לשנייה.

שורות במסד הנתונים לפי מצב
postgresql/tuple_size

מספר השורות לכל מצב של מסד הנתונים. ‫Cloud SQL מדווח על המדד הזה אם מספר מסדי הנתונים במכונה קטן מ-50.

העסקה הכי ישנה לפי גיל
postgresql/vacuum/oldest_transaction_age

הגיל של העסקה הכי ישנה שחוסמת את פעולת ה-vacuum.

העברה לארכיון של WAL
replication/log_archive_success_count, replication/log_archive_failure_count

מספר הקבצים של יומן כתיבה מראש שהועברו לארכיון בהצלחה או שלא בהצלחה בכל דקה.

השימוש במזהה העסקה
postgresql/transaction_id_utilization

אחוז מזהי העסקאות שנעשה בהם שימוש במופע.

מספר החיבורים לפי שם האפליקציה
postgresql/num_backends_by_application

מספר החיבורים למופע Cloud SQL, מקובצים לפי אפליקציות.

חיבורים ללא שם אפליקציה מקובצים כ-Unknown.

שורות שאוחזרו לעומת שורות שהוחזרו לעומת שורות שנכתבו
  • שורות שאוחזרו: postgresql/tuples_fetched_count
  • שורות שהוחזרו: postgresql/tuples_returned_count
  • שורות שנכתבו: postgresql/tuples_processed_count
  • המדד 'שורות שאוחזרו' הוא מספר השורות שאוחזרו כתוצאה משאילתות במופע.
  • הערך 'שורות שהוחזרו' הוא מספר השורות שנסרקו במהלך עיבוד השאילתות במופע.
  • הערך 'שורות שנכתבו' הוא מספר השורות שנכתבו במופע במהלך ביצוע פעולות הוספה, עדכון ומחיקה.

אם ההבדל בין השורות שהוחזרו לבין השורות שאוחזרו גדול כל כך שהערכים שלהן לא מוצגים באותו קנה מידה, אז הערך של השורות שאוחזרו מוצג כ-0 כי הוא זניח בהשוואה לערך של השורות שהוחזרו.

גודל הנתונים הזמניים
postgresql/temp_bytes_written_count

הכמות הכוללת של נתונים (בבייטים) שמשמשת להרצת שאילתות ולביצוע אלגוריתמים כמו join ו-sort.

קבצים זמניים
postgresql/temp_files_written_count

מספר הקבצים הזמניים שמשמשים להרצת שאילתות ולביצוע אלגוריתמים כמו join ו-sort.

בנוסף, במדד Cloud Logging‏, Log entries by severity (logging.googleapis.com/log_entry_count), מוצגים המספרים הכוללים של רשומות ביומן שקשורות לשגיאות ולאזהרות.

הנתונים האלה מחולצים מ-postgres.log, שהוא יומן מסד הנתונים, ומ-pgaudit.log, שמכיל מידע על גישה לנתונים.

מידע נוסף זמין במאמר מדדים של Cloud SQL.

ציר זמן של אירועים

בלוח הבקרה מוצגים פרטים על האירועים הבאים:

שם האירועתיאורסוג הפעולה
Instance restart הפעלה מחדש של מכונת Cloud SQL RESTART
Instance failover הפונקציה מפעילה מעבר ידני לגיבוי של מופע ראשי בזמינות גבוהה (HA) למופע במצב המתנה, שהופך למופע הראשי. FAILOVER
Instance maintenance מציין שהמופע נמצא כרגע בתחזוקה. בדרך כלל, עבודות התחזוקה גורמות לכך שהמופע לא יהיה זמין למשך דקה עד 3 דקות. MAINTENANCE
Instance backup מבצע גיבוי של מכונה. BACKUP_VOLUME
Instance update עדכון ההגדרות של מכונת Cloud SQL. UPDATE
Promote replica קידום של מכונת רפליקה ב-Cloud SQL. PROMOTE_REPLICA
Start replica הפעלה של רפליקציה במכונת רפליקה לקריאה ב-Cloud SQL. START_REPLICA
Stop replica הפסקת הרפליקציה במכונת רפליקה לקריאה ב-Cloud SQL. STOP_REPLICA
Recreate replica יוצר מחדש משאבים עבור מכונת רפליקה של Cloud SQL. RECREATE_REPLICA
Create replica יצירת מכונת שכפול של Cloud SQL. CREATE_REPLICA
Data import מייבא נתונים למכונה של Cloud SQL. IMPORT
Instance export ייצוא נתונים ממכונת Cloud SQL לקטגוריה של Cloud Storage. EXPORT
Restore backup שחזור גיבוי של מכונת Cloud SQL. יכול להיות שהפעולה הזו תגרום להפעלה מחדש של המופע. RESTORE_VOLUME

המאמרים הבאים