העיקרון הזה הוא חלק מעמודת הקיימות של Google Cloud Well-Architected Framework. הוא כולל המלצות שיעזרו לכם לבצע אופטימיזציה של יעילות האנרגיה וטביעת הרגל הפחמנית של משאבי האחסון שלכם ב- Google Cloud.
סקירה כללית של העקרונות
נתונים מאוחסנים הם לא משאב פסיבי. צריכת האנרגיה ופליטות הפחמן מתרחשות לאורך מחזור החיים של הנתונים. כל גיגה-בייט של נתונים מאוחסנים דורש תשתית פיזית שמקבלת חשמל באופן רציף, מקוררת ומנוהלת. כדי להשיג ארכיטקטורת ענן בת קיימא, צריך להתייחס לנתונים כאל נכס בעל ערך, אבל כזה שפוגע בסביבה, ולתת עדיפות למשילות מידע פרואקטיבית.
ההחלטות שלכם לגבי שמירת נתונים, איכות ומיקום יכולות לעזור לכם להפחית באופן משמעותי את העלויות של השימוש בענן ואת צריכת האנרגיה. צריך לצמצם את כמות הנתונים שמאחסנים, לבצע אופטימיזציה של המיקום והאופן שבהם מאחסנים את הנתונים, ולהטמיע אסטרטגיות אוטומטיות למחיקה ולארכיון של נתונים. כשמפחיתים את העומס של הנתונים, משפרים את ביצועי המערכת ומצמצמים באופן משמעותי את ההשפעה הסביבתית של הנתונים בטווח הארוך.
המלצות
כדי לייעל את מחזור החיים של הנתונים ואת משאבי האחסון לצורך קיימות, כדאי לעיין בהמלצות שבקטעים הבאים.
מתן עדיפות לנתונים בעלי ערך גבוה
נתונים מאוחסנים שלא נמצאים בשימוש, שהם כפולים או שכבר לא רלוונטיים ממשיכים לצרוך אנרגיה כדי להפעיל את התשתית הבסיסית. כדי לצמצם את טביעת הרגל הפחמנית שקשורה לאחסון, אפשר להשתמש בטכניקות הבאות.
זיהוי כפילויות וביטול שלהן
כדאי להגדיר מדיניות כדי למנוע שכפול מיותר של מערכי נתונים בכמה Google Cloud פרויקטים או שירותים. כדאי להשתמש במאגרי נתונים מרכזיים כמו מערכי נתונים ב-BigQuery או מאגרי Cloud Storage כמקורות אמת יחידים, ולהעניק גישה מתאימה למאגרים האלה.
הסרת נתוני צל ונתונים לא גלויים
נתונים אפלים הם נתונים שהתועלת שלהם או הבעלים שלהם לא ידועים. נתוני צל הם עותקים לא מורשים של נתונים. סורקים את מערכות האחסון ומאתרים נתונים לא גלויים ונתוני צללים באמצעות פתרון לגילוי נתונים וליצירת קטלוג, כמו Dataplex Universal Catalog. חשוב לבדוק את הממצאים האלה באופן קבוע ולהטמיע תהליך לארכיון או למחיקה של נתונים לא גלויים ונתוני צללים, לפי הצורך.
צמצום נפח הנתונים לעומסי עבודה של AI
שמירה רק של התכונות והנתונים המעובדים שנדרשים לאימון המודל ולהצגת התוצאות. במקרים שבהם אפשר, כדאי להשתמש בטכניקות כמו דגימת נתונים, צבירה ויצירת נתונים סינתטיים כדי לשפר את ביצועי המודל בלי להסתמך על מערכי נתונים עצומים של נתונים גולמיים.
שילוב בדיקות של איכות הנתונים
הטמעה של צינורות לאימות נתונים אוטומטי ולניקוי נתונים באמצעות שירותים כמו Dataproc, Dataflow או Dataplex Universal Catalog בנקודת הטמעת הנתונים. נתונים באיכות נמוכה גורמים לבזבוז של נפח האחסון. בנוסף, זה מוביל לצריכת אנרגיה מיותרת כשהנתונים משמשים בהמשך לניתוח או לאימון של AI.
בדיקת צפיפות הערך של הנתונים
חשוב לבדוק מדי פעם מערכי נתונים גדולים כמו יומנים וזרמי IoT. בודקים אם אפשר לסכם, לצבור או לדגום נתונים כדי לשמור על צפיפות המידע הנדרשת ולצמצם את נפח האחסון הפיזי.
הערכה ביקורתית של הצורך בגיבויים
הערכת הצורך בגיבוי נתונים שאפשר ליצור מחדש במינימום מאמץ. דוגמאות לנתונים כאלה כוללות תוצאות ביניים של ETL, מטמון זמני ונתוני אימון שנגזרים ממקור יציב וקבוע. לשמור גיבויים רק של נתונים ייחודיים או נתונים שעלות השחזור שלהם גבוהה.
אופטימיזציה של ניהול מחזור החיים של האחסון
אוטומציה של מחזור החיים של האחסון, כך שכשהשימוש בנתונים יורד, הנתונים מועברים לסוג אחסון חסכוני באנרגיה או מוצאים משימוש, בהתאם לצורך. אפשר להשתמש בטכניקות הבאות.
בחירת סוג אחסון מתאים ב-Cloud Storage
אפשר להשתמש בניהול מחזור חיים של אובייקטים כדי להפוך את המעבר של נתונים ב-Cloud Storage לסוגי אחסון (storage class) עם פליטת פחמן נמוכה יותר לאוטומטי, על סמך תדירות הגישה.
- מומלץ להשתמש ב-Standard Storage רק למערכי נתונים שנמצאים בשימוש פעיל, כמו מודלים עדכניים של ייצור.
- העברת נתונים כמו מערכי נתונים ישנים לאימון AI או גיבויים שניגשים אליהם בתדירות נמוכה יותר אל Nearline Storage או Coldline Storage.
- לשמירה לטווח ארוך, מומלץ להשתמש ב-Archive Storage, שמותאם ליעילות אנרגטית בקנה מידה גדול.
הטמעה של מדיניות מחמירה בנושא מחזור החיים של הנתונים
הגדירו מדיניות ברורה ואוטומטית של אורך חיים (TTL) לנתונים לא חיוניים, כמו קובצי יומן, ארטיפקטים זמניים של מודלים ותוצאות ביניים לא עדכניות. אפשר להשתמש בכללי מחזור חיים כדי למחוק באופן אוטומטי נתונים כאלה אחרי תקופה מוגדרת.
תיוג משאבים בהרשאה
הגדירו חובה להשתמש בתגי משאבים ובתוויות עקביים בכל קטגוריה של Cloud Storage, מערכי נתונים ב-BigQuery ודיסקים אחסון מתמידים (persistent disks). יוצרים תגים שמציינים את בעלי הנתונים, את מטרת הנתונים ואת תקופת השמירה. משתמשים באילוצים של Organization Policy Service כדי לוודא שתגים נדרשים, כמו תקופת שמירה, מוחלים על משאבים. תגים מאפשרים לכם להפוך את ניהול מחזור החיים לאוטומטי, ליצור דוחות FinOps מפורטים ולהפיק דוחות על פליטת פחמן.
בחירת הגודל המתאים לזיכרון המחשוב וביטול ההקצאה שלו
מומלץ לבדוק באופן קבוע דיסקים של אחסון מתמיד שמצורפים למכונות של Compute Engine, ולוודא שהדיסקים לא מוקצים יתר על המידה. משתמשים בתמונות מצב רק כשצריך לגבות את הנתונים. מוחקים תמונות מצב ישנות שלא בשימוש. במסדי נתונים, כדאי להשתמש במדיניות שמירת נתונים כדי להקטין את הגודל של הדיסקים הבסיסיים לאחסון מתמיד.
אופטימיזציה של פורמט האחסון
לצורך אחסון שמשמש לעומסי עבודה של ניתוח נתונים, מומלץ להשתמש בפורמטים דחוסים של עמודות כמו Parquet או Avro שעברו אופטימיזציה, במקום בפורמטים מבוססי-שורות כמו JSON או CSV. אחסון עמודתי מפחית באופן משמעותי את הדרישות לגבי שטח הדיסק הפיזי ומשפר את יעילות הקריאה. האופטימיזציה הזו עוזרת לצמצם את צריכת האנרגיה של פעולות החישוב והקלט/פלט המשויכות.
אופטימיזציה של האזורים הגיאוגרפיים והעברת הנתונים
המיקום הפיזי של הנתונים והתנועה שלהם משפיעים על צריכת משאבי הרשת ועל האנרגיה שנדרשת לאחסון. כדי לבצע אופטימיזציה של אזוריות הנתונים, אפשר להשתמש בטכניקות הבאות.
בחירת אזורי אחסון דלי-פחמן
בהתאם לדרישות התאימות שלכם, כדאי לאחסן נתונים באזורים שבהם נעשה שימוש באחוז גבוה יותר של אנרגיה נטולת פחמן (CFE) או שבהם שיעור פליטת הפחמן ברשת נמוך יותר. Google Cloud כדי להגביל את היצירה של מאגרי אחסון באזורים עם פליטת פחמן גבוהה, משתמשים במגבלת מיקומי משאבים של מדיניות הארגון. מידע על נתוני CFE ועל שיעור פליטת הפחמן Google Cloud באזורים זמין במאמר בנושא אנרגיה נטולת פחמן Google Cloud באזורים.
צמצום השכפול
שכפול נתונים בין אזורים צריך להתבצע רק כדי לעמוד בדרישות חובה של התאוששות מאסון (DR) או זמינות גבוהה (HA). פעולות שכפול בין אזורים ובכמה אזורים מגדילות באופן משמעותי את עלות האנרגיה ואת טביעת הרגל הפחמנית של הנתונים.
אופטימיזציה של מיקומים לעיבוד נתונים
כדי להפחית את צריכת האנרגיה בהעברת נתונים ברשת, כדאי לפרוס עומסי עבודה עתירי חישובים כמו אימון AI ועיבוד BigQuery באותו אזור שבו נמצא מקור הנתונים.
אופטימיזציה של העברת נתונים עבור השותפים והלקוחות
כדי להעביר כמויות גדולות של נתונים בין שירותי ענן, מיקומים וספקים, מומלץ לעודד את השותפים והלקוחות להשתמש ב-Storage Transfer Service או בממשקי API לשיתוף נתונים. לא מומלץ לבצע העברה של כמות גדולה של נתונים. במערכי נתונים ציבוריים, אפשר להשתמש בדלי Requester Pays כדי להעביר את העלויות של העברת הנתונים והעיבוד, ואת ההשפעה על הסביבה, למשתמשי הקצה.