המדריך הזה יעזור לכם להעריך את דרישות האחסון של עומס העבודה בענן, להבין את אפשרויות האחסון הזמינות ב- Google Cloudולתכנן אסטרטגיית אחסון שתספק ערך עסקי אופטימלי.
לסיכום ויזואלי של המלצות העיצוב העיקריות, ראו את תרשים עץ ההחלטות.
מידע על בחירת שירותי אחסון לעומסי עבודה של AI ו-ML זמין במאמר בנושא תכנון אחסון לעומסי עבודה של AI ו-ML ב- Google Cloud.
סקירה כללית של תהליך העיצוב
כאדריכלי ענן, כשאתם מתכננים אחסון לעומס עבודה בענן, אתם צריכים קודם לשקול את המאפיינים הפונקציונליים של עומס העבודה, את מגבלות האבטחה, את דרישות העמידות, את ציפיות הביצועים ואת יעדי העלות. אחר כך, אתם צריכים לבדוק את שירותי האחסון והתכונות שזמינים ב-Google Cloud. לאחר מכן, על סמך הדרישות והאפשרויות הזמינות, בוחרים את שירותי האחסון והתכונות שדרושים לכם. בתרשים הבא מוצג תהליך התכנון הזה בשלושה שלבים:
הגדרת הדרישות
משתמשים בשאלונים שבקטע הזה כדי להגדיר את דרישות האחסון של המפתחות בעומס העבודה שרוצים לפרוס ב- Google Cloud.
הנחיות להגדרת דרישות אחסון
כשעונים על השאלונים, חשוב להקפיד על ההנחיות הבאות:
הגדרת דרישות ברמת פירוט גבוהה
לדוגמה, אם האפליקציה שלכם צריכה אחסון קבצים מבוסס-Network File System (NFS), צריך לזהות את גרסת ה-NFS הנדרשת.
כדאי לקחת בחשבון דרישות עתידיות
לדוגמה, יכול להיות שהפריסה הנוכחית שלכם משרתת משתמשים במדינות באסיה, אבל אתם מתכננים להרחיב את העסק ליבשות אחרות. במקרה כזה, כדאי לבדוק אם יש דרישות רגולטוריות שקשורות לאחסון באזורים העסקיים החדשים.
הזדמנויות ודרישות ספציפיות לענן
נצלו הזדמנויות שקשורות לענן.
לדוגמה, כדי לייעל את עלויות האחסון של נתונים שמאוחסנים ב-Cloud Storage, אפשר לשלוט במשך האחסון באמצעות מדיניות שמירת נתונים והגדרות מחזור חיים.
כדאי לקרוא מה הדרישות הספציפיות של אפליקציות מבוססות-ענן.
לדוגמה, יכול להיות שהנתונים המקומיים נמצאים במרכז נתונים יחיד, ותצטרכו לשכפל את הנתונים שהועברו בשניGoogle Cloud מיקומים לצורך יתירות.
שאלונים
השאלונים הבאים הם לא רשימות מקיפות לתכנון. אפשר להשתמש בהם כנקודת התחלה לניתוח שיטתי של כל דרישות האחסון של עומס העבודה שרוצים לפרוס ב- Google Cloud.
הערכת המאפיינים של עומס העבודה
איזה סוג נתונים צריך לאחסן?
דוגמאות
- תוכן של אתר סטטי
- גיבויים וארכיונים לצורך התאוששות מאסון
- יומני ביקורת לצורכי תאימות
- אובייקטים גדולים של נתונים שהמשתמשים מורידים ישירות
- נתוני עסקאות
- נתונים לא מובנים והטרוגניים
כמה נפח אחסון צריך? כדאי לקחת בחשבון את הדרישות הנוכחיות והעתידיות שלכם.
האם הקיבולת צריכה להתרחב באופן אוטומטי בהתאם לשימוש?
מהן דרישות הגישה? לדוגמה, האם צריך לאפשר גישה לנתונים מחוץ ל- Google Cloud?
מהם דפוסי הקריאה והכתיבה הצפויים?
דוגמאות
- כתיבה וקריאה לעיתים קרובות
- כתיבות תכופות, אבל קריאות מדי פעם
- קריאה וכתיבה מדי פעם
- כתיבה מדי פעם, אבל קריאה לעיתים קרובות
האם לעומס העבודה נדרשת גישה מבוססת-קבצים, למשל באמצעות NFS?
האם כמה לקוחות צריכים להיות מסוגלים לקרוא או לכתוב נתונים בו-זמנית?
זיהוי אילוצי אבטחה
מהן הדרישות שלך בנוגע להצפנת נתונים? לדוגמה, האם אתם צריכים להשתמש במפתחות שאתם שולטים בהם?
האם יש דרישות לגבי מיקום הנתונים?
הגדרת דרישות חוסן הנתונים
- האם עומס העבודה שלכם דורש שמירה במטמון עם השהיה נמוכה או שטח אחסון זמני?
- האם צריך לשכפל את הנתונים בענן לצורך יתירות?
- האם אתם צריכים עקביות קפדנית של קריאה וכתיבה במערכי נתונים משוכפלים?
הגדרת ציפיות לגבי הביצועים
מה קצב ה-I/O הנדרש?
מה רמות התפוקה של קריאה וכתיבה שהאפליקציה שלכם צריכה?
באילו סביבות נדרש אחסון? יכול להיות שבעומס עבודה מסוים תצטרכו אחסון עם ביצועים גבוהים לסביבת הייצור, אבל תוכלו לבחור באפשרות עם ביצועים נמוכים יותר לסביבות שאינן סביבות ייצור.
אפשרויות האחסון
Google Cloud מציע שירותי אחסון לכל פורמטי האחסון העיקריים: בלוק, קובץ ואובייקט. בודקים ומעריכים את התכונות, את אפשרויות העיצוב ואת היתרונות היחסיים של השירותים שזמינים לכל פורמט אחסון.
סקירה כללית
אחסון בלוקים (block storage)
הנתונים שאתם מאחסנים באחסון בלוקים מחולקים למקטעים, וכל מקטע מאוחסן כבלוק נפרד עם כתובת ייחודית. האפליקציות ניגשות לנתונים על ידי הפניה לכתובות הבלוק המתאימות. אחסון בלוקים (block storage) מותאם לעומסי עבודה עם IOPS גבוה, כמו עיבוד עסקאות. הוא דומה למערכות אחסון ברשת (SAN) ולמערכות אחסון בחיבור ישיר (DAS) מקומיות.
אפשרויות האחסון הבלוקים ב- Google Cloud הן חלק משירות Compute Engine.
| אפשרות | סקירה כללית |
|---|---|
| Persistent Disk | כוננים קשיחים (HDD) וכונני SSD ייעודיים לאפליקציות ארגוניות ולאפליקציות של מסדי נתונים שנפרסות במכונות וירטואליות של Compute Engine ובאשכולות של Google Kubernetes Engine (GKE). |
| Google Cloud Hyperdisk | אחסון רשת מהיר ועודף למכונות וירטואליות ב-Compute Engine ולאשכולות GKE, עם ביצועים שניתנים להגדרה ונפחים שאפשר לשנות את הגודל שלהם באופן דינמי. |
| Local SSD | אחסון בלוקים (block storage) זמני עם חיבור מקומי לאפליקציות שדורשות ביצועים גבוהים. |
אחסון קבצים
הנתונים מאורגנים ומוצגים בהיררכיה של קבצים שמאוחסנים בתיקיות, בדומה לאחסון ברשת (NAS) במקום. אפשר לטעון מערכות קבצים בלקוחות באמצעות פרוטוקולים כמו NFS ו-פרוטוקול SMB (SMB). אפליקציות ניגשות לנתונים באמצעות שם הקובץ הרלוונטי ונתיב הספרייה.
Google Cloud מספקת מגוון פתרונות מנוהלים ופתרונות של צד שלישי לאחסון קבצים.
| פתרון | סקירה כללית |
|---|---|
| Filestore |
אחסון מבוסס-קבצים באמצעות שרתי קבצים מסוג NFS למכונות וירטואליות ב-Compute Engine ולאשכולות Google Kubernetes Engine. אתם יכולים לבחור רמת שירות (בסיסית, אזורית או מחוזית) שמתאימה לתרחיש השימוש שלכם. |
| Google Cloud Managed Lustre |
מערכת קבצים מקבילית עם זמן אחזור נמוך ל-AI, למחשוב עתיר ביצועים (HPC) ולאפליקציות עתירות נתונים. |
| NetApp Volumes | אחסון מבוסס-קבצים באמצעות NFS או SMB. אתם יכולים לבחור רמת שירות (Flex, Standard, Premium או Extreme) שמתאימה לתרחיש השימוש שלכם. |
| אפשרויות נוספות | כדאי לעיין ב סיכום של אפשרויות שרת הקבצים. |
אחסון אובייקטים
הנתונים מאוחסנים כאובייקטים בהיררכיה שטוחה של קטגוריות. לכל אובייקט מוקצה מזהה ייחודי באופן גלובלי. לאובייקטים יכולים להיות מטא-נתונים שהמערכת מקצה ומטא-נתונים שהמשתמש מגדיר, כדי לעזור לכם לארגן ולנהל את הנתונים. אפליקציות ניגשות לנתונים באמצעות הפניה למזהי האובייקטים, באמצעות ממשקי API ל-REST או ספריות לקוח.
Cloud Storage מספק אחסון אובייקטים בעלות נמוכה, עם עמידות גבוהה וללא הגבלה, למגוון סוגי נתונים. אפשר לגשת לנתונים שמאוחסנים ב-Cloud Storage מכל מקום, בתוך Google Cloudומחוץ לו. יתירות אופציונלית בין אזורים מספקת אמינות מקסימלית. אתם יכולים לבחור סוג אחסון שמתאים לדרישות שלכם לגבי שמירת נתונים ותדירות הגישה.
ניתוח השוואתי
בטבלה הבאה מפורטות היכולות העיקריות של שירותי האחסון ב-Google Cloud.
| Persistent Disk | Hyperdisk | אחסון SSD מקומי | Filestore | Managed Lustre | NetApp Volumes | Cloud Storage | |
|---|---|---|---|---|---|---|---|
| קיבולת |
10GiB עד 64TiB לכל דיסק עד 257 TiB לכל מכונה וירטואלית |
4GiB עד 64TiB לכל דיסק עד 512 TiB לכל מכונה וירטואלית 10TiB עד 1PiB לכל מאגר אחסון |
375GiB לכל דיסק עד 12TiB לכל מכונה וירטואלית Titanium SSD היא אפשרות ל-SSD מקומי עם קיבולת גבוהה יותר. |
1-100TiB לכל מופע | 18TiB עד 8PiB | 1TiB עד 10PiB לכל מאגר אחסון 1GiB עד 1PiB לכל נפח |
אין הגבלה עליונה או תחתונה |
|
התאמה לעומס |
|
הגדלת נפח הפעילות | לא ניתן להרחבה |
|
ניתן להתאמה | הגדלה והקטנה של התצוגה | ההיקף משתנה אוטומטית בהתאם לשימוש |
| שיתוף |
נתמך | נתמך | אי אפשר לשתף | אפשר להטמיע אותו בכמה מכונות וירטואליות של Compute Engine, לקוחות מרוחקים ואשכולות GKE | אפשר לטעון אותם בכמה מכונות וירטואליות של Compute Engine ובאשכולות GKE. | אפשר להטמיע אותו בכמה מכונות וירטואליות של Compute Engine ובאשכולות GKE |
|
| אפשרויות למפתח הצפנה |
|
|
Google-owned and Google-managed encryption keys |
|
Google-owned and Google-managed encryption keys |
|
|
| התמדה |
משך החיים של הדיסק | משך החיים של הדיסק | זמני (הנתונים נמחקים כשמפסיקים או מוחקים את המכונה הווירטואלית) | משך החיים של מופע Filestore | משך החיים של מכונת Managed Lustre | כל משך החיים של הכרך | כל משך החיים של הקטגוריה |
| זמינות |
|
|
אזורי |
|
אזורי |
|
|
| ביצועים |
שינוי קנה מידה לינארי לפי גודל הדיסק ומספר המעבדים | אחסון מתמיד עם התאמה דינמית של נפח האחסון | אחסון זמני עתיר ביצועים |
|
התאמת ביצועים לעומס באופן ליניארי עם קיבולת מוקצית ומספר אפשרויות של רמות ביצועים | ביצועים שניתנים להרחבה הציפיות תלויות ברמת השירות |
|
| ניהול |
עיצוב והרכבה באופן ידני | עיצוב והרכבה באופן ידני | עיצוב, פסיקה והרכבה באופן ידני | מנוהל באופן מלא | מנוהל באופן מלא | מנוהל באופן מלא | מנוהל באופן מלא |
בטבלה הבאה מפורטים סוגי העומסים שכל אחת מאפשרויות האחסון מתאימה להם: Google Cloud
| אפשרות אחסון | סוגים של עומסי עבודה |
|---|---|
| Persistent Disk |
|
| Hyperdisk |
|
| אחסון SSD מקומי |
|
| Filestore |
|
| Managed Lustre |
|
| NetApp Volumes |
|
| Cloud Storage |
|
בחירת אפשרות אחסון
בחירת אפשרות אחסון כוללת שני חלקים:
- החלטה אילו שירותי אחסון נחוצים לכם.
- בחירת התכונות הנדרשות ואפשרויות העיצוב בשירות מסוים.
דוגמאות לתכונות ספציפיות לשירות ולאפשרויות עיצוב
Persistent Disk
- אזור ומיקום פריסה
- רפליקציה אזורית
- סוג הדיסק, הגודל וקצב ה-IOPS (עבור Persistent Disk מסוג Extreme)
- מפתחות הצפנה: בבעלות ובניהול של Google, בניהול הלקוח או באספקת הלקוח
- לוח הזמנים של תמונת המצב
Hyperdisk
- אזור פריסה
- סוג הדיסק, הגודל, קצב העברת הנתונים (ל-Hyperdisk Throughput) וקצב קלט/פלט (ל-Hyperdisk Extreme)
- מפתחות הצפנה: בבעלות ובניהול של Google, בניהול הלקוח או באספקת הלקוח
- לוח הזמנים של תמונת המצב
Filestore
- אזור ומיקום פריסה
- רמת המכונה
- קיבולת
- טווח כתובות IP: מוקצה אוטומטית או מותאם אישית
- בקרת גישה
NetApp Volumes
- אזור הפריסה
- רמת השירות של מאגר האחסון
- קיבולת של מאגרים ונפחים
- פרוטוקול עוצמת הקול
- כללים לייצוא נפח
Cloud Storage
- מיקום: אזור גיאוגרפי נרחב יותר שכולל מספר אזורים, שני אזורים, אזור יחיד
- סוג אחסון: Standard, Nearline, Coldline, Archive
- בקרת גישה: אחידה או פרטנית
- מפתחות הצפנה: בבעלות ובניהול של Google, בניהול הלקוח או באספקת הלקוח
- מדיניות שמירת נתונים
המלצות לגבי נפח האחסון
ההמלצות הבאות יכולות לשמש כנקודת התחלה לבחירת שירותי האחסון והתכונות שמתאימים לדרישות שלכם. הנחיות ספציפיות לעומסי עבודה של AI ולמידת מכונה זמינות במאמר תכנון אחסון לעומסי עבודה של AI ולמידת מכונה ב- Google Cloud.
בהמשך המסמך מופיע גם עץ החלטות עם המלצות כלליות לאחסון.
אם אתם צריכים מערכת קבצים מקבילית לאפליקציות, אתם יכולים להשתמש ב-Managed Lustre.
לאפליקציות שזקוקות לגישה מבוססת-קובץ, צריך לבחור שירות אחסון קבצים מתאים על סמך הדרישות שלכם לגבי פרוטוקול גישה, זמינות וביצועים.
פרוטוקול גישה המלצה NFS - אם אתם צריכים זמינות אזורית וביצועים גבוהים שניתנים להרחבה בהתאם לקיבולת, אתם יכולים להשתמש ב-Filestore Regional.
- אם זמינות אזורית מספיקה לכם, אבל אתם צריכים ביצועים גבוהים שניתנים להרחבה בהתאם לקיבולת, אתם יכולים להשתמש ב-Filestore Zonal או ב-NetApp Volumes Premium או Extreme.
- אחרת, צריך להשתמש ב-Filestore Basic או ב-NetApp Volumes.
מידע על ההבדלים בין רמות השירות של Filestore זמין במאמר רמות שירות.
SMB שימוש ב-NetApp Volumes. לעומסי עבודה שזקוקים לאחסון ראשי עם ביצועים גבוהים, אפשר להשתמש ב-Hyperdisk, ב-SSD מקומי או ב-Persistent Disk, בהתאם לדרישות.
דרישה המלצה דיסק אחסון נדיף (scratch disk) או מטמון מהירים שימוש בדיסקים מקומיים של SSD (זמניים). אחסון בלוקים עם ביצועים וקיבולת שניתנים להרחבה באופן עצמאי שימוש ב-Hyperdisk. בוחרים את סוג הדיסק המתאים בהתאם לדרישות:
- עומסי עבודה למטרות כלליות:
hyperdisk-balanced - עומסי עבודה גבוהים של קלט/פלט, כמו מסדי נתונים עתירי ביצועים:
hyperdisk-extreme - ניתוח נתונים בהרחבת קנה מידה, כונני נתונים לאפליקציות רגישות לעלויות ואחסון נתונים בשימוש נדיר (cold storage):
hyperdisk-throughput - עומסי עבודה של ML שצריכים תפוקה גבוהה למספר מכונות וירטואליות במצב קריאה-בלבד:
hyperdisk-mlבמצב קריאה-בלבד - כמה מכונות וירטואליות באזור עם גישת כתיבה בו-זמנית לאותו דיסק:
hyperdisk-balanced-high-availabilityבמצב multi-writer
מידע נוסף זמין במאמר בנושא Google Cloud Hyperdisk.
אחסון בלוקים עם קיבולת ניתנת להרחבה שימוש ב-Persistent Disk. בוחרים את סוג הדיסק המתאים בהתאם לדרישות שלכם:
- IOPS רציף:
pd-standard - עומסי עבודה אינטנסיביים של IOPS:
pd-extremeאוpd-ssd - איזון בין ביצועים לעלות:
pd-balanced
מידע נוסף זמין במאמר בנושא Persistent Disk.
- בהתאם לדרישות היתירות שלכם, אתם יכולים לבחור בין דיסקים אזוריים לבין דיסקים אזוריים.
דרישה המלצה יתירות בתוך תחום אחד באזור משתמשים ב-Hyperdisk או בדיסק לאחסון מתמיד (persistent disk) של תחום מוגדר. יתירות בכמה אזורים באותו אזור משתמשים ב-Hyperdisk High Availability או ב-Persistent Disk אזורי.
- עומסי עבודה למטרות כלליות:
כדי לקבל אחסון בסדר גודל בלתי מוגבל וזמין ברחבי העולם, אפשר להשתמש ב-Cloud Storage.
בהתאם לתדירות הגישה לנתונים ולמשך האחסון, בוחרים סוג אחסון מתאים ב-Cloud Storage.
דרישה המלצה> תדירות הגישה משתנה, או שתקופת שמירת הנתונים לא ידועה או לא צפויה. אפשר להשתמש בתכונה סיווג אוטומטי כדי להעביר באופן אוטומטי אובייקטים בקטגוריה לסוגי אחסון מתאימים, בהתאם לתדירות הגישה לכל אובייקט. אחסון נתונים שניגשים אליהם לעיתים קרובות, כולל נתונים שמשמשים לניתוח נתונים עם תפוקה גבוהה, לאגמי נתונים, לאתרים, לסרטונים בסטרימינג ולאפליקציות לנייד. משתמשים בסוג האחסון Standard.
כדי לשמור במטמון נתונים שניגשים אליהם לעיתים קרובות ולהציג אותם ממיקומים שקרובים ללקוחות, משתמשים ב-Cloud CDN.
כדי לשפר את ביצועי הקריאה ולצמצם את עלויות העברת הנתונים בעומסי עבודה שכוללים הרבה קריאות ושינויים לא תכופים בנתונים (כמו אימון למידת מכונה, הסקה וניתוח נתונים), אפשר להשתמש ב-Anywhere Cache.
אחסון בעלות נמוכה של נתונים שניגשים אליהם לעיתים רחוקות, שאפשר לאחסן למשך 30 ימים לפחות (לדוגמה, גיבויים ותוכן מולטימדיה 'זנב ארוך'). משתמשים בסוג האחסון Nearline. אחסון בעלות נמוכה לנתונים שניגשים אליהם לעיתים רחוקות, שאפשר לאחסן למשך 90 ימים לפחות (לדוגמה, לצורך התאוששות מאסון). שימוש בסוג האחסון Coldline. אחסון בעלות הכי נמוכה לנתונים שניגשים אליהם לעיתים רחוקות, שאפשר לאחסן למשך 365 ימים לפחות, כולל ארכיונים רגולטוריים. שימוש בסוג האחסון Archive. לניתוח השוואתי מפורט, ראו סוגי אחסון ב-Cloud Storage.
אפשרויות להעברת נתונים
אחרי שבוחרים שירותי אחסון מתאימים Google Cloud , כדי לפרוס ולהפעיל עומסי עבודה, צריך להעביר את הנתונים אל Google Cloud . Google Cloudיכול להיות שהנתונים שאתם צריכים להעביר נמצאים בשרתים מקומיים או בפלטפורמות ענן אחרות.
אפשר להשתמש בשיטות הבאות כדי להעביר נתונים אל Google Cloud:
- העברת נתונים אונליין באמצעות Storage Transfer Service: אוטומציה של העברת כמויות גדולות של נתונים בין מערכות לאחסון אובייקטים וקבצים, כולל Cloud Storage, Amazon S3, שירותי אחסון של Azure ומקורות נתונים מקומיים.
- העברת נתונים אופליין באמצעות Transfer Appliance: העברה וטעינה של כמויות גדולות של נתונים אופליין אל Google Cloud במקרים שבהם הקישוריות לרשת ורוחב הפס לא זמינים, מוגבלים או יקרים.
- העלאת נתונים ל-Cloud Storage: העלאת נתונים אונליין לקטגוריות של Cloud Storage באמצעות מסוף Google Cloud , ה-CLI של gcloud, ממשקי Cloud Storage API או ספריות לקוח.
כשבוחרים שיטה להעברת נתונים, חשוב לקחת בחשבון גורמים כמו גודל הנתונים, מגבלות זמן, זמינות רוחב הפס, יעדי עלות ודרישות אבטחה ותאימות. מידע על תכנון והטמעה של העברות נתונים אל Google Cloudזמין במאמר מעבר אל Google Cloud: העברת מערכי נתונים גדולים.
עץ החלטות בנושא אפשרויות אחסון
התרשים הבא של עץ החלטות יעזור לכם להבין את ההמלצות בנושא אחסון שצוינו קודם. Google Cloudהנחיות ספציפיות לעומסי עבודה של AI ולמידת מכונה זמינות במאמר עיצוב אחסון לעומסי עבודה של AI ולמידת מכונה ב- Google Cloud.
המאמרים הבאים
- להשתמש בGoogle Cloud מחשבון עלויות כדי להעריך את עלות האחסון.
- מידע ולמידה על שיטות מומלצות לפיתוח פתרונות טופולוגיה בענן שעברה אופטימיזציה מבחינת אבטחה, חוסן (resilience), עלות וביצועים.
- מתי כדאי להשתמש במערכות קבצים מקבילות כמו Lustre לעומסי עבודה של HPC
שותפים ביצירת התוכן
מחבר: קומאר דהנגופל | מפתח פתרונות חוצי-מוצרים
תורמי תוכן אחרים:
- Brennan Doyle | Solutions Architect
- דין הילדברנד | מנהל טכני, משרד ה-CTO
- ג'פרי נור | מנהל קבוצת מוצרים
- Jack Zhou | Technical Writer
- ג'ייסון וו | מנהל, ניהול מוצר
- Jeff Allen | Solutions Architect
- Samantha He | Technical Writer
- שון דרינגטון | מנהל קבוצת מוצרים, אחסון