Rapid Bucket

בדף הזה מוסבר על Rapid Bucket, תכונה שמאפשרת לאחסן אובייקטים בRapid Storage על ידי הגדרת אזור כמיקום של הקטגוריה. הגישה הזו מאפשרת לכם למקם את אחסון הנתונים באותו מיקום עם משאבי המחשוב, וכך לקבל זמן אחזור נמוך משמעותית וקצב העברת נתונים גבוה יותר בהשוואה לסוגי אחסון אחרים ב-Cloud Storage. עומסי עבודה באזורים אחרים יכולים גם לגשת לדלי, עם ביצועים יחסיים למרחק ברשת. האחסון המהיר הוא פתרון אידיאלי לשימוש באפליקציות עם נפח נתונים גבוה, כמו AI/ML וניתוח נתונים.

כדי ליצור קטגוריה אזורית באמצעות Rapid Bucket, ראו יצירת קטגוריות אזוריות. במאמר שימוש באובייקטים בקטגוריות אזוריות מוסבר איך לקרוא אובייקטים בקטגוריות אזוריות ולצרף אליהם מידע.

הסברים על המונחים ב-Rapid Bucket

במאמרי העזרה של Cloud Storage נעשה שימוש במונחים הבאים:

  • Rapid Bucket: המוצר שמאפשר ליצור קטגוריות עם מיקום אזורי וסוג האחסון Rapid Storage.

  • Rapid Storage: סוג האחסון שמציע את הביצועים הכי גבוהים של גישה לנתונים ושל פעולות קלט/פלט ב-Cloud Storage. כשמשתמשים ב-Rapid Bucket, יוצרים קטגוריה שמשתמשת ב-Rapid Storage. מידע נוסף על Rapid Storage זמין במאמר סוגי אחסון.

  • קטגוריה אזורית: קטגוריה שממוקמת באזור. אובייקטים בקטגוריות אזוריות תמיד מאוחסנים ב-Rapid Storage ואפשר להוסיף להם נתונים.

יכולות של קטגוריות אזוריות

בנוסף לזמן אחזור נמוך ולתפוקה גבוהה, באחסון בדליים אזוריים אפשר:

  • הוספה לאובייקטים בקטגוריה אזורית בלי לבצע כתיבה מחדש מלאה של האובייקט

  • פתיחת אובייקטים ושמירה על זרם בזמן ביצוע פעולות, כדי לאפשר לכם להאיץ קריאות וכתיבות עוקבות

תרחישים לדוגמה

‫Rapid Bucket מתאים במיוחד לעומסי עבודה של AI/ML או לעומסי עבודה אחרים שדורשים הרבה נתונים. דוגמאות לעומסי עבודה כאלה הן שמירת נקודות ביקורת של מודלים, הערכה והצגה, וגם רישום ביומן ותורים של הודעות. אפשר להשתמש בו גם כדי להזרים נתונים או כדי לספק אחסון למסדי נתונים.

כדי ליהנות באופן מלא מזמן האחזור הקצר ומהתפוקה הגבוהה שמספק Rapid Bucket, חשוב להפעיל קישוריות ישירה של gRPC.

גישה לאובייקטים בקטגוריות אזוריות

כדי ליהנות מיתרונות הביצועים של קטגוריה אזורית, חשוב לפתוח אובייקטים להזרמה ולשמור על הזרמה בזמן ביצוע פעולות על האובייקטים. כשיוצרים ומנהלים זרם, אפשר לבצע פעולות קריאה או כתיבה לאובייקט עם השהיה נמוכה מאוד. לדוגמה, כשקוראים קובץ Parquet, אפשר לבצע גם את הקריאה הראשונית של המטא-נתונים של הקובץ (הכותרת התחתונה) וגם את הקריאה הבאה של שורות ספציפיות בבקשה אחת. הגישה הזו יעילה יותר משימוש בבקשות נפרדות לכל שלב.

אחרי שיוצרים אותם, זרמי אובייקטים נשארים פתוחים כברירת מחדל כשניגשים לאובייקטים בקטגוריות אזוריות באמצעות Cloud Storage FUSE או ספריות הלקוח של Cloud Storage.

אפשר לפתוח כמה זרמי קריאה לאובייקט ממספר כלשהו של מארחים. אין הגבלה על מספר הזרמים לקריאה שאפשר ליצור לאובייקט.

צירוף אובייקטים

אפשר לצרף נתונים לאובייקטים בקטגוריות אזוריות. כשמוסיפים נתונים לאובייקטים, חלים כללי הסמנטיקה הבאים:

  • אובייקטים שאפשר להוסיף להם נתונים מופיעים במרחב השמות של הקטגוריה ברגע שמתחילים לכתוב להם, ואפשר לקרוא אותם בזמן הכתיבה.

  • אין הגבלות על מספר הפעמים שאפשר להוסיף נתונים לאובייקט או על מספר הבייטים שאפשר להוסיף בכל פעם. אפשר להוסיף נתונים עד שאובייקט מגיע לגודל המקסימלי שלו, שהוא ‎5 TiB.

  • הגודל של אובייקט יגדל בזמן אמת ככל שיתווספו אליו נתונים באופן קבוע או כשהוא ירוקן. כשמקימים זרם קריאה, צריך לצפות לעיכוב מינימלי בעדכון הגודל של האובייקט.

  • לאובייקטים שאפשר להוסיף להם נתונים יכול להיות רק כותב אחד בכל פעם. אם נוצר נתון חדש לכתיבה של אובייקט שכבר יש לו נתון קיים לכתיבה, Cloud Storage מחזיר שגיאה לנתון המקורי, ולא תהיה יותר אפשרות לכתוב בנתון המקורי. הכותב החדש יכול להמשיך להוסיף נתונים מההיסט האחרון שנשמר, בלי שיתווספו לאובייקט נתונים אחרים שמשולבים בו.

השלמת אובייקטים

אחרי שאובייקט הופך לסופי, אי אפשר יותר להוסיף לו נתונים, אבל עדיין אפשר להחליף את האובייקט בגרסה חדשה. המטא-נתונים של אובייקט סופי עדיין ניתנים לשינוי. לדוגמה, אפשר להוסיף תגים חדשים ולשנות את שם האובייקט.

טעינת קטגוריות אזוריות

אפשר לטעון קטגוריות אזוריות ולגשת אליהן באמצעות Cloud Storage FUSE או מנהל התקן ה-CSI של Cloud Storage FUSE. חשוב להשתמש ב-Cloud Storage FUSE בגרסה 3.7.2 ואילך. כדי להשתמש במנהל התקן ה-CSI של Cloud Storage FUSE, צריך לוודא שגרסת Google Kubernetes Engine היא 1.35.0-gke.3047001 ואילך.

תמחור

השימוש ב-Rapid Bucket כרוך בחיובים על אחסון נתונים, פעולות ורשת. מידע נוסף מפורט בקטע תמחור.

מגבלות

  • בקטגוריות אזוריות צריך להפעיל מרחב שמות היררכי וגישה אחידה ברמת הקטגוריה.

  • מגבלות של Google Cloud CLI:

    • חשיפה של העלאות לא מלאות: בניגוד לקטגוריות בשיעורי אחסון אחרים, שבהן אובייקטים מופיעים במרחב השמות רק אחרי שההעלאה מסתיימת, אובייקטים שהועלו באופן חלקי בקטגוריות אזוריות גלויים באופן מיידי. אם פקודת העלאה של Google Cloud CLI נכשלת או מופסקת, יכול להיות שתראו אובייקטים לא שלמים בקטגוריה. עדיין אפשר להמשיך את ההעלאות האלה על ידי הרצת הפקודה מחדש.

    • החלפת אובייקטים: התנהגות ה-CLI הרגילה של Google Cloud חלה על קטגוריות אזוריות: כשמחליפים אובייקט, אם קיים קובץ או אובייקט עם אותו שם ביעד, פקודות ה-CLI של Google Cloud‏ cp,‏ mv ו-rsync יחליפו אותו כברירת מחדל. כדי למנוע החלפות, משתמשים בדגל --no-clobber. כשמשתמשים ב-Google Cloud CLI, אי אפשר לצרף נתונים לאובייקט קיים. צריך להעלות מחדש את כל המקור.

    • סגירת אובייקט: יכול להיות שיהיה עיכוב קצר מדי פעם באובייקטים שמועלים לקטגוריית אחסון אזורית באמצעות Google Cloud CLI, לפני שמטא-הנתונים של האובייקט מסונכרנים באופן מלא. מכיוון ש-Cloud Storage משתמש במודל של עקביות בסופו של דבר, ניסיון להוריד אובייקט מיד אחרי ההעלאה עלול לגרום לשגיאה של אי התאמה בין הגיבובים, אם המטא-נתונים עדיין לא עודכנו.

      אם ההורדה נכשלת עם שגיאה של אי התאמה בין הגיבובים זמן קצר אחרי ההעלאה, מנסים שוב להריץ את הפקודה. המערכת מוודאת שההורדות יסתיימו בהצלחה או ייכשלו באופן מפורש. לא יקרו הורדות חלקיות או פגומות בלי שתהיה לכך אינדיקציה.

חוסר תאימות

אי אפשר להשתמש בדלי אחסון אזוריים עם הכלים, הפעולות והמוצרים הבאים:

  • כלים

    • העלאות מרובות חלקים ב-API ל-XML

    • פעולות כתיבה באמצעות API בפורמט XML או API בפורמט JSON

  • פעולות כתיבה לאובייקטים שלא ניתן להוסיף להם נתונים באמצעות gRPC

  • הגנה על נתונים והתאוששות מאסון

    • ניהול גרסאות של אובייקטים

    • מחיקה עם אפשרות שחזור

  • ניהול נתונים

    • מטמון בכל מקום

    • סיווג אוטומטי

    • נעילת קטגוריית יומן

    • הרכבת אובייקטים

    • החזקות אובייקטים

    • פעולת ניהול מחזור חיים של אובייקטים SetStorageClass

    • פעולת ניהול מחזור חיים של אובייקטים Delete

    • נעילת שמירת אובייקטים

    • התראות Pub/Sub

    • העברת קטגוריות

    • העלאות שניתן להמשיך

    • כתיבה מחדש של אובייקטים

    • 'מגיש הבקשה משלם'

  • בקרת גישה

    • רשימות של בקרת גישה (ACL) ברמת האובייקט

    • הגדרות CORS

    • מפתח הצפנה באספקת הלקוח (CSEK)

    • מקשי HMAC

מכסות

לכל אזור בכל פרויקט יש מכסת אחסון בבייט. בכל אזור לכל פרויקט יש גם מכסת תעבורת נתונים יוצאת (egress) מ-Cloud Storage לשירותי Google. כדי לראות כמה נפח אחסון או מכסת תעבורת נתונים יוצאת (egress) זמינים, אפשר לעיין בדף Quotas & System Limits (מכסות ומגבלות מערכת). לפרטים, ראו איך מנהלים את המכסות.

שיטות מומלצות

כדי לשפר את הביצועים כשמשתמשים בקטגוריות אזוריות עם Cloud Storage FUSE, מומלץ לשמור על ידית פתוחה של קובץ לאובייקטים שנטענו ולהשתמש בה לכמה פעולות. התוצאה היא ביצועים טובים יותר, כי כך Cloud Storage FUSE לא צריך לבצע מסעות מיותרים ברשת לכל קריאה חוזרת.

המאמרים הבאים