הגדרת מערכי נתונים של Storage Insights

במאמר הזה מוסבר איך להגדיר קבוצות נתונים של Storage Insights.

לפני שמתחילים

לפני שמגדירים מערך נתונים, צריך לבצע את השלבים הבאים.

קבלת התפקידים הנדרשים

כדי לקבל את ההרשאות שדרושות להגדרת מערכי נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקטים של המקור:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות להגדרת מערכי נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי להגדיר מערכי נתונים, צריך את ההרשאות הבאות:

  • הגדרת מערך נתונים:
    • storageinsights.datasetConfigs.create
    • storage.buckets.getObjectInsights
  • קישור למערך נתונים ב-BigQuery: storageinsights.datasetConfigs.linkDataset

יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

הפעלת Storage Insights API

המסוף

הפעלת storageinsights.googleapis.com API

שורת הפקודה

כדי להפעיל את Storage Insights API בפרויקט הנוכחי, מריצים את הפקודה gcloud services enable:

gcloud services enable storageinsights.googleapis.com

מידע נוסף על הפעלת שירותים לפרויקט ב- Google Cloud Google Cloud זמין במאמר הפעלה והשבתה של שירותים.

הגדרת Storage Intelligence

מוודאים ש-Storage Intelligence מוגדר לפרויקט, לתיקייה או לארגון שרוצים לנתח באמצעות מערכי נתונים.

יצירת הגדרה של קבוצת נתונים

כדי ליצור הגדרה של מערך נתונים, פועלים לפי השלבים הבאים. מידע נוסף על השדות שאפשר לציין בהגדרת מערך הנתונים זמין במאמר מאפייני ההגדרה של מערך הנתונים.

המסוף

  1. במסוף Google Cloud , עוברים לדף Cloud Storage Storage Insights.

    כניסה לדף Storage Insights

  2. לוחצים על הגדרת קבוצת נתונים.

  3. בקטע Name your dataset (מתן שם למערך הנתונים), מזינים שם למערך הנתונים. אפשר גם להזין תיאור לקבוצת הנתונים. השמות מזהים את ההגדרות של קבוצת הנתונים והם קבועים. השם יכול להכיל עד 128 תווים, כולל אותיות, מספרים וקווים תחתונים, והוא חייב להתחיל באות.

  4. בקטע Define dataset scope (הגדרת היקף מערך הנתונים):

    • בוחרים באחת מהאפשרויות הבאות:

      • כדי לקבל מטא-נתונים של אחסון לכל הפרויקטים בארגון הנוכחי, בוחרים באפשרות Include the organization.

      • כדי לקבל מטא-נתונים של אחסון לכל הפרויקטים בתיקיות שנבחרו, בוחרים באפשרות Include folders (Sub-organization/departments). מידע על קבלת מזהי תיקיות זמין במאמר הצגה או רישום של תיקיות ופרויקטים. כדי להוסיף תיקיות:

        1. בשדה Folder 1 (תיקייה 1), מזינים את מזהה התיקייה.
        2. אם רוצים להוסיף כמה מזהי תיקיות, לוחצים על + הוספת תיקייה נוספת.
      • כדי לקבל מטא-נתונים של אחסון עבור הפרויקטים שנבחרו, בוחרים באפשרות Include projects by providing project numbers (הכללת פרויקטים על ידי הזנת מספרי פרויקטים). במאמר איך למצוא את השם, המספר והמזהה של הפרויקט מוסבר איך למצוא את מספרי הפרויקטים. כדי להוסיף פרויקטים:

        1. בשדה פרויקט 1, מזינים את מספר הפרויקט.
        2. אם רוצים להוסיף כמה מספרי פרויקטים, לוחצים על + הוספת פרויקט.
      • כדי להוסיף פרויקטים או תיקיות בכמות גדולה, בוחרים באפשרות העלאת רשימה של פרויקטים או תיקיות באמצעות קובץ CSV. קובץ ה-CSV צריך לכלול את מספרי הפרויקטים או את מזהי התיקיות שרוצים לכלול במערך הנתונים. אפשר לציין עד 10,000 פרויקטים או תיקיות בהגדרה של מערך נתונים אחד.

    • מציינים אם לכלול באופן אוטומטי מאגרי מידע עתידיים במשאב שנבחר.

    • אופציונלי: כדי לציין מסננים על מאגרי מידע על סמך אזורים וקידומות של מאגרי מידע, מרחיבים את הקטע Filters (optional). המסננים מופעלים באופן מצטבר על דליים.

      אפשר לכלול או להחריג מאגרי מידע מאזורים ספציפיים. לדוגמה, אפשר לא לכלול קטגוריות באזורים me-central1 ו-me-central2. אפשר גם לכלול או להחריג מאגרי מידע לפי קידומת. לדוגמה, כדי להחריג קטגוריות שמתחילות ב-my-bucket, מזינים את הקידומת my-bucket*.

  5. לוחצים על Continue.

  6. בקטע Select retention period (בחירת תקופת שמירה), בוחרים תקופת שמירה לנתונים במערך הנתונים.

  7. נתוני הפעילות כלולים במערך הנתונים כברירת מחדל, והם מקבלים בירושה את תקופת השמירה של מערך הנתונים. כדי לשנות את תקופת השמירה של מערך הנתונים, בוחרים באפשרות ציון תקופת שמירה לנתוני פעילות, ואז בוחרים את מספר הימים שבהם נתוני הפעילות יישמרו. כדי להשבית את נתוני הפעילות, מגדירים את תקופת השמירה ל-0 ימים.

  8. בקטע Select location to store configured dataset, בוחרים מיקום לאחסון קבוצת הנתונים. לדוגמה: us-central1.

  9. בקטע Select service account type, בוחרים סוג של סוכן שירות למערך הנתונים. בוחרים סוכן שירות בהיקף הגדרה או בהיקף פרויקט לקבוצת הנתונים.

  10. לוחצים על Configure (הגדרה).

שורת הפקודה

  1. כדי ליצור הגדרה של מערך נתונים, מריצים את הפקודה gcloud storage insights dataset-configs create עם הדגלים הנדרשים:

    gcloud storage insights dataset-configs create DATASET_CONFIG_ID \
      --location=LOCATION \
      --organization=SOURCE_ORG_NUMBER \
      --retention-period-days=DATASET_RETENTION_PERIOD_DAYS \
      (SCOPE_FLAG)
    

    מחליפים את:

    • DATASET_CONFIG_ID בשם של הגדרת קבוצת הנתונים. השמות מזהים את ההגדרות של קבוצת הנתונים והם קבועים. השם יכול להכיל עד 128 תווים, כולל אותיות, מספרים וקווים תחתונים, והוא חייב להתחיל באות.

    • LOCATION עם המיקום לאחסון מערך הנתונים. לדוגמה: us-central1.

    • SOURCE_ORG_NUMBER עם המזהה של הארגון שאליו משתייכים פרויקטי המקור. כדי למצוא את מזהה הארגון, אפשר להיעזר במאמר איך מוצאים את מזהה משאב הארגון.

    • DATASET_RETENTION_PERIOD_DAYS עם תקופת השמירה של הנתונים במערך הנתונים.

    • SCOPE_FLAG עם אחד מהדגלים הבאים שמגדירים את היקף הנתונים לאיסוף:

      • --enable-organization-scope: מאפשר למערך הנתונים לאסוף תובנות מכל הקטגוריות בארגון.
      • --source-folders=[SOURCE_FOLDER_NUMBERS,...]: מציינת רשימה של מספרי תיקיות שצריך לכלול במערך הנתונים. במאמר איך מציגים את כל הפרויקטים והתיקיות בהיררכיה מוסבר איך למצוא את מספר התיקייה.
      • --source-folders-file=FILE_PATH: העלאת קובץ CSV לדלי כדי לציין כמה מספרי תיקיות.
      • --source-projects=[SOURCE_PROJECT_NUMBERS,...]: מציינת רשימה של מספרי פרויקטים שייכללו במערך הנתונים. לדוגמה, 464036093014. כדי למצוא את מספר הפרויקט, אפשר להיעזר במאמר איך למצוא את השם, המספר והמזהה של הפרויקט.
      • --source-projects-file=FILE_PATH: מציין כמה מספרי פרויקטים באמצעות העלאת קובץ CSV לדלי.

    אופציונלי: אפשר להשתמש בדגלים הנוספים הבאים כדי להגדיר את מערך הנתונים:

    • משתמשים ב---include-buckets=BUCKET_NAMES_OR_REGEX כדי לכלול דליים ספציפיים לפי שם או ביטוי רגולרי. אי אפשר להשתמש בדגל הזה עם --exclude-buckets.

    • אפשר להשתמש ב---exclude-buckets=BUCKET_NAMES_OR_REGEX כדי להחריג באקטים ספציפיים לפי שם או ביטוי רגולרי. אי אפשר להשתמש בדגל הזה עם --include-buckets.

    • משתמשים ב---project=DESTINATION_PROJECT_ID כדי לציין פרויקט לאחסון ההגדרה של מערך הנתונים ומערך הנתונים שנוצר. אם לא משתמשים בדגל הזה, פרויקט היעד הוא הפרויקט הפעיל. מידע נוסף על מזהי פרויקטים זמין במאמר יצירה וניהול של פרויקטים.

    • אפשר להשתמש ב---auto-add-new-buckets כדי לכלול באופן אוטומטי בעתיד את כל הדליים שיתווספו לפרויקטים של מקורות.

    • אפשר להשתמש ב---skip-verification כדי לדלג על בדיקות ועל כשלים בתהליך האימות, שכולל בדיקות של הרשאות IAM נדרשות. אם משתמשים בדגל הזה, יכול להיות שחלק מהמאגדים או כולם יוחרגו ממערך הנתונים.

    • משתמשים ב---identity=IDENTITY_TYPE כדי לציין את היקף סוכן השירות שנוצר באמצעות הגדרת מערך הנתונים. הערכים האפשריים הם IDENTITY_TYPE_PER_CONFIG או IDENTITY_TYPE_PER_PROJECT. אם לא מציינים ערך, ברירת המחדל היא IDENTITY_TYPE_PER_CONFIG. פרטים נוספים מופיעים במאמר בנושא סוג סוכן שירות.

    • משתמשים ב---description=DESCRIPTION כדי להוסיף תיאור להגדרת קבוצת הנתונים.

    • משתמשים ב-‎ --activity-data-retention-period-days=ACTIVITY_RETENTION_PERIOD_DAYS כדי לציין את תקופת השמירה של נתוני הפעילות במערך הנתונים. כברירת מחדל, נתוני הפעילות נכללים במערך הנתונים, ותקופת השמירה שלהם זהה לזו של מערך הנתונים. כדי לשנות את תקופת השמירה של מערך הנתונים, מציינים את מספר הימים לשמירת נתוני הפעילות. כדי להחריג נתוני פעילות, מגדירים את ACTIVITY_RETENTION_PERIOD_DAYS לערך 0.

    בדוגמה הבאה נוצרת הגדרה של מערך נתונים בשם my-dataset באזור us-central1, לארגון עם המזהה 123456789, עם תקופת שמירה של 30 ימים והיקף שמוגבל לפרויקטים 987654321 ו-123123123:

    gcloud storage insights dataset-configs create my-dataset \
    --location=us-central1 \
    --organization=123456789 \
    --retention-period-days=30 \
    --source-projects=987654321,123123123
    

API ל-JSON

  1. התקנה והפעלה של ה-CLI של gcloud, שמאפשרות ליצור אסימון גישה לכותרת Authorization.

  2. יוצרים קובץ JSON שמכיל את הפרטים הבאים:

    {
      "sourceProjects": {
        "project_numbers": ["PROJECT_NUMBERS", ...]
      },
      "retentionPeriodDays": "RETENTION_PERIOD_DAYS",
      "activityDataRetentionPeriodDays": "ACTIVITY_DATA_RETENTION_PERIOD_DAYS",
      "identity": {
        "type": "IDENTITY_TYPE"
      }
    }

    מחליפים את:

    • PROJECT_NUMBERS עם מספרי הפרויקטים שרוצים לכלול במערך הנתונים. אתם יכולים לציין פרויקט אחד או כמה פרויקטים. צריך לציין את הפרויקטים כרשימה של מחרוזות.

      אפשרות אחרת היא להוסיף ארגון, או תיקייה אחת או יותר שמכילות קטגוריות ואובייקטים שרוצים לעדכן את המטא-נתונים שלהם. כדי לכלול תיקיות או ארגונים, משתמשים בשדות sourceFolders או organizationScope. מידע נוסף זמין במאמר בנושא DatasetConfig.

    • RETENTION_PERIOD_DAYS עם מספר הימים של הנתונים שרוצים לכלול בתמונת המצב של מערך הנתונים. לדוגמה, 90.

    • ACTIVITY_DATA_RETENTION_PERIOD_DAYS עם מספר הימים של נתוני הפעילות שרוצים לתעד בתמונת המצב של מערך הנתונים. כברירת מחדל, נתוני הפעילות נכללים במערך הנתונים, ומקבלים בירושה את תקופת השמירה של מערך הנתונים. כדי לשנות את תקופת השמירה של מערך הנתונים, מציינים את מספר הימים לשמירת נתוני הפעילות. כדי להחריג נתוני פעילות, מגדירים את ACTIVITY_RETENTION_PERIOD_DAYS לערך 0.

    • IDENTITY_TYPE עם סוג חשבון השירות שנוצר לצד הגדרת מערך הנתונים. הערכים האפשריים הם IDENTITY_TYPE_PER_CONFIG או IDENTITY_TYPE_PER_PROJECT. פרטים נוספים מופיעים במאמר בנושא סוג סוכן שירות.

  3. כדי ליצור את הגדרת מערך הנתונים, מפעילים את הפקודה cURL כדי לקרוא ל-API בפורמט JSON עם בקשת ‎DatasetConfig Create:

    curl -X POST --data-binary @JSON_FILE_NAME \
    "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs?datasetConfigId=DATASET_CONFIG_ID" \
      --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
      --header "Accept: application/json" \
      --header "Content-Type: application/json"

    מחליפים את:

    • JSON_FILE_NAME בנתיב לקובץ JSON שיצרתם בשלב הקודם. אפשר גם להעביר מופע של DatasetConfig בגוף הבקשה.

    • PROJECT_ID עם מזהה הפרויקט שאליו ישתייכו הגדרות מערך הנתונים ומערך הנתונים.

    • LOCATION עם המיקום שבו יישמרו מערך הנתונים וההגדרה שלו. לדוגמה: us-central1.

    • DATASET_CONFIG_ID בשם של ההגדרה של קבוצת הנתונים. השמות מזהים את ההגדרות של קבוצת הנתונים והם קבועים. השם יכול להכיל עד 128 תווים, כולל אותיות, מספרים וקווים תחתונים, והוא חייב להתחיל באות.

    • SERVICE_ACCOUNT עם חשבון השירות. לדוגמה, test-service-account@test-project.iam.gserviceaccount.com.

כדי לפתור בעיות בעיבוד תמונות מצב שנרשמות ביומן error_attributes_view, אפשר לעיין במאמר שגיאות במערך נתונים של Storage Insights.

מתן ההרשאות הנדרשות לסוכן שירות

Google Cloud יוצר סוכן שירות בהיקף הגדרה או בהיקף פרויקט כשיוצרים הגדרה של מערך נתונים. השם של סוכן השירות פועל לפי הפורמט service-PROJECT_NUMBER@gcp-sa-storageinsights.iam.gserviceaccount.com, והוא מופיע בדף IAM ב Google Cloud מסוף כשמסמנים את התיבה Include Google-provided role grants. אפשר גם למצוא את השם של סוכן השירות על ידי צפייה במשאב DatasetConfig באמצעות ה-API בפורמט JSON.

כדי שהשירות Storage Insights יוכל ליצור ולכתוב מערכי נתונים, מבקשים מהאדמין להקצות לסוכן השירות את תפקיד השירות Storage Insights Collector (roles/storage.insightsCollectorService) בארגון שמכיל את פרויקטי המקור. צריך להקצות את התפקיד הזה לכל סוכן שירות בהיקף הגדרה שנוצר עבור כל הגדרת מערך נתונים שממנו רוצים לקבל נתונים. אם משתמשים בסוכן שירות בהיקף הפרויקט, צריך להקצות את התפקיד הזה לסוכן השירות רק פעם אחת כדי לקרוא ולכתוב מערכי נתונים לכל הגדרות מערכי הנתונים בפרויקט.

במאמר ניהול הגישה מוסבר איך להקצות תפקידים לפרויקטים.

כדי לקשר מערך נתונים ל-BigQuery, מבצעים את השלבים הבאים:

  1. במסוף Google Cloud , עוברים לדף Cloud Storage Storage Insights.

    כניסה לדף Storage Insights

  2. לוחצים על השם של הגדרת מערך הנתונים שיצרה את מערך הנתונים שרוצים לקשר.

  3. בקטע BigQuery linked dataset (מערך נתונים מקושר ב-BigQuery), לוחצים על Link dataset (קישור מערך נתונים) כדי לקשר את מערך הנתונים.

  1. כדי לקשר מערך נתונים ל-BigQuery, מריצים את הפקודה gcloud storage insights dataset-configs create-link:

    gcloud storage insights dataset-configs create-link DATASET_CONFIG_ID --location=LOCATION

    מחליפים את:

    • DATASET_CONFIG_ID עם השם של הגדרת מערך הנתונים שיצרה את מערך הנתונים לקישור.

    • LOCATION עם המיקום של קבוצת הנתונים. לדוגמה, us-central1.

    אפשר גם לציין נתיב מלא להגדרת מערך הנתונים. לדוגמה:

    gcloud storage insights dataset-configs create-link projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID

    מחליפים את:

    • DESTINATION_PROJECT_ID עם המזהה של הפרויקט שמכיל את הגדרת מערך הנתונים. מידע נוסף על מזהי פרויקטים מופיע במאמר יצירה וניהול של פרויקטים.

    • DATASET_CONFIG_ID עם השם של הגדרת מערך הנתונים שיצרה את מערך הנתונים לקישור.

    • LOCATION עם המיקום של מערך הנתונים וההגדרה של מערך הנתונים. לדוגמה, us-central1.

  1. התקנה והפעלה של ה-CLI של gcloud, שמאפשרות ליצור אסימון גישה לכותרת Authorization.

  2. משתמשים ב- cURL כדי לשלוח קריאה ל-API בפורמט JSON עם בקשת linkDataset DatasetConfig:

    curl -X POST \
      "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigsDATASET_CONFIG_ID:linkDataset?" \
        --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
        --header "Accept: application/json" \
        --header "Content-Type: application/json"
    

    מחליפים את:

    • JSON_FILE_NAME בנתיב לקובץ ה-JSON שיצרתם.

    • PROJECT_ID עם מזהה הפרויקט שאליו שייכת ההגדרה של מערך הנתונים.

    • LOCATION עם המיקום שבו נמצאים מערך הנתונים וההגדרה שלו. לדוגמה: us-central1.

    • DATASET_CONFIG_ID עם השם של הגדרת מערך הנתונים שיצרה את מערך הנתונים לקישור.

    • SERVICE_ACCOUNT עם חשבון השירות. לדוגמה, test-service-account@test-project.iam.gserviceaccount.com.

המאמרים הבאים