במאמר הזה מוסבר איך להגדיר קבוצות נתונים של Storage Insights.
לפני שמתחילים
לפני שמגדירים מערך נתונים, צריך לבצע את השלבים הבאים.
קבלת התפקידים הנדרשים
כדי לקבל את ההרשאות שדרושות להגדרת מערכי נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקטים של המקור:
-
כדי להגדיר מערך נתונים:
אדמין ב-Storage Insights (
roles/storageinsights.admin) -
כדי לקשר מערך נתונים:
-
אנליסט ב-Storage Insights (
roles/storageinsights.analyst) -
אדמין של BigQuery (
roles/bigquery.admin)
-
אנליסט ב-Storage Insights (
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות להגדרת מערכי נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי להגדיר מערכי נתונים, צריך את ההרשאות הבאות:
-
הגדרת מערך נתונים:
-
storageinsights.datasetConfigs.create -
storage.buckets.getObjectInsights
-
-
קישור למערך נתונים ב-BigQuery:
storageinsights.datasetConfigs.linkDataset
יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
הפעלת Storage Insights API
המסוף
שורת הפקודה
כדי להפעיל את Storage Insights API בפרויקט הנוכחי, מריצים את הפקודה gcloud services enable:
gcloud services enable storageinsights.googleapis.com
מידע נוסף על הפעלת שירותים לפרויקט ב- Google Cloud Google Cloud זמין במאמר הפעלה והשבתה של שירותים.
הגדרת Storage Intelligence
מוודאים ש-Storage Intelligence מוגדר לפרויקט, לתיקייה או לארגון שרוצים לנתח באמצעות מערכי נתונים.
יצירת הגדרה של קבוצת נתונים
כדי ליצור הגדרה של מערך נתונים, פועלים לפי השלבים הבאים. מידע נוסף על השדות שאפשר לציין בהגדרת מערך הנתונים זמין במאמר מאפייני ההגדרה של מערך הנתונים.
המסוף
- במסוף Google Cloud , עוברים לדף Cloud Storage Storage Insights.
לוחצים על הגדרת קבוצת נתונים.
בקטע Name your dataset (מתן שם למערך הנתונים), מזינים שם למערך הנתונים. אפשר גם להזין תיאור לקבוצת הנתונים. השמות מזהים את ההגדרות של קבוצת הנתונים והם קבועים. השם יכול להכיל עד 128 תווים, כולל אותיות, מספרים וקווים תחתונים, והוא חייב להתחיל באות.
בקטע Define dataset scope (הגדרת היקף מערך הנתונים):
בוחרים באחת מהאפשרויות הבאות:
כדי לקבל מטא-נתונים של אחסון לכל הפרויקטים בארגון הנוכחי, בוחרים באפשרות Include the organization.
כדי לקבל מטא-נתונים של אחסון לכל הפרויקטים בתיקיות שנבחרו, בוחרים באפשרות Include folders (Sub-organization/departments). מידע על קבלת מזהי תיקיות זמין במאמר הצגה או רישום של תיקיות ופרויקטים. כדי להוסיף תיקיות:
- בשדה Folder 1 (תיקייה 1), מזינים את מזהה התיקייה.
- אם רוצים להוסיף כמה מזהי תיקיות, לוחצים על + הוספת תיקייה נוספת.
כדי לקבל מטא-נתונים של אחסון עבור הפרויקטים שנבחרו, בוחרים באפשרות Include projects by providing project numbers (הכללת פרויקטים על ידי הזנת מספרי פרויקטים). במאמר איך למצוא את השם, המספר והמזהה של הפרויקט מוסבר איך למצוא את מספרי הפרויקטים. כדי להוסיף פרויקטים:
- בשדה פרויקט 1, מזינים את מספר הפרויקט.
- אם רוצים להוסיף כמה מספרי פרויקטים, לוחצים על + הוספת פרויקט.
כדי להוסיף פרויקטים או תיקיות בכמות גדולה, בוחרים באפשרות העלאת רשימה של פרויקטים או תיקיות באמצעות קובץ CSV. קובץ ה-CSV צריך לכלול את מספרי הפרויקטים או את מזהי התיקיות שרוצים לכלול במערך הנתונים. אפשר לציין עד 10,000 פרויקטים או תיקיות בהגדרה של מערך נתונים אחד.
מציינים אם לכלול באופן אוטומטי מאגרי מידע עתידיים במשאב שנבחר.
אופציונלי: כדי לציין מסננים על מאגרי מידע על סמך אזורים וקידומות של מאגרי מידע, מרחיבים את הקטע Filters (optional). המסננים מופעלים באופן מצטבר על דליים.
אפשר לכלול או להחריג מאגרי מידע מאזורים ספציפיים. לדוגמה, אפשר לא לכלול קטגוריות באזורים
me-central1ו-me-central2. אפשר גם לכלול או להחריג מאגרי מידע לפי קידומת. לדוגמה, כדי להחריג קטגוריות שמתחילות ב-my-bucket, מזינים את הקידומתmy-bucket*.
לוחצים על Continue.
בקטע Select retention period (בחירת תקופת שמירה), בוחרים תקופת שמירה לנתונים במערך הנתונים.
נתוני הפעילות כלולים במערך הנתונים כברירת מחדל, והם מקבלים בירושה את תקופת השמירה של מערך הנתונים. כדי לשנות את תקופת השמירה של מערך הנתונים, בוחרים באפשרות ציון תקופת שמירה לנתוני פעילות, ואז בוחרים את מספר הימים שבהם נתוני הפעילות יישמרו. כדי להשבית את נתוני הפעילות, מגדירים את תקופת השמירה ל-
0ימים.בקטע Select location to store configured dataset, בוחרים מיקום לאחסון קבוצת הנתונים. לדוגמה:
us-central1.בקטע Select service account type, בוחרים סוג של סוכן שירות למערך הנתונים. בוחרים סוכן שירות בהיקף הגדרה או בהיקף פרויקט לקבוצת הנתונים.
לוחצים על Configure (הגדרה).
שורת הפקודה
כדי ליצור הגדרה של מערך נתונים, מריצים את הפקודה
gcloud storage insights dataset-configs createעם הדגלים הנדרשים:gcloud storage insights dataset-configs create DATASET_CONFIG_ID \ --location=LOCATION \ --organization=SOURCE_ORG_NUMBER \ --retention-period-days=DATASET_RETENTION_PERIOD_DAYS \ (SCOPE_FLAG)
מחליפים את:
DATASET_CONFIG_IDבשם של הגדרת קבוצת הנתונים. השמות מזהים את ההגדרות של קבוצת הנתונים והם קבועים. השם יכול להכיל עד 128 תווים, כולל אותיות, מספרים וקווים תחתונים, והוא חייב להתחיל באות.
LOCATIONעם המיקום לאחסון מערך הנתונים. לדוגמה:us-central1.
SOURCE_ORG_NUMBERעם המזהה של הארגון שאליו משתייכים פרויקטי המקור. כדי למצוא את מזהה הארגון, אפשר להיעזר במאמר איך מוצאים את מזהה משאב הארגון.
DATASET_RETENTION_PERIOD_DAYSעם תקופת השמירה של הנתונים במערך הנתונים.
SCOPE_FLAGעם אחד מהדגלים הבאים שמגדירים את היקף הנתונים לאיסוף:-
--enable-organization-scope: מאפשר למערך הנתונים לאסוף תובנות מכל הקטגוריות בארגון. --source-folders=[SOURCE_FOLDER_NUMBERS,...]: מציינת רשימה של מספרי תיקיות שצריך לכלול במערך הנתונים. במאמר איך מציגים את כל הפרויקטים והתיקיות בהיררכיה מוסבר איך למצוא את מספר התיקייה.-
--source-folders-file=FILE_PATH: העלאת קובץ CSV לדלי כדי לציין כמה מספרי תיקיות. -
--source-projects=[SOURCE_PROJECT_NUMBERS,...]: מציינת רשימה של מספרי פרויקטים שייכללו במערך הנתונים. לדוגמה,464036093014. כדי למצוא את מספר הפרויקט, אפשר להיעזר במאמר איך למצוא את השם, המספר והמזהה של הפרויקט. -
--source-projects-file=FILE_PATH: מציין כמה מספרי פרויקטים באמצעות העלאת קובץ CSV לדלי.
-
אופציונלי: אפשר להשתמש בדגלים הנוספים הבאים כדי להגדיר את מערך הנתונים:
משתמשים ב-
--include-buckets=BUCKET_NAMES_OR_REGEXכדי לכלול דליים ספציפיים לפי שם או ביטוי רגולרי. אי אפשר להשתמש בדגל הזה עם--exclude-buckets.אפשר להשתמש ב-
--exclude-buckets=BUCKET_NAMES_OR_REGEXכדי להחריג באקטים ספציפיים לפי שם או ביטוי רגולרי. אי אפשר להשתמש בדגל הזה עם--include-buckets.משתמשים ב-
--project=DESTINATION_PROJECT_IDכדי לציין פרויקט לאחסון ההגדרה של מערך הנתונים ומערך הנתונים שנוצר. אם לא משתמשים בדגל הזה, פרויקט היעד הוא הפרויקט הפעיל. מידע נוסף על מזהי פרויקטים זמין במאמר יצירה וניהול של פרויקטים.אפשר להשתמש ב-
--auto-add-new-bucketsכדי לכלול באופן אוטומטי בעתיד את כל הדליים שיתווספו לפרויקטים של מקורות.אפשר להשתמש ב-
--skip-verificationכדי לדלג על בדיקות ועל כשלים בתהליך האימות, שכולל בדיקות של הרשאות IAM נדרשות. אם משתמשים בדגל הזה, יכול להיות שחלק מהמאגדים או כולם יוחרגו ממערך הנתונים.משתמשים ב-
--identity=IDENTITY_TYPEכדי לציין את היקף סוכן השירות שנוצר באמצעות הגדרת מערך הנתונים. הערכים האפשריים הםIDENTITY_TYPE_PER_CONFIGאוIDENTITY_TYPE_PER_PROJECT. אם לא מציינים ערך, ברירת המחדל היאIDENTITY_TYPE_PER_CONFIG. פרטים נוספים מופיעים במאמר בנושא סוג סוכן שירות.משתמשים ב-
--description=DESCRIPTIONכדי להוסיף תיאור להגדרת קבוצת הנתונים.משתמשים ב-
--activity-data-retention-period-days=ACTIVITY_RETENTION_PERIOD_DAYSכדי לציין את תקופת השמירה של נתוני הפעילות במערך הנתונים. כברירת מחדל, נתוני הפעילות נכללים במערך הנתונים, ותקופת השמירה שלהם זהה לזו של מערך הנתונים. כדי לשנות את תקופת השמירה של מערך הנתונים, מציינים את מספר הימים לשמירת נתוני הפעילות. כדי להחריג נתוני פעילות, מגדירים את ACTIVITY_RETENTION_PERIOD_DAYS לערך0.
בדוגמה הבאה נוצרת הגדרה של מערך נתונים בשם
my-datasetבאזורus-central1, לארגון עם המזהה123456789, עם תקופת שמירה של30ימים והיקף שמוגבל לפרויקטים987654321ו-123123123:gcloud storage insights dataset-configs create my-dataset \ --location=us-central1 \ --organization=123456789 \ --retention-period-days=30 \ --source-projects=987654321,123123123
API ל-JSON
התקנה והפעלה של ה-CLI של gcloud, שמאפשרות ליצור אסימון גישה לכותרת
Authorization.יוצרים קובץ JSON שמכיל את הפרטים הבאים:
{ "sourceProjects": { "project_numbers": ["PROJECT_NUMBERS", ...] }, "retentionPeriodDays": "RETENTION_PERIOD_DAYS", "activityDataRetentionPeriodDays": "ACTIVITY_DATA_RETENTION_PERIOD_DAYS", "identity": { "type": "IDENTITY_TYPE" } }
מחליפים את:
PROJECT_NUMBERSעם מספרי הפרויקטים שרוצים לכלול במערך הנתונים. אתם יכולים לציין פרויקט אחד או כמה פרויקטים. צריך לציין את הפרויקטים כרשימה של מחרוזות.אפשרות אחרת היא להוסיף ארגון, או תיקייה אחת או יותר שמכילות קטגוריות ואובייקטים שרוצים לעדכן את המטא-נתונים שלהם. כדי לכלול תיקיות או ארגונים, משתמשים בשדות
sourceFoldersאוorganizationScope. מידע נוסף זמין במאמר בנושאDatasetConfig.
RETENTION_PERIOD_DAYSעם מספר הימים של הנתונים שרוצים לכלול בתמונת המצב של מערך הנתונים. לדוגמה,90.
ACTIVITY_DATA_RETENTION_PERIOD_DAYSעם מספר הימים של נתוני הפעילות שרוצים לתעד בתמונת המצב של מערך הנתונים. כברירת מחדל, נתוני הפעילות נכללים במערך הנתונים, ומקבלים בירושה את תקופת השמירה של מערך הנתונים. כדי לשנות את תקופת השמירה של מערך הנתונים, מציינים את מספר הימים לשמירת נתוני הפעילות. כדי להחריג נתוני פעילות, מגדירים את ACTIVITY_RETENTION_PERIOD_DAYS לערך0.
IDENTITY_TYPEעם סוג חשבון השירות שנוצר לצד הגדרת מערך הנתונים. הערכים האפשריים הםIDENTITY_TYPE_PER_CONFIGאוIDENTITY_TYPE_PER_PROJECT. פרטים נוספים מופיעים במאמר בנושא סוג סוכן שירות.
כדי ליצור את הגדרת מערך הנתונים, מפעילים את הפקודה
cURLכדי לקרוא ל-API בפורמט JSON עם בקשת DatasetConfigCreate:curl -X POST --data-binary @JSON_FILE_NAME \ "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs?datasetConfigId=DATASET_CONFIG_ID" \ --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \ --header "Accept: application/json" \ --header "Content-Type: application/json"
מחליפים את:
JSON_FILE_NAMEבנתיב לקובץ JSON שיצרתם בשלב הקודם. אפשר גם להעביר מופע שלDatasetConfigבגוף הבקשה.
PROJECT_IDעם מזהה הפרויקט שאליו ישתייכו הגדרות מערך הנתונים ומערך הנתונים.
LOCATIONעם המיקום שבו יישמרו מערך הנתונים וההגדרה שלו. לדוגמה:us-central1.
DATASET_CONFIG_IDבשם של ההגדרה של קבוצת הנתונים. השמות מזהים את ההגדרות של קבוצת הנתונים והם קבועים. השם יכול להכיל עד 128 תווים, כולל אותיות, מספרים וקווים תחתונים, והוא חייב להתחיל באות.
SERVICE_ACCOUNTעם חשבון השירות. לדוגמה,test-service-account@test-project.iam.gserviceaccount.com.
כדי לפתור בעיות בעיבוד תמונות מצב שנרשמות ביומן error_attributes_view, אפשר לעיין במאמר שגיאות במערך נתונים של Storage Insights.
מתן ההרשאות הנדרשות לסוכן שירות
Google Cloud יוצר סוכן שירות בהיקף הגדרה או בהיקף פרויקט כשיוצרים הגדרה של מערך נתונים. השם של סוכן השירות פועל לפי הפורמט service-PROJECT_NUMBER@gcp-sa-storageinsights.iam.gserviceaccount.com, והוא מופיע בדף IAM ב Google Cloud מסוף כשמסמנים את התיבה Include Google-provided role grants.
אפשר גם למצוא את השם של סוכן השירות על ידי צפייה במשאב DatasetConfig באמצעות ה-API בפורמט JSON.
כדי שהשירות Storage Insights יוכל ליצור ולכתוב מערכי נתונים, מבקשים מהאדמין להקצות לסוכן השירות את תפקיד השירות Storage Insights Collector (roles/storage.insightsCollectorService) בארגון שמכיל את פרויקטי המקור.
צריך להקצות את התפקיד הזה לכל סוכן שירות בהיקף הגדרה שנוצר עבור כל הגדרת מערך נתונים שממנו רוצים לקבל נתונים. אם משתמשים בסוכן שירות בהיקף הפרויקט, צריך להקצות את התפקיד הזה לסוכן השירות רק פעם אחת כדי לקרוא ולכתוב מערכי נתונים לכל הגדרות מערכי הנתונים בפרויקט.
במאמר ניהול הגישה מוסבר איך להקצות תפקידים לפרויקטים.
קישור מערך נתונים
כדי לקשר מערך נתונים ל-BigQuery, מבצעים את השלבים הבאים:
המסוף
- במסוף Google Cloud , עוברים לדף Cloud Storage Storage Insights.
לוחצים על השם של הגדרת מערך הנתונים שיצרה את מערך הנתונים שרוצים לקשר.
בקטע BigQuery linked dataset (מערך נתונים מקושר ב-BigQuery), לוחצים על Link dataset (קישור מערך נתונים) כדי לקשר את מערך הנתונים.
שורת הפקודה
כדי לקשר מערך נתונים ל-BigQuery, מריצים את הפקודה
gcloud storage insights dataset-configs create-link:gcloud storage insights dataset-configs create-link DATASET_CONFIG_ID --location=LOCATION
מחליפים את:
DATASET_CONFIG_IDעם השם של הגדרת מערך הנתונים שיצרה את מערך הנתונים לקישור.
LOCATIONעם המיקום של קבוצת הנתונים. לדוגמה,us-central1.
אפשר גם לציין נתיב מלא להגדרת מערך הנתונים. לדוגמה:
gcloud storage insights dataset-configs create-link projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID
מחליפים את:
DESTINATION_PROJECT_IDעם המזהה של הפרויקט שמכיל את הגדרת מערך הנתונים. מידע נוסף על מזהי פרויקטים מופיע במאמר יצירה וניהול של פרויקטים.
DATASET_CONFIG_IDעם השם של הגדרת מערך הנתונים שיצרה את מערך הנתונים לקישור.
LOCATIONעם המיקום של מערך הנתונים וההגדרה של מערך הנתונים. לדוגמה,us-central1.
API ל-JSON
התקנה והפעלה של ה-CLI של gcloud, שמאפשרות ליצור אסימון גישה לכותרת
Authorization.משתמשים ב-
cURLכדי לשלוח קריאה ל-API בפורמט JSON עם בקשתlinkDatasetDatasetConfig:curl -X POST \ "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigsDATASET_CONFIG_ID:linkDataset?" \ --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \ --header "Accept: application/json" \ --header "Content-Type: application/json"מחליפים את:
JSON_FILE_NAMEבנתיב לקובץ ה-JSON שיצרתם.
PROJECT_IDעם מזהה הפרויקט שאליו שייכת ההגדרה של מערך הנתונים.
LOCATIONעם המיקום שבו נמצאים מערך הנתונים וההגדרה שלו. לדוגמה:us-central1.
DATASET_CONFIG_IDעם השם של הגדרת מערך הנתונים שיצרה את מערך הנתונים לקישור.
SERVICE_ACCOUNTעם חשבון השירות. לדוגמה,test-service-account@test-project.iam.gserviceaccount.com.
המאמרים הבאים
- צפייה במערכי נתונים מקושרים
- הרצת שאילתות במערך נתונים מקושר.
- ניתוח הנתונים המאוחסנים באמצעות Gemini Cloud Assist
- ניהול ההגדרות של קבוצות הנתונים, כולל עדכון, הצגה, רישום ומחיקה שלהן.