Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

הגדרת מערכי נתונים של Storage Insights

אתם יכולים להגדיר מערכי נתונים של Storage Insights כדי לאסוף ולנתח מטא-נתונים ונתוני פעילות מהקטגוריות ומהאובייקטים של Cloud Storage. התובנות שנוצרות ממערכי הנתונים האלה עוזרות לזהות הזדמנויות לאופטימיזציה של העלויות, לבצע ביקורות אבטחה ולתמוך בניטור תפעולי. במאמר הזה מוסבר איך להגדיר מערכי נתונים של Storage Insights.

לפני שמתחילים

לפני שמגדירים מערך נתונים, צריך לבצע את השלבים הבאים.

קבלת התפקידים הנדרשים

כדי לקבל את ההרשאות שדרושות להגדרת מערכי נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקטים של המקור:

כדי להגדיר מערך נתונים: אדמין ב-Storage Insights (roles/storageinsights.admin)
כדי לקשר מערך נתונים:
- אנליסט ב-Storage Insights (roles/storageinsights.analyst)
- אדמין של BigQuery (roles/bigquery.admin)

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות להגדרת מערכי נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי להגדיר מערכי נתונים, צריך את ההרשאות הבאות:

הגדרת מערך נתונים:
- storageinsights.datasetConfigs.create
- storage.buckets.getObjectInsights
קישור למערך נתונים ב-BigQuery: storageinsights.datasetConfigs.linkDataset

יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

הפעלת Storage Insights API

המסוף

הפעלת storageinsights.googleapis.com API

שורת הפקודה

כדי להפעיל את Storage Insights API בפרויקט הנוכחי, מריצים את הפקודה gcloud services enable:

gcloud services enable storageinsights.googleapis.com

מידע נוסף על הפעלת שירותים לפרויקט ב- Google Cloud Google Cloud זמין במאמר הפעלה והשבתה של שירותים.

הגדרת Storage Intelligence

מוודאים שהגדרתם את Storage Intelligence לפרויקט, לתיקייה או לארגון שאתם רוצים לנתח באמצעות מערכי נתונים.

יצירת הגדרה של קבוצת נתונים

כדי ליצור הגדרה של מערך נתונים, פועלים לפי השלבים הבאים. מידע נוסף על השדות שאפשר לציין בהגדרת מערך הנתונים זמין במאמר מאפייני ההגדרה של מערך הנתונים.

המסוף

במסוף Google Cloud , עוברים לדף Storage Insights של Cloud Storage.

מעבר אל Storage Insights
לוחצים על הגדרת קבוצת נתונים.
בקטע Name your dataset (מתן שם למערך הנתונים), מזינים שם למערך הנתונים. אפשר גם להזין תיאור לקבוצת הנתונים. השמות מזהים את ההגדרות של מערך הנתונים והם קבועים. השם יכול להכיל עד 128 תווים, כולל אותיות, מספרים וקווים תחתונים, והוא חייב להתחיל באות.
בקטע Define dataset scope (הגדרת היקף מערך הנתונים), מבצעים את הפעולות הבאות:
- בוחרים באחת מהאפשרויות הבאות:
  - כדי לקבל מטא-נתונים של אחסון לכל הפרויקטים בארגון הנוכחי, בוחרים באפשרות Include the organization.
  - כדי לקבל מטא-נתונים של אחסון לכל הפרויקטים בתיקיות שנבחרו, בוחרים באפשרות Include folders (Sub-organization/departments). מידע על קבלת מזהי תיקיות זמין במאמר הצגה או רישום של תיקיות ופרויקטים. כדי להוסיף תיקיות:
    1. בשדה Folder 1 (תיקייה 1), מזינים את מזהה התיקייה.
    2. אם רוצים להוסיף כמה מזהי תיקיות, לוחצים על + הוספת תיקייה נוספת.
  - כדי לקבל מטא-נתונים של אחסון עבור הפרויקטים שנבחרו, בוחרים באפשרות Include projects by providing project numbers (הכללת פרויקטים על ידי הזנת מספרי פרויקטים). במאמר איך למצוא את השם, המספר והמזהה של הפרויקט מוסבר איך למצוא את מספרי הפרויקטים. כדי להוסיף פרויקטים:
    1. בשדה פרויקט 1, מזינים את מספר הפרויקט.
    2. אם רוצים להוסיף כמה מספרי פרויקטים, לוחצים על + הוספת פרויקט.
  - כדי להוסיף פרויקטים או תיקיות בכמות גדולה, בוחרים באפשרות העלאת רשימה של פרויקטים או תיקיות באמצעות קובץ CSV. קובץ ה-CSV צריך לכלול את מספרי הפרויקטים או את מזהי התיקיות שרוצים לכלול במערך הנתונים. אפשר לציין עד 10,000 פרויקטים או תיקיות בהגדרה של מערך נתונים אחד.
- מציינים אם לכלול באופן אוטומטי מאגרי מידע עתידיים במשאב שנבחר.
- אפשר גם להרחיב את הקטע Filters (optional) כדי לציין מסננים על מאגרי מידע על סמך אזורים וקידומות של מאגרי מידע. המסננים מופעלים באופן מצטבר על קבוצות.
  
  אפשר לכלול או להחריג מאגרי מידע מאזורים ספציפיים. לדוגמה, אפשר לא לכלול קטגוריות באזורים me-central1 ו-me-central2. אפשר גם לכלול או להחריג מאגרי מידע לפי קידומת. לדוגמה, כדי להחריג מאגרי מידע שמתחילים ב-my-bucket, מזינים את הקידומת my-bucket*.
לוחצים על Continue.
בקטע Select retention period (בחירת תקופת שמירה), בוחרים תקופת שמירה לנתונים במערך הנתונים.
נתוני הפעילות כלולים במערך הנתונים כברירת מחדל, והם מקבלים בירושה את תקופת השמירה של מערך הנתונים. כדי לשנות את תקופת השמירה של מערך הנתונים, בוחרים באפשרות ציון תקופת שמירה לנתוני פעילות ואז בוחרים את מספר הימים שבהם נתוני הפעילות יישמרו. כדי להשבית את נתוני הפעילות, צריך להגדיר את תקופת השמירה ל-0 ימים.
בקטע Select location to store configured dataset, בוחרים מיקום לאחסון קבוצת הנתונים. לדוגמה: us-central1.
בקטע Select service account type, בוחרים סוג של סוכן שירות למערך הנתונים. בוחרים סוכן שירות בהיקף פרויקט או בהיקף הגדרה לקבוצת הנתונים.
לוחצים על Configure (הגדרה).

שורת הפקודה

כדי ליצור הגדרה של מערך נתונים, מריצים את הפקודה gcloud storage insights dataset-configs create עם הדגלים הנדרשים:
```
gcloud storage insights dataset-configs create DATASET_CONFIG_ID \
  --location=LOCATION \
  --organization=SOURCE_ORG_NUMBER \
  --retention-period-days=DATASET_RETENTION_PERIOD_DAYS \
  (SCOPE_FLAG)
```
מחליפים את:
- ‫DATASET_CONFIG_ID בשם של הגדרת קבוצת הנתונים. השמות מזהים את ההגדרות של מערך הנתונים והם קבועים. השם יכול להכיל עד 128 תווים, כולל אותיות, מספרים וקווים תחתונים, והוא חייב להתחיל באות.
- ‫LOCATION עם המיקום לאחסון מערך הנתונים. לדוגמה: us-central1.
- ‫SOURCE_ORG_NUMBER עם המזהה של הארגון שאליו משתייכים פרויקטי המקור. כדי למצוא את מזהה הארגון, אפשר להיעזר במאמר איך מוצאים את מזהה משאב הארגון.
- ‫DATASET_RETENTION_PERIOD_DAYS עם תקופת השמירה של הנתונים במערך הנתונים.
- ‫SCOPE_FLAG עם אחד מהדגלים הבאים שמגדירים את היקף הנתונים לאיסוף:
  - ‫--enable-organization-scope: מאפשר למערך הנתונים לאסוף תובנות מכל הבאקטים בארגון.
  - --source-folders=[SOURCE_FOLDER_NUMBERS,...]: מציינת רשימה של מספרי תיקיות שצריך לכלול במערך הנתונים. במאמר איך מציגים את כל הפרויקטים והתיקיות בהיררכיה מוסבר איך למצוא את מספר התיקייה.
  - ‫--source-folders-file=FILE_PATH: העלאה של קובץ CSV לדלי כדי לציין כמה מספרי תיקיות.
  - ‫--source-projects=[SOURCE_PROJECT_NUMBERS,...]: מציינת רשימה של מספרי פרויקטים שייכללו במערך הנתונים. לדוגמה, 464036093014. כדי למצוא את מספר הפרויקט, אפשר להיעזר במאמר איך למצוא את השם, המספר והמזהה של הפרויקט.
  - ‫--source-projects-file=FILE_PATH: העלאת קובץ CSV לדלי כדי לציין כמה מספרי פרויקטים.
אופציונלי: אפשר להשתמש בדגלים הנוספים הבאים כדי להגדיר את מערך הנתונים:
- משתמשים ב---include-buckets=BUCKET_NAMES_OR_REGEX כדי לכלול דליים ספציפיים לפי שם או ביטוי רגולרי. אי אפשר להשתמש בדגל הזה עם --exclude-buckets.
- אפשר להשתמש ב---exclude-buckets=BUCKET_NAMES_OR_REGEX כדי להחריג באקטים ספציפיים לפי שם או ביטוי רגולרי. אי אפשר להשתמש בדגל הזה עם --include-buckets.
- משתמשים ב---project=DESTINATION_PROJECT_ID כדי לציין פרויקט לאחסון של הגדרות מערך הנתונים ומערך הנתונים שנוצר. אם לא משתמשים בדגל הזה, פרויקט היעד הוא הפרויקט הפעיל. מידע נוסף על מזהי פרויקטים זמין במאמר יצירה וניהול של פרויקטים.
- אפשר להשתמש ב---auto-add-new-buckets כדי לכלול באופן אוטומטי בעתיד את כל הדליים שיתווספו לפרויקטים של מקורות.
- אפשר להשתמש ב---skip-verification כדי לדלג על בדיקות ועל כשלים בתהליך האימות, שכולל בדיקות של הרשאות IAM נדרשות. אם משתמשים בדגל הזה, יכול להיות שחלק מהמאגדים או כולם לא ייכללו במערך הנתונים.
- משתמשים ב---identity=IDENTITY_TYPE כדי לציין את היקף סוכן השירות שנוצר באמצעות הגדרת מערך הנתונים. הערכים האפשריים הם IDENTITY_TYPE_PER_CONFIG או IDENTITY_TYPE_PER_PROJECT. אם לא מצוין ערך, ברירת המחדל היא IDENTITY_TYPE_PER_CONFIG. פרטים נוספים מופיעים במאמר בנושא סוג סוכן שירות.
- משתמשים ב---description=DESCRIPTION כדי להוסיף תיאור להגדרת קבוצת הנתונים.
- משתמשים ב---activity-data-retention-period-days=ACTIVITY_RETENTION_PERIOD_DAYS כדי לציין את תקופת השמירה של נתוני הפעילות במערך הנתונים. כברירת מחדל, נתוני הפעילות נכללים במערך הנתונים, ותקופת השמירה שלהם זהה לזו של מערך הנתונים. כדי לבטל את תקופת השמירה של מערך הנתונים, צריך לציין את מספר הימים לשמירת נתוני הפעילות. כדי להחריג נתוני פעילות, מגדירים את ACTIVITY_RETENTION_PERIOD_DAYS לערך 0.
בדוגמה הבאה נוצרת הגדרה של מערך נתונים בשם my-dataset באזור us-central1, לארגון עם המזהה 123456789, עם תקופת שמירה של 30 ימים והיקף שמוגבל לפרויקטים 987654321 ו-123123123:
```
gcloud storage insights dataset-configs create my-dataset \
--location=us-central1 \
--organization=123456789 \
--retention-period-days=30 \
--source-projects=987654321,123123123
```

‫API בפורמט JSON

התקנה והפעלה של ה-CLI של gcloud, שמאפשרות ליצור אסימון גישה לכותרת Authorization.

יוצרים קובץ JSON שמכיל את הפרטים הבאים:
```
{
  "sourceProjects": {
    "project_numbers": ["PROJECT_NUMBERS", ...]
  },
  "retentionPeriodDays": "RETENTION_PERIOD_DAYS",
  "activityDataRetentionPeriodDays": "ACTIVITY_DATA_RETENTION_PERIOD_DAYS",
  "identity": {
    "type": "IDENTITY_TYPE"
  }
}
```
מחליפים את:
- ‫PROJECT_NUMBERS עם מספרי הפרויקטים שרוצים לכלול במערך הנתונים. אתם יכולים לציין פרויקט אחד או כמה פרויקטים. צריך לציין את הפרויקטים כרשימה של מחרוזות.
  
  אפשרות אחרת היא להוסיף ארגון, או תיקייה אחת או יותר שמכילות קטגוריות ואובייקטים שרוצים לעדכן את המטא-נתונים שלהם. כדי לכלול תיקיות או ארגונים, משתמשים בשדות sourceFolders או organizationScope. מידע נוסף זמין במאמר בנושא DatasetConfig.
- ‫RETENTION_PERIOD_DAYS עם מספר הימים של הנתונים שרוצים לכלול בתמונת המצב של מערך הנתונים. לדוגמה, 90.
- ‫ACTIVITY_DATA_RETENTION_PERIOD_DAYS עם מספר הימים של נתוני הפעילות שרוצים לתעד בתמונת המצב של מערך הנתונים. כברירת מחדל, נתוני הפעילות נכללים במערך הנתונים, ומקבלים בירושה את תקופת השמירה של מערך הנתונים. כדי לבטל את תקופת השמירה של מערך הנתונים, צריך לציין את מספר הימים לשמירת נתוני הפעילות. כדי להחריג נתוני פעילות, מגדירים את ACTIVITY_RETENTION_PERIOD_DAYS לערך 0.
- IDENTITY_TYPE עם סוג חשבון השירות שנוצר לצד הגדרת מערך הנתונים. הערכים האפשריים הם IDENTITY_TYPE_PER_CONFIG או IDENTITY_TYPE_PER_PROJECT. פרטים נוספים מופיעים במאמר בנושא סוג סוכן שירות.
כדי ליצור את ההגדרה של קבוצת הנתונים, מפעילים את הפקודה cURL כדי לקרוא ל-API בפורמט JSON עם בקשת ‎DatasetConfig Create:
```
curl -X POST --data-binary @JSON_FILE_NAME \
"https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs?datasetConfigId=DATASET_CONFIG_ID" \
  --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
  --header "Accept: application/json" \
  --header "Content-Type: application/json"
```
מחליפים את:
- ‫JSON_FILE_NAME בנתיב לקובץ JSON שיצרתם בשלב הקודם. אפשר גם להעביר מופע של DatasetConfig בגוף הבקשה.
- ‫PROJECT_ID עם מזהה הפרויקט שאליו ישתייכו הגדרות מערך הנתונים ומערך הנתונים.
- ‫LOCATION עם המיקום שבו יישמרו מערך הנתונים וההגדרה שלו. לדוגמה: us-central1.
- ‫DATASET_CONFIG_ID בשם של הגדרת קבוצת הנתונים. השמות מזהים את ההגדרות של מערך הנתונים והם קבועים. השם יכול להכיל עד 128 תווים, כולל אותיות, מספרים וקווים תחתונים, והוא חייב להתחיל באות.
- ‫SERVICE_ACCOUNT עם חשבון השירות. לדוגמה, test-service-account@test-project.iam.gserviceaccount.com.

כדי לפתור בעיות בעיבוד תמונות מצב שמתועדות ב-error_attributes_view, אפשר לעיין במאמר שגיאות במערך הנתונים של Storage Insights.

איך נותנים לסוכן השירות את ההרשאות הנדרשות

Google Cloud יוצר סוכן שירות בהיקף הגדרה או בהיקף פרויקט כשיוצרים הגדרה של מערך נתונים. השם של סוכן השירות פועל לפי הפורמט service-PROJECT_NUMBER@gcp-sa-storageinsights.iam.gserviceaccount.com, והוא מופיע בדף IAM ב Google Cloud מסוף כשמסמנים את התיבה Include Google-provided role grants. אפשר גם למצוא את השם של סוכן השירות על ידי צפייה במשאב DatasetConfig באמצעות ה-API בפורמט JSON.

כדי שהשירות Storage Insights יוכל ליצור ולכתוב מערכי נתונים, מבקשים מהאדמין להקצות לסוכן השירות את תפקיד השירות Storage Insights Collector (roles/storage.insightsCollectorService) בארגון שכולל את פרויקטי המקור. צריך להקצות את התפקיד הזה לכל סוכן שירות בהיקף הגדרה שנוצר עבור כל הגדרת מערך נתונים שממנו רוצים לקבל נתונים. אם משתמשים בסוכן שירות בהיקף הפרויקט, צריך להעניק את התפקיד הזה לסוכן השירות רק פעם אחת כדי לקרוא ולכתוב מערכי נתונים לכל הגדרות מערכי הנתונים בפרויקט.

במאמר ניהול הגישה מוסבר איך להקצות תפקידים לפרויקטים.

קישור מערך נתונים

כדי לקשר מערך נתונים ל-BigQuery, מבצעים את השלבים הבאים:

המסוף

במסוף Google Cloud , עוברים לדף Storage Insights של Cloud Storage.

מעבר אל Storage Insights
לוחצים על השם של הגדרת מערך הנתונים שיצרה את מערך הנתונים שרוצים לקשר.
בקטע BigQuery linked dataset (מערך נתונים מקושר ב-BigQuery), לוחצים על Link dataset (קישור מערך נתונים) כדי לקשר את מערך הנתונים.

שורת הפקודה

כדי לקשר מערך נתונים ל-BigQuery, מריצים את הפקודה gcloud storage insights dataset-configs create-link:
```
gcloud storage insights dataset-configs create-link DATASET_CONFIG_ID --location=LOCATION
```
מחליפים את:
- ‫DATASET_CONFIG_ID בשם של הגדרת מערך הנתונים שיצרה את מערך הנתונים לקישור.
- ‫LOCATION עם המיקום של קבוצת הנתונים. לדוגמה, us-central1.
אפשר גם לציין נתיב מלא להגדרת מערך הנתונים. לדוגמה:
```
gcloud storage insights dataset-configs create-link projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID
```
מחליפים את:
- ‫DESTINATION_PROJECT_ID עם המזהה של הפרויקט שמכיל את הגדרת מערך הנתונים. מידע נוסף על מזהי פרויקטים מופיע במאמר יצירה וניהול של פרויקטים.
- ‫DATASET_CONFIG_ID בשם של הגדרת מערך הנתונים שיצרה את מערך הנתונים לקישור.
- ‫LOCATION עם המיקום של מערך הנתונים וההגדרה של מערך הנתונים. לדוגמה, us-central1.

‫API בפורמט JSON

התקנה והפעלה של ה-CLI של gcloud, שמאפשרות ליצור אסימון גישה לכותרת Authorization.

משתמשים ב- cURL כדי לשלוח קריאה ל-API בפורמט JSON עם בקשת DatasetConfig linkDataset:
```
curl -X POST \
  "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigsDATASET_CONFIG_ID:linkDataset?" \
    --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
    --header "Accept: application/json" \
    --header "Content-Type: application/json"
```
מחליפים את:
- ‫JSON_FILE_NAME בנתיב לקובץ ה-JSON שיצרתם.
- ‫PROJECT_ID עם מזהה הפרויקט שאליו שייכת הגדרת מערך הנתונים.
- ‫LOCATION עם המיקום שבו נמצאים מערך הנתונים וההגדרה שלו. לדוגמה: us-central1.
- ‫DATASET_CONFIG_ID עם השם של הגדרת מערך הנתונים שיצרה את מערך הנתונים לקישור.
- ‫SERVICE_ACCOUNT עם חשבון השירות. לדוגמה, test-service-account@test-project.iam.gserviceaccount.com.

ניתוח נתוני אובייקטים ומטא-נתונים באמצעות BigQuery

כדי לנתח את תוכן האובייקט או להציג את המטא-נתונים של האובייקט, משתמשים בעמודה ref שמוחזרת כחלק ממערך נתונים של Storage Insights, כדי להריץ פונקציות של BigQuery ObjectRef. מבצעים את השלבים בקטעים הבאים.

יצירת חיבור למשאב ב-Cloud ב-BigQuery

ב-BigQuery, יוצרים חיבור למשאבים ב-Cloud כדי לגשת ל-Cloud Storage. קישור למשאבים ב-Cloud מאפשר ל-BigQuery לגשת לנתוני אובייקטים ולמטא-נתונים של Cloud Storage באמצעות חשבון השירות שלו. פרטים נוספים זמינים במאמר יצירת חיבור למשאב בענן.

שימוש בקישור למשאבים ב-Cloud עם מערך נתונים של Storage Insights

כדי לנתח נתונים שמופנים אליהם בעמודה ref ומוחזרים כחלק ממערך נתונים של Storage Insights, משתמשים בפונקציה OBJ.MAKE_REF כדי לשלב את URI מהעמודה ref עם החיבור שיצרתם:

SELECT
OBJ.GET_ACCESS_URL(OBJ.MAKE_REF(ref.uri, "CONNECTION_ID"), "r")
FROM `PROJECT_ID.INSIGHTS_DATASET.object_attributes_view` WHERE LOCATION = "US";

מחליפים את:

‫CONNECTION_ID: המזהה של החיבור למשאב ב-Cloud שיצרתם.
‫PROJECT_ID: מזהה הפרויקט שמכיל את מערך הנתונים של Storage Insights.
‫INSIGHTS_DATASET: השם של מערך הנתונים של תובנות לגבי האחסון. לדוגמה, storageinsights_dataset.

ניתוח מערך נתונים של Storage Insights באמצעות מודל מותאם אישית

אי אפשר ליצור מודלים ב-BigQuery ישירות בתוך מערך נתונים מקושר. כדי לנתח את הנתונים של Storage Insights באמצעות מודל בהתאמה אישית, צריך ליצור את המודל ולאחסן אותו במערך נתונים רגיל ב-BigQuery. אחר כך תוכלו להפנות למודל הזה בשאילתות שלכם כשאתם מטרגטים את מערך הנתונים המקושר לצורך ניתוח:

יוצרים מודל במערך נתונים ב-BigQuery‏ (MODEL_DATASET) באותו פרויקט שבו נמצא מערך הנתונים המקושר (INSIGHTS_DATASET):
```
CREATE OR REPLACE MODEL `MODEL_DATASET.gemini_model`
REMOTE WITH CONNECTION `CONNECTION_ID`
OPTIONS (ENDPOINT = 'gemini-2.0-flash');
```
מחליפים את:
- ‫MODEL_DATASET: השם של מערך הנתונים שבו רוצים ליצור את המודל.
- ‫CONNECTION_ID: המזהה של החיבור למשאב ב-Cloud שיצרתם.

מריצים שאילתה שמפנה למודל כדי לנתח את הנתונים במערך הנתונים של Storage Insights. בדוגמה הבאה מוסיפים תיאור לתמונות במערך הנתונים:

SELECT
 name,
 result AS ai_description
FROM
 AI.GENERATE_TEXT(
   MODEL `MODEL_DATASET.gemini_model`,
   (
     SELECT
       name,
       (
         'Describe this image',
         OBJ.GET_ACCESS_URL(
           OBJ.FETCH_METADATA(
             OBJ.MAKE_REF(
               ref.uri,
               'CONNECTION_ID'
             )
           ),
           'r'
         )
       ) AS prompt
     FROM
       `INSIGHTS_DATASET.object_attributes_view`
     WHERE
       contentType LIKE 'image/%'
       AND NOT name LIKE '%/'
     LIMIT 3
   )
 );

מחליפים את:

‫INSIGHTS_DATASET: השם של מערך הנתונים של תובנות לגבי האחסון.
‫MODEL_DATASET: השם של מערך הנתונים שבו יצרתם את המודל.
‫CONNECTION_ID: המזהה של החיבור למשאב ב-Cloud שיצרתם.

ניתוח של קבוצת נתונים של Storage Insights באמצעות מודל ברירת מחדל

אתם יכולים להשתמש במודל ברירת מחדל כדי ליצור תובנות מנתונים לא מובנים ולעזור לזהות מידע רגיש.

יצירת תובנות מנתונים לא מובנים

השאילתה הבאה יוצרת תיאורים לתמונות בפורמט JPEG:

SELECT AI.GENERATE(
   (
     'Return a JSON object with fields: "description" (max 20 words)',
     OBJ.GET_ACCESS_URL(
       OBJ.MAKE_REF(ref.uri, `CONNECTION_ID`),
       'r'
     )
   )
)
FROM  `PROJECT_ID.INSIGHTS_DATASET.object_attributes_view`
WHERE  name LIKE 'returns/electronics/%'
  AND contentType = 'image/jpeg';

מחליפים את:

‫CONNECTION_ID: המזהה של החיבור למשאב ב-Cloud שיצרתם.
‫PROJECT_ID: מזהה הפרויקט שמכיל את מערך הנתונים של Storage Insights.
‫INSIGHTS_DATASET: השם של מערך הנתונים של תובנות לגבי האחסון.

זיהוי אוטומטי של מידע אישי רגיש

אתם יכולים להשתמש במודלים מולטי-מודאליים כדי לזהות מידע אישי רגיש, כמו פרטים אישיים מזהים (PII), במסמכים שלכם.

בדוגמה הבאה אפשר לראות איך סורקים מסמכי PDF כדי לבדוק אם יש בהם מידע רגיש:

SELECT AI.GENERATE(
   (
     'Does this document contain any credit card numbers or home addresses? Answer "SAFE" or "SENSITIVE".',
     OBJ.GET_ACCESS_URL(
       OBJ.MAKE_REF(ref.uri, `CONNECTION_ID`),
       'r'
     )
   )
)
FROM  `PROJECT_ID.INSIGHTS_DATASET.object_attributes_view`
WHERE contentType = 'application/pdf';

מחליפים את:

‫CONNECTION_ID: המזהה של החיבור למשאב ב-Cloud שיצרתם.
‫PROJECT_ID: מזהה הפרויקט שמכיל את מערך הנתונים של Storage Insights.
‫INSIGHTS_DATASET: השם של מערך הנתונים של תובנות לגבי האחסון.

המאמרים הבאים

צפייה במערכי נתונים מקושרים
הרצת שאילתות במערך נתונים מקושר.
ניתוח הנתונים המאוחסנים באמצעות Gemini Cloud Assist
ניהול ההגדרות של קבוצות הנתונים, כולל עדכון, הצגה, רישום ומחיקה שלהן.

הגדרת מערכי נתונים של Storage Insights קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

לפני שמתחילים

קבלת התפקידים הנדרשים

ההרשאות הנדרשות

הפעלת Storage Insights API

המסוף

שורת הפקודה

הגדרת Storage Intelligence

יצירת הגדרה של קבוצת נתונים

המסוף

שורת הפקודה

‫API בפורמט JSON

איך נותנים לסוכן השירות את ההרשאות הנדרשות

קישור מערך נתונים

המסוף

שורת הפקודה

‫API בפורמט JSON

ניתוח נתוני אובייקטים ומטא-נתונים באמצעות BigQuery

יצירת חיבור למשאב ב-Cloud ב-BigQuery

שימוש בקישור למשאבים ב-Cloud עם מערך נתונים של Storage Insights

ניתוח מערך נתונים של Storage Insights באמצעות מודל מותאם אישית

ניתוח של קבוצת נתונים של Storage Insights באמצעות מודל ברירת מחדל

יצירת תובנות מנתונים לא מובנים

זיהוי אוטומטי של מידע אישי רגיש

המאמרים הבאים

הגדרת מערכי נתונים של Storage Insights