גילוי וקטלוג של נתונים ב-Cloud Storage
במאמר הזה מוסבר איך להשתמש בתכונה 'גילוי אוטומטי' של Knowledge Catalog ב-BigQuery. התכונה הזו מאפשרת לסרוק נתונים בדליים של Cloud Storage כדי לחלץ מטא-נתונים ואז לכלול אותם בקטלוג. במסגרת סריקת הגילוי, הגילוי האוטומטי יוצר טבלאות BigLake או טבלאות חיצוניות לנתונים מובְנים וטבלאות אובייקטים לנתונים לא מובְנים. הטבלה המרכזית הזו מאפשרת לקבל תובנות מבוססות-AI על הנתונים, אבטחת מידע וניהול הנתונים בקלות.
כדי להשתמש בגילוי אוטומטי של נתונים ב-Cloud Storage, יוצרים ומריצים סריקת גילוי.
גילוי אוטומטי נקרא גם גילוי עצמאי.
סקירה כללית של סריקת Discovery
סריקת Discovery מבצעת את הפעולות הבאות:
- סורק את הנתונים בנתיב או בקטגוריה של Cloud Storage.
- קיבוץ של נתונים מובְנים ונתונים חצי-מובְנים בטבלאות.
- איסוף מטא-נתונים, כמו שם הטבלה, הסכימה והגדרת המחיצה.
- יוצר ומעדכן טבלאות חיצוניות של BigLake, חיצוניות שאינן של BigLake או אובייקטים של BigLake ב-BigQuery באמצעות הסכימה והגדרת החלוקה.
במקרה של נתונים לא מובְנים, כמו תמונות וסרטונים, סריקת הגילוי מזהה ומקליטה קבוצות של קבצים עם אותו פורמט של קובץ נתונים. הקבצים צריכים להיות בתיקיות שמכילות את אותו פורמט קובץ. לדוגמה, gs://images/group1 צריך להכיל רק תמונות GIF, ו-gs://images/group2 צריך להכיל רק תמונות JPEG, כדי שסריקת הגילוי תזהה ותירשום שתי טבלאות אובייקטים של BigLake.
במקרה של נתונים מובְנים, כמו Avro, הסריקה לאיתור נתונים רושמת קבוצות של קבצים כטבלאות חיצוניות של BigLake ומזהה קבצים רק אם הם נמצאים בתיקיות שמכילות את אותו פורמט נתונים ואת אותה סכימה תואמת.
סריקת הגילוי תומכת בפורמטים הבאים:
מובנה וחצי מובנה
- Parquet
- Avro
- ORC
- JSON (רק הפורמט שמופרד בתו שורה חדשה)
- CSV (אבל לא קובצי CSV עם שורות הערות)
- תמונה (לדוגמה, JPEG, PNG ו-BMP)
- מסמכים (כמו קובצי PDF, מצגות ודוחות טקסט)
- אודיו או וידאו (לדוגמה, WAV, MP3 ו-MP4)
הסריקה של Discovery תומכת בפורמטים הבאים של דחיסה:
נתונים מובְנים ונתונים חצי מובְנים
דחיסה פנימית לפורמטים הבאים:
דחיסת נתונים דוגמה לסיומת קובץ פורמט נתמך gzip .gz.parquetParquet lz4 .lz4.parquetParquet Snappy .snappy.parquetParquet, ORC, Avro lzo .lzo.parquetParquet, ORC דחיסה חיצונית של קובצי JSON ו-CSV:
- gzip
- bzip2
נתונים לא מובְנים
בטבלאות של אובייקטים, הדחיסה מנוהלת בעיקר באמצעות מטא-נתונים של אובייקטים ב-Cloud Storage, ולא באמצעות הגדרות פנימיות של BigQuery.
- דחיסה של מטא-נתונים סטנדרטיים: מערכת BigQuery מזהה באופן אוטומטי קבצים שנדחסו באמצעות gzip ו-bzip2 אם הם משתמשים בסיומות הסטנדרטיות .gz או .bz2.
- Content-Encoding: אפשר להשתמש במטא-נתונים Content-Encoding gzip ב-Cloud Storage כדי להציג קבצים דחוסים תוך שמירה על סוג התוכן המקורי שלהם.
- דחיסה פנימית של מדיה: יש תמיכה מקורית בפורמטים שדחוסים באופן מובנה (כמו JPEG לתמונות, MP3 לאודיו ו-MP4 לווידאו).
כדי לראות את המגבלה של מספר הטבלאות שסריקת גילוי תומכת בהן, אפשר לעיין במאמר בנושא מכסות ומגבלות.
הטבלאות שמתגלות נרשמות ב-BigQuery כטבלאות חיצוניות של BigLake, כטבלאות אובייקטים של BigLake או כטבלאות חיצוניות. כך הנתונים שלהם יהיו זמינים לניתוח ב-BigQuery. גם שמירת מטא-נתונים במטמון של טבלאות BigLake וטבלאות אובייקטים מופעלת. כל הטבלאות של BigLake מוזנות אוטומטית ל-Knowledge Catalog לצורך חיפוש וגילוי.
לפני שמתחילים
מפעילים את Dataplex API.
תפקידים שנדרשים להפעלת ממשקי API
כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים
תפקידים נדרשים לחשבון השירות של Knowledge Catalog
לפני שמתחילים, צריך להקצות את הרשאות ה-IAM לחשבון השירות של Knowledge Catalog בפרויקט.
service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
מחליפים את PROJECT_NUMBER בפרויקט שבו מופעל Dataplex API.
כדי לוודא שלחשבון השירות של Knowledge Catalog יש את ההרשאות שנדרשות ליצירה ולהרצה של סריקת גילוי, צריך לבקש מהאדמין להקצות לחשבון השירות של Knowledge Catalog את תפקידי ה-IAM הבאים:
- סוכן של חשבון שירות ב-Dataplex Discovery Service (
roles/dataplex.discoveryServiceAgent) במאגר האחסון - Dataplex Discovery Publishing Service Agent (
roles/dataplex.discoveryPublishingServiceAgent) בפרויקט של המשתמש -
יצירת טבלאות BigLake:
Dataplex Discovery BigLake Publishing Service Agent (
roles/dataplex.discoveryBigLakePublishingServiceAgent) בחיבור BigQuery
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות ליצירה ולהרצה של סריקת גילוי. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי ליצור ולהריץ סריקת גילוי, נדרשות ההרשאות הבאות:
-
bigquery.datasets.createבפרויקט של מקור הנתונים -
storage.buckets.getבקטגוריית מקור הנתונים -
storage.objects.getבקטגוריית מקור הנתונים -
storage.objects.listבקטגוריית מקור הנתונים -
bigquery.datasets.getבפרויקט של מקור הנתונים -
הוספת חיבור:
-
bigquery.connections.delegateבחיבור ל-BigQuery -
bigquery.connections.useבחיבור ל-BigQuery
-
יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של Knowledge Catalog את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
תפקידים שנדרשים לחשבון השירות של החיבור ל-BigQuery
כדי לוודא שלחשבון השירות של BigQuery Connection יש את ההרשאות הנדרשות ליצירת סריקת גילוי, צריך לבקש מהאדמין לתת לחשבון השירות של BigQuery Connection את תפקיד ה-IAM Dataplex Discovery Service Agent (roles/dataplex.discoveryServiceAgent) בדליקט Cloud Storage.
זהו תפקיד שמוגדר מראש וכולל את ההרשאות שנדרשות ליצירת סריקת גילוי. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי ליצור סריקת Discovery, צריך את ההרשאות הבאות:
-
bigquery.datasets.createבפרויקט של מקור הנתונים -
storage.buckets.getבקטגוריית מקור הנתונים -
storage.objects.getבקטגוריית מקור הנתונים -
storage.objects.listבקטגוריית מקור הנתונים -
bigquery.datasets.getבפרויקט של מקור הנתונים -
הוספת חיבור:
-
bigquery.connections.delegateבחיבור ל-BigQuery -
bigquery.connections.useבחיבור ל-BigQuery
-
יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של BigQuery Connection את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
התפקידים הנדרשים למשתמשי קצה
כדי לקבל את ההרשאות שדרושות ליצירה ולניהול של סריקות לגילוי נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בקטגוריית Cloud Storage:
-
גישה מלאה למשאבי DataScan:
אדמין DataScan של Dataplex (
roles/dataplex.dataScanAdmin) – הפרויקט שלכם -
גישת כתיבה למשאבי DataScan:
Dataplex DataScan Editor (
roles/dataplex.dataScanEditor) – הפרויקט שלכם -
הרשאת קריאה למשאבי DataScan, לא כולל התוצאות:
Dataplex DataScan Viewer (
roles/dataplex.dataScanViewer) – הפרויקט שלכם -
הרשאת קריאה למשאבי DataScan, כולל התוצאות:
Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) – הפרויקט שלכם
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה מכילים את ההרשאות שנדרשות ליצירה ולניהול של סריקות לגילוי נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי ליצור ולנהל סריקות של גילוי נתונים, צריך את ההרשאות הבאות:
-
יוצרים DataScan:
dataplex.datascans.createבפרויקט -
מחיקת DataScan:
dataplex.datascans.deleteבפרויקט או במשאב DataScan -
הצגת פרטים של DataScan ללא תוצאות:
dataplex.datascans.getבמקרן שלכם משאב DataScan -
הצגת פרטים של DataScan, כולל תוצאות:
dataplex.datascans.getDataבפרויקט או במשאב DataScan -
הצגת רשימה של סריקות נתונים:
dataplex.datascans.listבפרויקט או במשאב DataScan -
מריצים DataScan:
dataplex.datascans.runבפרויקט או במשאב DataScan -
עדכון התיאור של DataScan:
dataplex.datascans.updateבמקרן שלכם, מקור DataScan -
צפייה בהרשאות IAM של DataScan:
dataplex.datascans.getIamPolicyבפרויקט או במשאב DataScan -
הגדרת הרשאות IAM ב-DataScan:
dataplex.datascans.setIamPolicyבפרויקט או במשאב DataScan
יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
יצירת סריקה של Discovery
כדי לגלות נתונים, צריך ליצור ולהריץ סריקת גילוי. אתם יכולים להגדיר לוח זמנים לסריקה או להפעיל את הסריקה לפי דרישה.
כשסריקת הגילוי מופעלת, היא יוצרת מערך נתונים חדש ב-BigQuery שתואם למאגר Cloud Storage שנסרק. השם של מערך הנתונים ב-BigQuery זהה לשם של קטגוריה של Cloud Storage. תווים לא חוקיים בשם של קטגוריה מוחלפים בקו תחתון. אם שם מערך הנתונים לא זמין, מתווסף סיומת (לדוגמה, _discovered_001). מערך הנתונים מכיל את הטבלאות החיצוניות של BigLake או טבלאות חיצוניות אחרות שנוצרו על ידי סריקת הגילוי לצורך ניתוח נוסף.
המסוף
נכנסים לדף Metadata curation במסוף Google Cloud .
בכרטיסייה Cloud Storage discovery, לוחצים על Create.
בחלונית Create discovery scan, מגדירים את הפרטים של הנתונים שרוצים לסרוק.
מזינים שם לסריקה.
בשדה Scan ID, מזינים מזהה ייחודי בהתאם למוסכמות למתן שמות למשאבים ב- Google Cloud. אם לא מספקים מזהה, הסריקה לאיתור יוצרת את מזהה הסריקה.
אופציונלי: מוסיפים תיאור של הסריקה.
כדי לציין את הקטגוריה של Cloud Storage שמכילה את הקבצים לסריקה, בשדה Bucket (קטגוריה), עוברים לקטגוריה ובוחרים אותה.
אופציונלי: מגדירים את הנתונים שרוצים לכלול או להחריג מסריקת הגילוי על ידי ציון רשימה של תבניות glob לסינון קבצים.
- Include: אם רוצים לסרוק רק קבוצת משנה של הנתונים, צריך לספק רשימה של תבניות glob שתואמות לאובייקטים שרוצים לכלול.
- Exclude: מספקים רשימה של דפוסי glob שתואמים לאובייקטים שרוצים להחריג.
לדוגמה, אם רוצים להחריג את
gs://test_bucket/foo/..מסריקת הגילוי, מזינים את**/foo/**כנתיב להחרגה. מירכאות גורמות לשגיאות. חשוב להזין**/foo/**במקום"**/foo/**".אם מספקים גם דפוסי הכללה וגם דפוסי החרגה, דפוסי ההחרגה מוחלים קודם.
בקטע אפשרויות לנתונים לא מובְנים, בוחרים באפשרות הפעלת הסקה סמנטית.
האפשרות הזו נדרשת אם רוצים לראות תובנות לגבי נתונים לא מובְנים ב-Knowledge Catalog. מידע נוסף על תובנות מהנתונים לגבי נתונים לא מובְנים
אופציונלי: בפרויקט, בוחרים את פרויקט מערך הנתונים ב-BigQuery שמכיל את הטבלאות החיצוניות של BigLake או טבלאות חיצוניות אחרות שנוצרו על ידי סריקת הגילוי. אם לא מציינים פרויקט, קבוצת הנתונים נוצרת בפרויקט שמכיל את קטגוריה של Cloud Storage.
בקטע Location type, בוחרים באפשרות Region או Multi-region (האפשרות שזמינה) שבה ייצור מערך הנתונים לפרסום ב-BigQuery.
כדי ליצור טבלאות BigLake מהנתונים שנסרקו, בשדה Connection ID (מזהה החיבור), מציינים את מזהה החיבור של משאב Google Cloud . מידע נוסף זמין במאמר בנושא Google Cloud קישורי משאבים ב-BigQuery.
אתם יכולים ליצור מזהה חיבור חדש באותו מיקום של מערך הנתונים ב-BigQuery, שהוא תואם למיקום של קטגוריית Cloud Storage.
אם לא מציינים מזהה של חיבור למשאב, הסריקה לגילוי יוצרת טבלאות חיצוניות שאינן BigLake. כדי להבין את ההבדלים בין סוגי הטבלאות החיצוניות האלה ולמה שירות הגילוי עשוי לבחור באחת מהן ולא באחרת, אפשר לעיין בהשוואה של ההבדלים בהתנהגות.
בקטע תדירות הסריקה, מגדירים מתי רוצים שהסריקה תפעל:
חזרה: הסריקה מופעלת לפי לוח זמנים מוגדר מראש. מציינים את שעת ההתחלה, הימים שבהם הסריקה תפעל והתדירות, למשל כל שעה.
על פי דרישה: הסריקה מופעלת על פי דרישה.
אופציונלי: בקטע JSON or CSV specifications (מפרטים של JSON או CSV), מציינים איך הסריקה צריכה לעבד קובצי JSON ו-CSV. לוחצים על מפרטים של JSON או CSV.
- כדי להגדיר אפשרויות JSON, בוחרים באפשרות הפעלת אפשרויות ניתוח JSON.
- השבתת הסקת סוגים: האם סריקת הגילוי צריכה להסיק סוגי נתונים כשסורקים נתונים. אם משביתים את ההסקה של סוגי נתונים עבור נתוני JSON, כל העמודות נרשמות כסוגי הנתונים הפרימיטיביים שלהן, כמו מחרוזת, מספר או ערך בוליאני.
- פורמט הקידוד: קידוד התווים של הנתונים, כמו UTF-8, US-ASCII או ISO-8859-1. אם לא מציינים ערך, המערכת משתמשת ב-UTF-8 כברירת מחדל.
- כדי להגדיר את האפשרויות של קובץ ה-CSV, מסמנים את התיבה הפעלת אפשרויות לניתוח קובץ CSV.
- השבתת הסקת סוגים: האם סריקת הגילוי צריכה להסיק סוגי נתונים כשסורקים נתונים. אם משביתים את ההסקה של סוג הנתונים עבור נתוני CSV, כל העמודות נרשמות כמחרוזות.
- שורות כותרת: מספר שורות הכותרת,
0או1. אם מציינים את הערך0, סריקת הגילוי מסיקה כותרות ומחלצת את שמות העמודות מהקובץ. ערך ברירת המחדל הוא0. - תו מפריד עמודות: התו שמשמש להפרדת הערכים. צריך לספק תו יחיד,
\r(החזרת כרכרה) או\n(שורה חדשה). ברירת המחדל היא פסיק (,). - פורמט הקידוד: קידוד התווים של הנתונים, כמו
UTF-8,US-ASCIIאוISO-8859-1. אם לא מציינים ערך, המערכת משתמשת ב-UTF-8 כברירת מחדל.
- כדי להגדיר אפשרויות JSON, בוחרים באפשרות הפעלת אפשרויות ניתוח JSON.
לוחצים על יצירה (לסריקה מתוזמנת), על הפעלה מיידית (לסריקה לפי דרישה) או על יצירה והפעלה (לסריקה חד-פעמית).
סריקה מתוזמנת מופעלת לפי לוח הזמנים שהגדרתם.
סריקה לפי דרישה מופעלת פעם אחת בהתחלה כשיוצרים אותה, ואפשר להפעיל אותה בכל שלב. יכול להיות שיחלפו כמה דקות עד לסיום הסריקה.
סריקה חד-פעמית מתבצעת באופן אוטומטי, פעם אחת בלבד. הוא נמחק אוטומטית כשהוא מגיע לסף אורך החיים (TTL) שהוגדר לו, שהוא ערך שקובע את משך הזמן שסריקת גילוי נשארת פעילה אחרי ההפעלה. ערך ה-TTL יכול לנוע בין 0 שניות (מחיקה מיידית) לבין 365 ימים. סריקת גילוי ללא TTL מוגדר נמחקת אוטומטית אחרי 24 שעות.
gcloud
כדי ליצור סריקת גילוי, משתמשים בפקודה gcloud dataplex datascans create data-discovery.
gcloud dataplex datascans create data-discovery --location=LOCATION --data-source-resource=BUCKET_PATH
מחליפים את מה שכתוב בשדות הבאים:
-
LOCATION: המיקום שבו רוצים ליצור את הסריקה לגילוי -
BUCKET_PATH: הנתיב ב-Cloud Storage של הקטגוריה שרוצים לסרוק
REST
כדי ליצור סריקת גילוי, משתמשים ב-dataScans.create method.
שליחת שאילתות לטבלאות BigLake שפורסמו
אחרי שמריצים את סריקת הגילוי, טבלאות BigLake מתפרסמות במערך נתונים חדש ב-BigQuery. אחרי הייצוא, הטבלאות זמינות לניתוח ב-BigQuery באמצעות SQL, או ב-Managed Service for Apache Spark באמצעות Apache Spark או HiveQL.
SQL
אפשר להציג טבלאות ב-BigQuery או לשלוח שאילתות לגביהן. מידע נוסף על הרצת שאילתות ב-BigQuery זמין במאמר הרצת שאילתה.
Apache Spark
כדי לשלוח שאילתות לטבלאות BigLake באמצעות Spark SQL בעבודה בלי שרת (serverless) של Managed Service for Apache Spark, צריך לבצע את השלבים הבאים:
יוצרים סקריפט PySpark שדומה לסקריפט לדוגמה הבא:
from pyspark.sql import SparkSession session = ( SparkSession.builder.appName("testing") .config("viewsEnabled","true") .config("materializationDataset", "DATASET_ID") .config("spark.hive.metastore.bigquery.project.id", "PROJECT_ID") .config("spark.hive.metastore.client.factory.class", "com.google.cloud.bigquery.metastore.client.BigQueryMetastoreClientFactory") .enableHiveSupport() .getOrCreate() ) session.sql("show databases").show() session.sql("use TABLE_NAME").show() session.sql("show tables").show() sql = "SELECT * FROM DATASET_ID.TABLE_ID LIMIT 10" df = session.read.format("bigquery").option("dataset", "DATASET_ID").load(sql) df.show()
מחליפים את מה שכתוב בשדות הבאים:
-
DATASET_ID: מזהה מערך הנתונים שלמשתמשים יש הרשאת יצירה לגביו -
PROJECT_ID: מזהה הפרויקט עם טבלת BigLake -
TABLE_NAME: שם הטבלה ב-BigLake -
TABLE_ID: המזהה של טבלת BigLake
-
ניהול טבלאות BigLake שפורסמו
טבלאות BigLake שפורסמו נוצרות ומנוהלות ב-BigQuery על ידי סריקת הגילוי. כברירת מחדל, סריקת הגילוי מטפלת בגילוי נתונים חדשים, בהסקת מסקנות לגבי סכימות ובשינויים בסכימות בכל פעם שהסריקות המתוזמנות או הסריקות לפי דרישה מופעלות. כדי לציין שהמטא-נתונים מנוהלים על ידי הסריקה, הסריקה מפרסמת טבלאות עם התווית metadata-managed-mode שהערך שלה מוגדר ל-discovery-managed.
אם רוצים לנהל את הסכימה ומטא-נתונים אחרים כמו אפשרויות CSV או JSON באופן עצמאי, צריך להגדיר את התווית metadata-managed-mode לערך user_managed. כך הסכימה לא משתנה כשמריצים את הסריקה הבאה של גילוי המקורות. הגישה הזו יכולה להיות שימושית בתרחישים שבהם הסכימה שמוסקת על ידי סריקת הגילוי שגויה או שונה מהסכימה הצפויה לטבלה מסוימת. כשהתווית
metadata-managed-mode מוגדרת לערך user_managed, היא יכולה להפחית את העלות.
כדי לעדכן את התווית, אפשר לערוך את הערך של מפתח התווית
metadata-managed-mode ל-user_managed במקום ל-discovery-managed. במקרה הזה, סריקת הגילוי לא מעדכנת את הסכימה של הטבלה כל עוד התווית user_managed מצורפת לטבלה.
עדכון של טבלאות BigLake שפורסמו
בטבלאות BigLake שפורסמו באמצעות משימות סריקה לגילוי עם הגדרות ברירת המחדל, הסכימה ומטא-נתונים אחרים מתעדכנים אוטומטית בכל הפעלה של משימת סריקה לגילוי בתדירות המתוזמנת.
כדי לעדכן טבלת BigLake שפורסמה, פועלים לפי השלבים הבאים:
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.
בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Datasets ובוחרים מערך נתונים.
לוחצים על סקירה כללית > טבלאות ובוחרים את הטבלה.
בכרטיסייה פרטים, בקטע תוויות, מוודאים שהתווית metadata-managed-mode מוגדרת לערך user_managed. אם הערך שמוגדר שונה, פועלים לפי השלבים הבאים:
לוחצים על עריכת הפרטים.
לצד המפתח metadata-managed-mode, בשדה value, מזינים
user_managed.
מחיקת טבלאות BigLake שפורסמו
כדי למחוק טבלת BigLake שפורסמה, פועלים לפי השלבים הבאים:
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Datasets ובוחרים מערך נתונים.
לוחצים על סקירה כללית > טבלאות ובוחרים את הטבלה.
בחלונית פרטים, בקטע תוויות, מוודאים שהתווית metadata-managed-mode לא מוגדרת לערך
user_managed. אם הערך הואuser_managed, צריך לבצע את השלבים הבאים:לוחצים על עריכת הפרטים .
לצד המפתח metadata-managed-mode, בשדה value, מזינים
discovery-managed.
לוחצים על Run. סריקת הגילוי מופעלת לפי דרישה.
אחרי סיום הסריקה לגילוי, הטבלה ב-BigLake נמחקת ב-BigQuery ולא ניתן להציג אותה או לשלוח אליה שאילתות באמצעות Spark.
הפעלת סריקת גילוי לפי דרישה
כדי להפעיל סריקת גילוי לפי דרישה, בוחרים באחת מהאפשרויות הבאות.
המסוף
במסוף Google Cloud , עוברים לדף BigQuery.
בתפריט הניווט, לוחצים על Governance > Metadata curation.
בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שרוצים להריץ.
לוחצים על הפעלה מיידית.
gcloud
כדי להריץ סריקת גילוי, משתמשים בפקודה gcloud dataplex datascans run:
gcloud dataplex datascans runDATASCAN\ --location=LOCATION
מחליפים את המשתנים הבאים:
-
LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי. -
DATASCAN: השם של סריקת הגילוי.
REST
כדי להריץ סריקת גילוי על פי דרישה, משתמשים ב-method dataScans.run ב-Dataplex API.
הצגת סריקות לגילוי
כדי להציג את הסריקות לגילוי, בוחרים באחת מהאפשרויות הבאות.
המסוף
במסוף Google Cloud , עוברים לדף BigQuery.
בתפריט הניווט, לוחצים על Governance > Metadata curation.
בחלונית Cloud Storage discovery, מוצגות סריקות הגילוי שנוצרו בפרויקט.
gcloud
gcloud dataplex datascans list --location=LOCATION --project=PROJECT_ID
מחליפים את מה שכתוב בשדות הבאים:
-
LOCATION: המיקום של הפרויקט -
PROJECT_ID: מזהה הפרויקט ב- Google Cloud
REST
כדי לאחזר את רשימת הסריקות של גילוי נתונים בפרויקט, משתמשים בשיטה dataScans.list ב-Dataplex API.
הצגת סריקת גילוי
כדי לראות סריקה של גילוי, בוחרים באחת מהאפשרויות הבאות.
המסוף
במסוף Google Cloud , עוברים לדף BigQuery.
בתפריט הניווט, לוחצים על Governance > Metadata curation.
בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שרוצים לראות את הפרטים שלה.
- בקטע פרטי הסריקה מוצגים פרטים על סריקת הגילוי.
- בקטע סטטוס הסריקה מוצגות תוצאות הגילוי של משימת הסריקה האחרונה.
gcloud
gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULLמחליפים את מה שכתוב בשדות הבאים:
-
JOB: מזהה המשימה של משימת הסריקה לגילוי. -
LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי. -
DATASCAN: השם של סריקת הגילוי שאליה שייך הג'וב. -
--view=FULL: לראות את תוצאת משימת הסריקה של הגילוי.
REST
כדי לראות את התוצאות של סריקת גילוי נתונים, משתמשים בשיטה dataScans.get ב-Dataplex API.
צפייה בתוצאות היסטוריות של סריקת גילוי
כדי לראות את התוצאות של סריקות היסטוריות של גילוי, בוחרים באחת מהאפשרויות הבאות.
המסוף
במסוף Google Cloud , עוברים לדף BigQuery.
בתפריט הניווט, לוחצים על Governance > Metadata curation.
בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שרוצים לראות את הפרטים שלה.
לוחצים על החלונית היסטוריית הסריקות. בחלונית היסטוריית הסריקות מוצג מידע על משימות קודמות, כולל מספר הרשומות שנסרקו בכל משימה, הסטטוס של כל משימה והשעה שבה המשימות הופעלו.
כדי לראות מידע מפורט על משימה, לוחצים על המשימה בעמודה מזהה משימה.
gcloud
gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCANמחליפים את מה שכתוב בשדות הבאים:
-
LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי. -
DATASCAN: השם של סריקת הגילוי שאליה שייך הג'וב.
REST
כדי לראות את כל העבודות של סריקת גילוי, משתמשים ב-method dataScans.job/list ב-Dataplex API.
עדכון סריקת Discovery
כדי לשנות את התזמון של סריקת גילוי, למשל כדי לשנות את התזמון מסריקה לפי דרישה לסריקה חוזרת, צריך לעדכן את סריקת הגילוי.
המסוף
במסוף Google Cloud , עוברים לדף BigQuery.
בתפריט הניווט, לוחצים על Governance > Metadata curation.
בחלונית Cloud Storage discovery, בשורה של סריקת הגילוי שרוצים לעדכן, לוחצים על Actions > Edit.
עורכים את הערכים.
לוחצים על Save.
gcloud
כדי לעדכן סריקת Discovery, משתמשים בפקודה gcloud dataplex datascans update data-discovery.
gcloud dataplex datascans update data-discovery SCAN_ID --location=LOCATION --description=DESCRIPTION
מחליפים את מה שכתוב בשדות הבאים:
-
SCAN_ID: המזהה של סריקת הגילוי שרוצים לעדכן -
LOCATION: האזור שבו נוצרה סריקת הגילוי Google Cloud -
DESCRIPTION: התיאור החדש של הסריקה לגילוי
REST
כדי לעדכן סריקת גילוי, משתמשים ב-method dataScans.patch ב-Dataplex API.
מחיקת סריקת גילוי
כדי למחוק סריקת גילוי, בוחרים באחת מהאפשרויות הבאות.
המסוף
במסוף Google Cloud , עוברים לדף BigQuery.
בתפריט הניווט, לוחצים על Governance > Metadata curation.
בחלונית Cloud Storage discovery, לוחצים על Actions > Delete (פעולות > מחיקה) ליד סריקת הגילוי שרוצים למחוק.
לוחצים על Delete.
gcloud
gcloud dataplex datascans delete SCAN_ID --location=LOCATION --async
מחליפים את מה שכתוב בשדות הבאים:
-
SCAN_ID: המזהה של סריקת הגילוי שרוצים למחוק. -
LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי.
REST
כדי למחוק סריקת גילוי, משתמשים ב-method dataScans.delete ב-Dataplex API.