גילוי וקטלוג של נתונים ב-Cloud Storage
במאמר הזה מוסבר איך להשתמש בתכונה 'גילוי אוטומטי של Dataplex Universal Catalog' ב-BigQuery. התכונה הזו מאפשרת לסרוק נתונים בקטגוריות של Cloud Storage כדי לחלץ מטא-נתונים ולתעד אותם בקטלוג. במסגרת סריקת הגילוי, גילוי אוטומטי יוצר טבלאות BigLake או טבלאות חיצוניות לנתונים מובְנים וטבלאות אובייקטים לנתונים לא מובְנים. הנתונים המרוכזים בטבלה הזו מאפשרים לקבל תובנות מבוססות-AI, לשמור על אבטחת מידע ולנהל אותם.
כדי להשתמש בגילוי אוטומטי של נתונים ב-Cloud Storage, יוצרים ומריצים סריקת גילוי.
גילוי אוטומטי נקרא גם גילוי עצמאי.
סקירה כללית של סריקת Discovery
סריקת Discovery מבצעת את הפעולות הבאות:
- סורק את הנתונים בנתיב או בקטגוריה של Cloud Storage.
- קיבוץ של נתונים מובְנים ונתונים חצי-מובְנים בטבלאות.
- איסוף מטא-נתונים, כמו שם הטבלה, הסכימה והגדרת המחיצה.
- יוצר ומעדכן טבלאות חיצוניות של BigLake, חיצוניות שאינן של BigLake או אובייקטים של BigLake ב-BigQuery באמצעות הסכימה והגדרת החלוקה.
במקרה של נתונים לא מובְנים, כמו תמונות וסרטונים, הסריקה לגילוי מזהה ורושמת קבוצות של קבצים שמשתמשים באותו פורמט קובץ נתונים. הקבצים צריכים להיות בתיקיות שמכילות את אותו פורמט קובץ. לדוגמה, gs://images/group1 צריך להכיל רק תמונות GIF, ו-gs://images/group2 צריך להכיל רק תמונות JPEG, כדי שסריקת הגילוי תזהה ותירשם שתי טבלאות אובייקטים של BigLake.
במקרה של נתונים מובְנים, כמו Avro, הסריקה לאיתור נתונים רושמת קבוצות של קבצים כטבלאות חיצוניות של BigLake ומזהה קבצים רק אם הם נמצאים בתיקיות שמכילות את אותו פורמט נתונים ואת אותה סכימה תואמת.
סריקת הגילוי תומכת בפורמטים הבאים:
מובנה וחצי מובנה
- Parquet
- Avro
- ORC
- JSON (רק הפורמט שמופרד בתו שורה חדשה)
- CSV (אבל לא קובצי CSV שמכילים שורות הערות)
- תמונה (לדוגמה, JPEG, PNG ו-BMP)
- מסמכים (כמו PDF, מצגות ושקפים ודוחות טקסט)
- אודיו או וידאו (כמו WAV, MP3 ו-MP4)
הסריקה של Discovery תומכת בפורמטים הבאים של דחיסה:
נתונים מובְנים ונתונים חצי מובְנים
דחיסה פנימית לפורמטים הבאים:
דחיסה דוגמה לסיומת קובץ פורמט נתמך gzip .gz.parquetParquet lz4 .lz4.parquetParquet Snappy .snappy.parquetParquet, ORC, Avro lzo .lzo.parquetParquet, ORC דחיסה חיצונית של קובצי JSON ו-CSV:
- gzip
- bzip2
נתונים לא מובְנים
בטבלאות של אובייקטים, הדחיסה מנוהלת בעיקר באמצעות מטא-נתונים של אובייקטים ב-Cloud Storage, ולא באמצעות הגדרות פנימיות של BigQuery.
- דחיסה של מטא-נתונים סטנדרטיים: מערכת BigQuery מזהה באופן אוטומטי קבצים שנדחסו באמצעות gzip ו-bzip2 אם הם משתמשים בתוספים הסטנדרטיים .gz או .bz2.
- Content-Encoding: אפשר להשתמש במטא-נתונים Content-Encoding gzip ב-Cloud Storage כדי להציג קבצים דחוסים תוך שמירה על סוג התוכן המקורי שלהם.
- דחיסה פנימית של מדיה: יש תמיכה מקורית בפורמטים שנדחסים באופן מובנה (כמו JPEG לתמונות, MP3 לאודיו ו-MP4 לווידאו).
כדי לראות את המגבלה של מספר הטבלאות שסריקת גילוי תומכת בהן, אפשר לעיין במאמר מכסות ומגבלות.
הטבלאות שמתגלות נרשמות ב-BigQuery כטבלאות חיצוניות של BigLake, כטבלאות אובייקטים של BigLake או כטבלאות חיצוניות. כך הנתונים שלהם יהיו זמינים לניתוח ב-BigQuery. מופעל גם מטמון של מטא-נתונים לטבלאות BigLake ולטבלאות אובייקטים. כל הטבלאות של BigLake מוזנות אוטומטית ל-Dataplex Universal Catalog לצורך חיפוש וגילוי.
לפני שמתחילים
Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
התפקידים הנדרשים לחשבון השירות של Dataplex Universal Catalog
לפני שמתחילים, צריך להקצות את הרשאות ה-IAM לחשבון השירות של Dataplex Universal Catalog בפרויקט.
service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
מחליפים את PROJECT_NUMBER בפרויקט שבו מופעל Dataplex API.
כדי לוודא שלחשבון השירות של Dataplex יש את ההרשאות שנדרשות ליצירה ולהרצה של סריקת גילוי, צריך לבקש מהאדמין להקצות לחשבון השירות של Dataplex את תפקידי ה-IAM הבאים:
-
סוכן השירות של Dataplex Discovery (
roles/dataplex.discoveryServiceAgent) בקטגוריית האחסון -
Dataplex Discovery Publishing Service Agent (
roles/dataplex.discoveryPublishingServiceAgent) on the user project -
יצירת טבלאות BigLake:
Dataplex Discovery BigLake Publishing Service Agent (
roles/dataplex.discoveryBigLakePublishingServiceAgent) בחיבור BigQuery
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות ליצירה ולהרצה של סריקת גילוי. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי ליצור ולהריץ סריקת Discovery, נדרשות ההרשאות הבאות:
-
bigquery.datasets.createבפרויקט של מקור הנתונים -
storage.buckets.getבקטגוריית מקור הנתונים -
storage.objects.getבקטגוריית מקור הנתונים -
storage.objects.listבקטגוריית מקור הנתונים -
bigquery.datasets.getבפרויקט של מקור הנתונים -
הוספת חיבור:
-
bigquery.connections.delegateבחיבור ל-BigQuery -
bigquery.connections.useבחיבור ל-BigQuery
-
יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של Dataplex את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
תפקידים שנדרשים לחשבון השירות של החיבור ל-BigQuery
כדי לוודא שלחשבון השירות של BigQuery Connection יש את ההרשאות שנדרשות ליצירת סריקת גילוי, צריך לבקש מהאדמין לתת לחשבון השירות של BigQuery Connection את תפקיד ה-IAM Dataplex Discovery Service Agent (roles/dataplex.discoveryServiceAgent) בקטגוריה של Cloud Storage.
זהו תפקיד שמוגדר מראש וכולל את ההרשאות שנדרשות ליצירת סריקת גילוי. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי ליצור סריקת Discovery, נדרשות ההרשאות הבאות:
-
bigquery.datasets.createבפרויקט של מקור הנתונים -
storage.buckets.getבקטגוריית מקור הנתונים -
storage.objects.getבקטגוריית מקור הנתונים -
storage.objects.listבקטגוריית מקור הנתונים -
bigquery.datasets.getבפרויקט של מקור הנתונים -
הוספת חיבור:
-
bigquery.connections.delegateבחיבור ל-BigQuery -
bigquery.connections.useבחיבור ל-BigQuery
-
יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של BigQuery Connection את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
התפקידים הנדרשים למשתמשי קצה
כדי לקבל את ההרשאות שדרושות ליצירה ולניהול של סריקות לגילוי נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בקטגוריית Cloud Storage:
-
גישה מלאה למשאבי DataScan:
אדמין DataScan של Dataplex (
roles/dataplex.dataScanAdmin) – הפרויקט שלכם -
גישת כתיבה למשאבי DataScan:
Dataplex DataScan Editor (
roles/dataplex.dataScanEditor) – הפרויקט שלכם -
הרשאת קריאה למשאבי DataScan, לא כולל התוצאות:
Dataplex DataScan Viewer (
roles/dataplex.dataScanViewer) – הפרויקט שלכם -
הרשאת קריאה למשאבי DataScan, כולל התוצאות:
Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) – הפרויקט שלכם
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות ליצירה ולניהול של סריקות לגילוי נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי ליצור ולנהל סריקות של גילוי נתונים, נדרשות ההרשאות הבאות:
-
יוצרים סריקת נתונים:
dataplex.datascans.createבפרויקט -
מחיקת DataScan:
dataplex.datascans.deleteבפרויקט או במשאב DataScan -
הצגת פרטים של DataScan ללא תוצאות:
dataplex.datascans.getבמקרן שלכם משאב DataScan -
הצגת פרטים של DataScan, כולל התוצאות:
dataplex.datascans.getDataבפרויקט או במשאב DataScan -
הצגת רשימה של סריקות נתונים:
dataplex.datascans.listבפרויקט או במשאב DataScan -
מריצים DataScan:
dataplex.datascans.runבפרויקט או במשאב DataScan -
עדכון התיאור של DataScan:
dataplex.datascans.updateבמקרן שלכם משאב DataScan -
צפייה בהרשאות IAM של DataScan:
dataplex.datascans.getIamPolicyבפרויקט או במשאב DataScan -
מגדירים את הרשאות ה-IAM ב-DataScan:
dataplex.datascans.setIamPolicyבפרויקט או במשאב DataScan
יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
יצירת סריקת Discovery
כדי לגלות נתונים, צריך ליצור ולהריץ סריקת גילוי. אפשר להגדיר לוח זמנים לסריקה או להפעיל את הסריקה לפי דרישה.
כשסריקת הגילוי מופעלת, היא יוצרת מערך נתונים חדש ב-BigQuery שתואם למאגר Cloud Storage שנסרק. השם של מערך הנתונים ב-BigQuery זהה לשם של קטגוריה של Cloud Storage. תווים לא חוקיים בשם של הקטגוריה מוחלפים בקו תחתון. אם שם מערך הנתונים לא זמין, מתווסף סיומת (לדוגמה, _discovered_001). מערך הנתונים מכיל את הטבלאות החיצוניות של BigLake או טבלאות חיצוניות אחרות שנוצרו על ידי סריקת הגילוי לצורך ניתוח נוסף.
המסוף
נכנסים לדף Metadata curation במסוף Google Cloud .
בכרטיסייה Cloud Storage discovery, לוחצים על Create.
בחלונית Create discovery scan, מגדירים את הפרטים של הנתונים שרוצים לסרוק.
מזינים שם לסריקה.
בשדה Scan ID, מזינים מזהה ייחודי בהתאם למוסכמות למתן שמות למשאבים ב- Google Cloud. אם לא מספקים מזהה, סריקת הגילוי יוצרת את מזהה הסריקה.
אופציונלי: מוסיפים תיאור של הסריקה.
כדי לציין את קטגוריית Cloud Storage שמכילה את הקבצים שרוצים לסרוק, בשדה Bucket, עוברים לקטגוריה ובוחרים אותה.
אופציונלי: מגדירים את הנתונים שרוצים לכלול או להחריג מסריקת הגילוי על ידי ציון רשימה של תבניות glob לסינון קבצים.
- Include: אם רוצים לסרוק רק קבוצת משנה של הנתונים, צריך לספק רשימה של דפוסי glob שתואמים לאובייקטים שרוצים לכלול.
- החרגה: מספקים רשימה של דפוסי glob שתואמים לאובייקטים שרוצים להחריג.
לדוגמה, אם רוצים להחריג את
gs://test_bucket/foo/..מסריקת הגילוי, מזינים את**/foo/**כנתיב להחרגה. מירכאות גורמות לשגיאות. חשוב להזין**/foo/**במקום"**/foo/**".אם מספקים גם דפוסי הכללה וגם דפוסי החרגה, דפוסי ההחרגה מוחלים קודם.
אופציונלי: בפרויקט, בוחרים את פרויקט מערך הנתונים ב-BigQuery שמכיל את הטבלאות החיצוניות של BigLake או את הטבלאות החיצוניות שלא שייכות ל-BigLake שנוצרו על ידי סריקת הגילוי. אם לא מציינים פרויקט, מערך הנתונים נוצר בפרויקט שמכיל את הקטגוריה של Cloud Storage.
בקטע Location type, בוחרים באפשרות Region או Multi-region (האפשרות שזמינה) שבה ייצור מערך הנתונים לפרסום ב-BigQuery.
כדי ליצור טבלאות BigLake מהנתונים שנסרקו, בשדה Connection ID (מזהה החיבור), מציינים את מזהה החיבור של משאב Google Cloud . מידע נוסף זמין במאמר בנושא Google Cloud קישורי משאבים ב-BigQuery.
אפשר ליצור מזהה חיבור חדש באותו מיקום שבו נמצא מערך הנתונים של BigQuery, שהוא מיקום שתואם למיקום של קטגוריית Cloud Storage.
אם לא מציינים מזהה של חיבור למשאב, הסריקה לגילוי יוצרת טבלאות חיצוניות שאינן BigLake. כדי להבין את ההבדלים בין סוגי הטבלאות החיצוניות האלה ולמה שירות החיפוש הרחב עשוי לבחור באחת מהן ולא באחרת, אפשר לעיין בהשוואה של ההבדלים בהתנהגות.
בקטע תדירות החיפוש הרחב, מגדירים מתי רוצים שהסריקה תפעל:
חזרה: הסריקה מופעלת לפי לוח זמנים מוגדר מראש. מציינים את שעת ההתחלה, הימים שבהם הסריקה תפעל והתדירות, למשל כל שעה.
על פי דרישה: הסריקה מופעלת על פי דרישה.
אופציונלי: בקטע JSON or CSV specifications (הגדרות של JSON או CSV), מציינים איך הסריקה צריכה לעבד קובצי JSON ו-CSV. לוחצים על מפרטים של JSON או CSV.
- כדי להגדיר אפשרויות JSON, בוחרים באפשרות הפעלת אפשרויות ניתוח JSON.
- השבתת הסקת סוגים: האם סריקת הגילוי צריכה להסיק סוגי נתונים כשסורקים נתונים. אם משביתים את ההסקה של סוגי נתונים עבור נתוני JSON, כל העמודות נרשמות כסוגי הנתונים הפרימיטיביים שלהן, כמו מחרוזת, מספר או ערך בוליאני.
- פורמט הקידוד: קידוד התווים של הנתונים, כמו UTF-8, US-ASCII או ISO-8859-1. אם לא מציינים ערך, המערכת משתמשת ב-UTF-8 כברירת מחדל.
- כדי להגדיר אפשרויות של קובץ CSV, מסמנים את התיבה הפעלת אפשרויות ניתוח של קובץ CSV.
- השבתת הסקת סוגים: האם סריקת הגילוי צריכה להסיק סוגי נתונים כשסורקים נתונים. אם משביתים את ההיסק של סוג הנתונים עבור נתוני CSV, כל העמודות נרשמות כמחרוזות.
- שורות כותרת: מספר שורות הכותרת,
0או1. אם מציינים את הערך0, סריקת הגילוי מסיקה כותרות ומחלצת את שמות העמודות מהקובץ. ערך ברירת המחדל הוא0. - תו מפריד עמודות: התו שמשמש להפרדת הערכים. צריך לספק תו יחיד,
\r(החזרת גררה) או\n(שורה חדשה). ברירת המחדל היא פסיק (,). - פורמט הקידוד: קידוד התווים של הנתונים, כמו
UTF-8,US-ASCIIאוISO-8859-1. אם לא מציינים ערך, המערכת משתמשת ב-UTF-8 כברירת מחדל.
- כדי להגדיר אפשרויות JSON, בוחרים באפשרות הפעלת אפשרויות ניתוח JSON.
לוחצים על יצירה (כדי לתזמן סריקה), על הפעלה מיידית (כדי להפעיל סריקה לפי דרישה) או על יצירה והפעלה (כדי להפעיל סריקה חד-פעמית).
סריקה מתוזמנת מופעלת בהתאם ללוח הזמנים שהגדרתם.
סריקה לפי דרישה מופעלת פעם אחת בהתחלה כשיוצרים אותה, ואפשר להפעיל אותה בכל שלב. יכול להיות שיחלפו כמה דקות עד שסריקת החיפוש הרחב תפעל.
סריקה חד-פעמית מתבצעת באופן אוטומטי, פעם אחת בלבד. הוא נמחק אוטומטית כשהוא מגיע לסף אורך החיים (TTL) שהוגדר לו, ערך שקובע את משך הזמן שסריקת גילוי נשארת פעילה אחרי ההפעלה. ערך ה-TTL יכול להיות בין 0 שניות (מחיקה מיידית) לבין 365 ימים. סריקת גילוי ללא TTL מוגדר נמחקת אוטומטית אחרי 24 שעות.
gcloud
כדי ליצור סריקת Discovery, משתמשים בפקודה gcloud dataplex datascans create data-discovery.
gcloud dataplex datascans create data-discovery --location=LOCATION --data-source-resource=BUCKET_PATH
מחליפים את מה שכתוב בשדות הבאים:
-
LOCATION: המיקום שבו רוצים ליצור את הסריקה לגילוי -
BUCKET_PATH: הנתיב ב-Cloud Storage של הקטגוריה שרוצים לסרוק
REST
כדי ליצור סריקת גילוי, משתמשים ב-dataScans.create method.
שליחת שאילתות לגבי טבלאות BigLake שפורסמו
אחרי שמריצים את סריקת הגילוי, טבלאות BigLake מתפרסמות במערך נתונים חדש ב-BigQuery. אחרי כן, הטבלאות זמינות לניתוח ב-BigQuery באמצעות SQL, או ב-Dataproc באמצעות Apache Spark או HiveQL.
SQL
אתם יכולים להציג טבלאות ב-BigQuery או לשלוח שאילתות לגביהן. מידע נוסף על הרצת שאילתות ב-BigQuery זמין במאמר הרצת שאילתה.
Apache Spark
כדי להריץ שאילתות בטבלאות BigLake באמצעות Spark SQL במשימה ללא שרת ב-Dataproc, פועלים לפי השלבים הבאים:
יוצרים סקריפט PySpark שדומה לסקריפט לדוגמה הבא:
from pyspark.sql import SparkSession session = ( SparkSession.builder.appName("testing") .config("viewsEnabled","true") .config("materializationDataset", "DATASET_ID") .config("spark.hive.metastore.bigquery.project.id", "PROJECT_ID") .config("spark.hive.metastore.client.factory.class", "com.google.cloud.bigquery.metastore.client.BigQueryMetastoreClientFactory") .enableHiveSupport() .getOrCreate() ) session.sql("show databases").show() session.sql("use TABLE_NAME").show() session.sql("show tables").show() sql = "SELECT * FROM DATASET_ID.TABLE_ID LIMIT 10" df = session.read.format("bigquery").option("dataset", "DATASET_ID").load(sql) df.show()
מחליפים את מה שכתוב בשדות הבאים:
-
DATASET_ID: מזהה מערך הנתונים שלמשתמשים יש הרשאת יצירה לגביו -
PROJECT_ID: מזהה הפרויקט עם טבלת BigLake -
TABLE_NAME: שם הטבלה ב-BigLake -
TABLE_ID: מזהה הטבלה ב-BigLake
-
ניהול טבלאות BigLake שפורסמו
טבלאות BigLake שפורסמו נוצרות ומנוהלות ב-BigQuery על ידי סריקת הגילוי. כברירת מחדל, סריקת הגילוי מטפלת בגילוי נתונים חדשים, בהסקת מסקנות לגבי סכימות ובשינויים בסכימות בכל פעם שהסריקות המתוזמנות או הסריקות על פי דרישה מופעלות. כדי לציין שהמטא-נתונים מנוהלים על ידי הסריקה, הסריקה מפרסמת טבלאות עם התווית metadata-managed-mode שהערך שלה מוגדר ל-discovery-managed.
אם רוצים לנהל את הסכימה ומטא-נתונים אחרים כמו אפשרויות CSV או JSON באופן עצמאי, צריך להגדיר את התווית metadata-managed-mode לערך user_managed. כך הסכימה לא משתנה כשמריצים את הסריקה הבאה של גילוי המקורות. הגישה הזו יכולה להיות שימושית בתרחישים שבהם הסכימה שמוסקת על ידי סריקת הגילוי שגויה או שונה מהסכימה הצפויה לטבלה מסוימת. כשהתווית
metadata-managed-mode מוגדרת לערך user_managed, היא יכולה להפחית את העלות.
כדי לעדכן את התווית, אפשר לערוך את הערך של מפתח התווית
metadata-managed-mode ל-user_managed במקום ל-discovery-managed. במקרה הזה, סריקת הגילוי לא מעדכנת את הסכימה של הטבלה כל עוד התווית user_managed מצורפת לטבלה.
עדכון של טבלאות BigLake שפורסמו
בטבלאות BigLake שפורסמו באמצעות משימות סריקה לגילוי עם הגדרות ברירת המחדל, הסכימה ומטא-נתונים אחרים מתעדכנים אוטומטית בכל הפעלה של משימת סריקה לגילוי בתדירות המתוזמנת.
כדי לעדכן טבלת BigLake שפורסמה, פועלים לפי השלבים הבאים:
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.
בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Datasets ואז בוחרים מערך נתונים.
לוחצים על סקירה כללית > טבלאות ובוחרים את הטבלה.
בכרטיסייה פרטים, בקטע תוויות, מוודאים שהתווית metadata-managed-mode מוגדרת לערך user_managed. אם הערך שמוגדר שונה, פועלים לפי השלבים הבאים:
לוחצים על עריכת הפרטים.
לצד המפתח metadata-managed-mode, בשדה value, מזינים
user_managed.
מחיקת טבלאות BigLake שפורסמו
כדי למחוק טבלת BigLake שפורסמה, פועלים לפי השלבים הבאים:
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Datasets ואז בוחרים מערך נתונים.
לוחצים על סקירה כללית > טבלאות ובוחרים את הטבלה.
בחלונית פרטים, בקטע תוויות, מוודאים שהתווית metadata-managed-mode לא מוגדרת כ-
user_managed. אם הערך הואuser_managed, צריך לבצע את השלבים הבאים:לוחצים על עריכת הפרטים .
לצד המפתח metadata-managed-mode, בשדה value, מזינים
discovery-managed.
לוחצים על Run. סריקת הגילוי מופעלת לפי דרישה.
אחרי סיום הסריקה לגילוי, הטבלה ב-BigLake נמחקת ב-BigQuery ולא ניתן להציג אותה או לשלוח אליה שאילתות באמצעות Spark.
הפעלת סריקה של גילוי על פי דרישה
כדי להפעיל סריקת גילוי לפי דרישה, בוחרים באחת מהאפשרויות הבאות.
המסוף
במסוף Google Cloud , עוברים לדף BigQuery.
בתפריט הניווט, לוחצים על Governance > Metadata curation.
בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שרוצים להריץ.
לוחצים על הפעלה מיידית.
gcloud
כדי להריץ סריקת גילוי, משתמשים בפקודה gcloud dataplex datascans run:
gcloud dataplex datascans runDATASCAN\ --location=LOCATION
מחליפים את המשתנים הבאים:
-
LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי. -
DATASCAN: השם של סריקת הגילוי.
REST
כדי להפעיל סריקת גילוי על פי דרישה, משתמשים ב-method dataScans.run ב-Dataplex API.
רשימת סריקות הגילוי
כדי להציג את סריקות הגילוי, בוחרים באחת מהאפשרויות הבאות.
המסוף
במסוף Google Cloud , עוברים לדף BigQuery.
בתפריט הניווט, לוחצים על Governance > Metadata curation.
בחלונית Cloud Storage discovery מופיעה רשימה של סריקות הגילוי שנוצרו בפרויקט.
gcloud
gcloud dataplex datascans list --location=LOCATION --project=PROJECT_ID
מחליפים את מה שכתוב בשדות הבאים:
-
LOCATION: המיקום של הפרויקט -
PROJECT_ID: מזהה הפרויקט ב- Google Cloud
REST
כדי לאחזר את רשימת סריקות גילוי הנתונים בפרויקט, משתמשים בשיטה dataScans.list ב-Dataplex API.
הצגת סריקת גילוי
כדי לראות סריקה של חיפוש רחב, בוחרים באחת מהאפשרויות הבאות.
המסוף
במסוף Google Cloud , עוברים לדף BigQuery.
בתפריט הניווט, לוחצים על Governance > Metadata curation.
בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שרוצים לראות את הפרטים שלה.
- בקטע פרטי הסריקה מוצגים פרטים על סריקת הגילוי.
- בקטע סטטוס הסריקה מוצגות תוצאות הגילוי של משימת הסריקה האחרונה.
gcloud
gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULLמחליפים את מה שכתוב בשדות הבאים:
-
JOB: מזהה המשימה של משימת הסריקה לגילוי. -
LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי. -
DATASCAN: השם של סריקת החיפוש הרחב שאליה שייכת המשימה. -
--view=FULL: לראות את תוצאת משימת הסריקה של הגילוי.
REST
כדי לראות את התוצאות של סריקת גילוי נתונים, משתמשים בשיטה dataScans.get ב-Dataplex API.
צפייה בתוצאות היסטוריות של סריקת גילוי
כדי לראות תוצאות היסטוריות של סריקת גילוי, בוחרים באחת מהאפשרויות הבאות.
המסוף
במסוף Google Cloud , עוברים לדף BigQuery.
בתפריט הניווט, לוחצים על Governance > Metadata curation.
בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שרוצים לראות את הפרטים שלה.
לוחצים על החלונית היסטוריית הסריקות. בחלונית היסטוריית הסריקות מוצג מידע על משימות קודמות, כולל מספר הרשומות שנסרקו בכל משימה, הסטטוס של כל משימה והשעה שבה המשימות הופעלו.
כדי לראות מידע מפורט על משימה, לוחצים על המשימה בעמודה מזהה משימה.
gcloud
gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCANמחליפים את מה שכתוב בשדות הבאים:
-
LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי. -
DATASCAN: השם של סריקת החיפוש הרחב שאליה שייכת המשימה.
REST
כדי לראות את כל העבודות של סריקת גילוי, משתמשים ב-method dataScans.job/list ב-Dataplex API.
עדכון סריקת גילוי
כדי לשנות את התזמון של סריקת גילוי, למשל כדי לשנות את התזמון מסריקה על פי דרישה לסריקה חוזרת, צריך לעדכן את סריקת הגילוי.
המסוף
במסוף Google Cloud , עוברים לדף BigQuery.
בתפריט הניווט, לוחצים על Governance > Metadata curation.
בחלונית Cloud Storage discovery, בשורה של סריקת הגילוי שרוצים לעדכן, לוחצים על Actions > Edit (פעולות > עריכה).
עורכים את הערכים.
לוחצים על Save.
gcloud
כדי לעדכן סריקת Discovery, משתמשים בפקודה gcloud dataplex datascans update data-discovery.
gcloud dataplex datascans update data-discovery SCAN_ID --location=LOCATION --description=DESCRIPTION
מחליפים את מה שכתוב בשדות הבאים:
-
SCAN_ID: המזהה של סריקת הגילוי שרוצים לעדכן -
LOCATION: האזור שבו נוצרה סריקת הגילוי Google Cloud DESCRIPTION: התיאור החדש של הסריקה לגילוי
REST
כדי לעדכן סריקת גילוי, משתמשים ב-method dataScans.patch ב-Dataplex API.
מחיקת סריקת גילוי
כדי למחוק סריקת גילוי, בוחרים באחת מהאפשרויות הבאות.
המסוף
במסוף Google Cloud , עוברים לדף BigQuery.
בתפריט הניווט, לוחצים על Governance > Metadata curation.
בחלונית Cloud Storage discovery, לוחצים על Actions > Delete (פעולות > מחיקה) ליד סריקת הגילוי שרוצים למחוק.
לוחצים על Delete.
gcloud
gcloud dataplex datascans delete SCAN_ID --location=LOCATION --async
מחליפים את מה שכתוב בשדות הבאים:
-
SCAN_ID: המזהה של סריקת הגילוי שרוצים למחוק. -
LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי.
REST
כדי למחוק סריקת גילוי, משתמשים ב-method dataScans.delete ב-Dataplex API.