גילוי וקטלוג של נתונים ב-Cloud Storage

במאמר הזה מוסבר איך להשתמש בתכונה 'גילוי אוטומטי' של Knowledge Catalog ב-BigQuery. התכונה הזו מאפשרת לסרוק נתונים בדליים של Cloud Storage כדי לחלץ מטא-נתונים ואז לכלול אותם בקטלוג. במסגרת סריקת הגילוי, הגילוי האוטומטי יוצר טבלאות BigLake או טבלאות חיצוניות לנתונים מובְנים וטבלאות אובייקטים לנתונים לא מובְנים. הטבלה המרכזית הזו מאפשרת לקבל תובנות מבוססות-AI על הנתונים, אבטחת מידע וניהול הנתונים בקלות.

כדי להשתמש בגילוי אוטומטי של נתונים ב-Cloud Storage, יוצרים ומריצים סריקת גילוי.

גילוי אוטומטי נקרא גם גילוי עצמאי.

סקירה כללית של סריקת Discovery

סריקת Discovery מבצעת את הפעולות הבאות:

במקרה של נתונים לא מובְנים, כמו תמונות וסרטונים, סריקת הגילוי מזהה ומקליטה קבוצות של קבצים עם אותו פורמט של קובץ נתונים. הקבצים צריכים להיות בתיקיות שמכילות את אותו פורמט קובץ. לדוגמה, gs://images/group1 צריך להכיל רק תמונות GIF, ו-gs://images/group2 צריך להכיל רק תמונות JPEG, כדי שסריקת הגילוי תזהה ותירשום שתי טבלאות אובייקטים של BigLake.

במקרה של נתונים מובְנים, כמו Avro, הסריקה לאיתור נתונים רושמת קבוצות של קבצים כטבלאות חיצוניות של BigLake ומזהה קבצים רק אם הם נמצאים בתיקיות שמכילות את אותו פורמט נתונים ואת אותה סכימה תואמת.

סריקת הגילוי תומכת בפורמטים הבאים:

מובנה וחצי מובנה

לא מובנה

  • תמונה (לדוגמה, JPEG, ‏ PNG ו-BMP)
  • מסמכים (כמו קובצי PDF, מצגות ודוחות טקסט)
  • אודיו או וידאו (לדוגמה, WAV, ‏ MP3 ו-MP4)

הסריקה של Discovery תומכת בפורמטים הבאים של דחיסה:

נתונים מובְנים ונתונים חצי מובְנים

  • דחיסה פנימית לפורמטים הבאים:

    דחיסת נתונים דוגמה לסיומת קובץ פורמט נתמך
    gzip .gz.parquet Parquet
    lz4 .lz4.parquet Parquet
    Snappy .snappy.parquet Parquet, ‏ ORC, ‏ Avro
    lzo .lzo.parquet Parquet, ‏ ORC
  • דחיסה חיצונית של קובצי JSON ו-CSV:

    • gzip
    • bzip2

נתונים לא מובְנים

בטבלאות של אובייקטים, הדחיסה מנוהלת בעיקר באמצעות מטא-נתונים של אובייקטים ב-Cloud Storage, ולא באמצעות הגדרות פנימיות של BigQuery.

  • דחיסה של מטא-נתונים סטנדרטיים: מערכת BigQuery מזהה באופן אוטומטי קבצים שנדחסו באמצעות gzip ו-bzip2 אם הם משתמשים בסיומות הסטנדרטיות ‎ .gz או ‎ .bz2.
  • Content-Encoding: אפשר להשתמש במטא-נתונים Content-Encoding gzip ב-Cloud Storage כדי להציג קבצים דחוסים תוך שמירה על סוג התוכן המקורי שלהם.
  • דחיסה פנימית של מדיה: יש תמיכה מקורית בפורמטים שדחוסים באופן מובנה (כמו JPEG לתמונות, MP3 לאודיו ו-MP4 לווידאו).

כדי לראות את המגבלה של מספר הטבלאות שסריקת גילוי תומכת בהן, אפשר לעיין במאמר בנושא מכסות ומגבלות.

הטבלאות שמתגלות נרשמות ב-BigQuery כטבלאות חיצוניות של BigLake, כטבלאות אובייקטים של BigLake או כטבלאות חיצוניות. כך הנתונים שלהם יהיו זמינים לניתוח ב-BigQuery. גם שמירת מטא-נתונים במטמון של טבלאות BigLake וטבלאות אובייקטים מופעלת. כל הטבלאות של BigLake מוזנות אוטומטית ל-Knowledge Catalog לצורך חיפוש וגילוי.

לפני שמתחילים

מפעילים את Dataplex API.

תפקידים שנדרשים להפעלת ממשקי API

כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים

להפעלת ה-API

תפקידים נדרשים לחשבון השירות של Knowledge Catalog

לפני שמתחילים, צריך להקצות את הרשאות ה-IAM לחשבון השירות של Knowledge Catalog בפרויקט.

  service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
  

מחליפים את PROJECT_NUMBER בפרויקט שבו מופעל Dataplex API.

כדי לוודא שלחשבון השירות של Knowledge Catalog יש את ההרשאות שנדרשות ליצירה ולהרצה של סריקת גילוי, צריך לבקש מהאדמין להקצות לחשבון השירות של Knowledge Catalog את תפקידי ה-IAM הבאים:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות ליצירה ולהרצה של סריקת גילוי. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי ליצור ולהריץ סריקת גילוי, נדרשות ההרשאות הבאות:

  • bigquery.datasets.create בפרויקט של מקור הנתונים
  • storage.buckets.get בקטגוריית מקור הנתונים
  • storage.objects.get בקטגוריית מקור הנתונים
  • storage.objects.list בקטגוריית מקור הנתונים
  • bigquery.datasets.get בפרויקט של מקור הנתונים
  • הוספת חיבור:
    • bigquery.connections.delegate בחיבור ל-BigQuery
    • bigquery.connections.use בחיבור ל-BigQuery

יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של Knowledge Catalog את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

תפקידים שנדרשים לחשבון השירות של החיבור ל-BigQuery

כדי לוודא שלחשבון השירות של BigQuery Connection יש את ההרשאות הנדרשות ליצירת סריקת גילוי, צריך לבקש מהאדמין לתת לחשבון השירות של BigQuery Connection את תפקיד ה-IAM‏ Dataplex Discovery Service Agent (roles/dataplex.discoveryServiceAgent) בדליקט Cloud Storage.

מידע נוסף על הקצאת תפקידים מופיע במאמר ניהול הגישה לפרויקטים, לתיקיות ולארגונים.

זהו תפקיד שמוגדר מראש וכולל את ההרשאות שנדרשות ליצירת סריקת גילוי. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי ליצור סריקת Discovery, צריך את ההרשאות הבאות:

  • bigquery.datasets.create בפרויקט של מקור הנתונים
  • storage.buckets.get בקטגוריית מקור הנתונים
  • storage.objects.get בקטגוריית מקור הנתונים
  • storage.objects.list בקטגוריית מקור הנתונים
  • bigquery.datasets.get בפרויקט של מקור הנתונים
  • הוספת חיבור:
    • bigquery.connections.delegate בחיבור ל-BigQuery
    • bigquery.connections.use בחיבור ל-BigQuery

יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של BigQuery Connection את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

התפקידים הנדרשים למשתמשי קצה

כדי לקבל את ההרשאות שדרושות ליצירה ולניהול של סריקות לגילוי נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בקטגוריית Cloud Storage:

  • גישה מלאה למשאבי DataScan: אדמין DataScan של Dataplex‏ (roles/dataplex.dataScanAdmin) – הפרויקט שלכם
  • גישת כתיבה למשאבי DataScan: Dataplex DataScan Editor (roles/dataplex.dataScanEditor) – הפרויקט שלכם
  • הרשאת קריאה למשאבי DataScan, לא כולל התוצאות: Dataplex DataScan Viewer (roles/dataplex.dataScanViewer) – הפרויקט שלכם
  • הרשאת קריאה למשאבי DataScan, כולל התוצאות: Dataplex DataScan DataViewer ‏ (roles/dataplex.dataScanDataViewer) – הפרויקט שלכם

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה מכילים את ההרשאות שנדרשות ליצירה ולניהול של סריקות לגילוי נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי ליצור ולנהל סריקות של גילוי נתונים, צריך את ההרשאות הבאות:

  • יוצרים DataScan: dataplex.datascans.create בפרויקט
  • מחיקת DataScan: dataplex.datascans.delete בפרויקט או במשאב DataScan
  • הצגת פרטים של DataScan ללא תוצאות: dataplex.datascans.get במקרן שלכם משאב DataScan
  • הצגת פרטים של DataScan, כולל תוצאות: dataplex.datascans.getData בפרויקט או במשאב DataScan
  • הצגת רשימה של סריקות נתונים: dataplex.datascans.list בפרויקט או במשאב DataScan
  • מריצים DataScan: dataplex.datascans.run בפרויקט או במשאב DataScan
  • עדכון התיאור של DataScan: dataplex.datascans.update במקרן שלכם, מקור DataScan
  • צפייה בהרשאות IAM של DataScan: dataplex.datascans.getIamPolicy בפרויקט או במשאב DataScan
  • הגדרת הרשאות IAM ב-DataScan: dataplex.datascans.setIamPolicy בפרויקט או במשאב DataScan

יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

יצירת סריקה של Discovery

כדי לגלות נתונים, צריך ליצור ולהריץ סריקת גילוי. אתם יכולים להגדיר לוח זמנים לסריקה או להפעיל את הסריקה לפי דרישה.

כשסריקת הגילוי מופעלת, היא יוצרת מערך נתונים חדש ב-BigQuery שתואם למאגר Cloud Storage שנסרק. השם של מערך הנתונים ב-BigQuery זהה לשם של קטגוריה של Cloud Storage. תווים לא חוקיים בשם של קטגוריה מוחלפים בקו תחתון. אם שם מערך הנתונים לא זמין, מתווסף סיומת (לדוגמה, _discovered_001). מערך הנתונים מכיל את הטבלאות החיצוניות של BigLake או טבלאות חיצוניות אחרות שנוצרו על ידי סריקת הגילוי לצורך ניתוח נוסף.

המסוף

  1. נכנסים לדף Metadata curation במסוף Google Cloud .

    מעבר אל 'ניהול מטא-נתונים'

  2. בכרטיסייה Cloud Storage discovery, לוחצים על Create.

  3. בחלונית Create discovery scan, מגדירים את הפרטים של הנתונים שרוצים לסרוק.

  4. מזינים שם לסריקה.

  5. בשדה Scan ID, מזינים מזהה ייחודי בהתאם למוסכמות למתן שמות למשאבים ב- Google Cloud. אם לא מספקים מזהה, הסריקה לאיתור יוצרת את מזהה הסריקה.

  6. אופציונלי: מוסיפים תיאור של הסריקה.

  7. כדי לציין את הקטגוריה של Cloud Storage שמכילה את הקבצים לסריקה, בשדה Bucket (קטגוריה), עוברים לקטגוריה ובוחרים אותה.

  8. אופציונלי: מגדירים את הנתונים שרוצים לכלול או להחריג מסריקת הגילוי על ידי ציון רשימה של תבניות glob לסינון קבצים.

    • Include: אם רוצים לסרוק רק קבוצת משנה של הנתונים, צריך לספק רשימה של תבניות glob שתואמות לאובייקטים שרוצים לכלול.
    • Exclude: מספקים רשימה של דפוסי glob שתואמים לאובייקטים שרוצים להחריג.

    לדוגמה, אם רוצים להחריג את gs://test_bucket/foo/.. מסריקת הגילוי, מזינים את **/foo/** כנתיב להחרגה. מירכאות גורמות לשגיאות. חשוב להזין **/foo/** במקום "**/foo/**".

    אם מספקים גם דפוסי הכללה וגם דפוסי החרגה, דפוסי ההחרגה מוחלים קודם.

  9. בקטע אפשרויות לנתונים לא מובְנים, בוחרים באפשרות הפעלת הסקה סמנטית.

    האפשרות הזו נדרשת אם רוצים לראות תובנות לגבי נתונים לא מובְנים ב-Knowledge Catalog. מידע נוסף על תובנות מהנתונים לגבי נתונים לא מובְנים

  10. אופציונלי: בפרויקט, בוחרים את פרויקט מערך הנתונים ב-BigQuery שמכיל את הטבלאות החיצוניות של BigLake או טבלאות חיצוניות אחרות שנוצרו על ידי סריקת הגילוי. אם לא מציינים פרויקט, קבוצת הנתונים נוצרת בפרויקט שמכיל את קטגוריה של Cloud Storage.

  11. בקטע Location type, בוחרים באפשרות Region או Multi-region (האפשרות שזמינה) שבה ייצור מערך הנתונים לפרסום ב-BigQuery.

  12. כדי ליצור טבלאות BigLake מהנתונים שנסרקו, בשדה Connection ID (מזהה החיבור), מציינים את מזהה החיבור של משאב Google Cloud . מידע נוסף זמין במאמר בנושא Google Cloud קישורי משאבים ב-BigQuery.

    אתם יכולים ליצור מזהה חיבור חדש באותו מיקום של מערך הנתונים ב-BigQuery, שהוא תואם למיקום של קטגוריית Cloud Storage.

    אם לא מציינים מזהה של חיבור למשאב, הסריקה לגילוי יוצרת טבלאות חיצוניות שאינן BigLake. כדי להבין את ההבדלים בין סוגי הטבלאות החיצוניות האלה ולמה שירות הגילוי עשוי לבחור באחת מהן ולא באחרת, אפשר לעיין בהשוואה של ההבדלים בהתנהגות.

  13. בקטע תדירות הסריקה, מגדירים מתי רוצים שהסריקה תפעל:

    • חזרה: הסריקה מופעלת לפי לוח זמנים מוגדר מראש. מציינים את שעת ההתחלה, הימים שבהם הסריקה תפעל והתדירות, למשל כל שעה.

    • על פי דרישה: הסריקה מופעלת על פי דרישה.

  14. אופציונלי: בקטע JSON or CSV specifications (מפרטים של JSON או CSV), מציינים איך הסריקה צריכה לעבד קובצי JSON ו-CSV. לוחצים על מפרטים של JSON או CSV.

    1. כדי להגדיר אפשרויות JSON, בוחרים באפשרות הפעלת אפשרויות ניתוח JSON.
      • השבתת הסקת סוגים: האם סריקת הגילוי צריכה להסיק סוגי נתונים כשסורקים נתונים. אם משביתים את ההסקה של סוגי נתונים עבור נתוני JSON, כל העמודות נרשמות כסוגי הנתונים הפרימיטיביים שלהן, כמו מחרוזת, מספר או ערך בוליאני.
      • פורמט הקידוד: קידוד התווים של הנתונים, כמו UTF-8,‏ US-ASCII או ISO-8859-1. אם לא מציינים ערך, המערכת משתמשת ב-UTF-8 כברירת מחדל.
    2. כדי להגדיר את האפשרויות של קובץ ה-CSV, מסמנים את התיבה הפעלת אפשרויות לניתוח קובץ CSV.
      • השבתת הסקת סוגים: האם סריקת הגילוי צריכה להסיק סוגי נתונים כשסורקים נתונים. אם משביתים את ההסקה של סוג הנתונים עבור נתוני CSV, כל העמודות נרשמות כמחרוזות.
      • שורות כותרת: מספר שורות הכותרת, 0 או 1. אם מציינים את הערך 0, סריקת הגילוי מסיקה כותרות ומחלצת את שמות העמודות מהקובץ. ערך ברירת המחדל הוא 0.
      • תו מפריד עמודות: התו שמשמש להפרדת הערכים. צריך לספק תו יחיד, \r (החזרת כרכרה) או \n (שורה חדשה). ברירת המחדל היא פסיק (,).
      • פורמט הקידוד: קידוד התווים של הנתונים, כמו UTF-8,‏ US-ASCII או ISO-8859-1. אם לא מציינים ערך, המערכת משתמשת ב-UTF-8 כברירת מחדל.
  15. לוחצים על יצירה (לסריקה מתוזמנת), על הפעלה מיידית (לסריקה לפי דרישה) או על יצירה והפעלה (לסריקה חד-פעמית).

    סריקה מתוזמנת מופעלת לפי לוח הזמנים שהגדרתם.

    סריקה לפי דרישה מופעלת פעם אחת בהתחלה כשיוצרים אותה, ואפשר להפעיל אותה בכל שלב. יכול להיות שיחלפו כמה דקות עד לסיום הסריקה.

    סריקה חד-פעמית מתבצעת באופן אוטומטי, פעם אחת בלבד. הוא נמחק אוטומטית כשהוא מגיע לסף אורך החיים (TTL) שהוגדר לו, שהוא ערך שקובע את משך הזמן שסריקת גילוי נשארת פעילה אחרי ההפעלה. ערך ה-TTL יכול לנוע בין 0 שניות (מחיקה מיידית) לבין 365 ימים. סריקת גילוי ללא TTL מוגדר נמחקת אוטומטית אחרי 24 שעות.

gcloud

כדי ליצור סריקת גילוי, משתמשים בפקודה gcloud dataplex datascans create data-discovery.

gcloud dataplex datascans create data-discovery --location=LOCATION
--data-source-resource=BUCKET_PATH

מחליפים את מה שכתוב בשדות הבאים:

  • LOCATION: המיקום שבו רוצים ליצור את הסריקה לגילוי
  • BUCKET_PATH: הנתיב ב-Cloud Storage של הקטגוריה שרוצים לסרוק

REST

כדי ליצור סריקת גילוי, משתמשים ב-dataScans.create method.

שליחת שאילתות לטבלאות BigLake שפורסמו

אחרי שמריצים את סריקת הגילוי, טבלאות BigLake מתפרסמות במערך נתונים חדש ב-BigQuery. אחרי הייצוא, הטבלאות זמינות לניתוח ב-BigQuery באמצעות SQL, או ב-Managed Service for Apache Spark באמצעות Apache Spark או HiveQL.

SQL

אפשר להציג טבלאות ב-BigQuery או לשלוח שאילתות לגביהן. מידע נוסף על הרצת שאילתות ב-BigQuery זמין במאמר הרצת שאילתה.

Apache Spark

כדי לשלוח שאילתות לטבלאות BigLake באמצעות Spark SQL בעבודה בלי שרת (serverless) של Managed Service for Apache Spark, צריך לבצע את השלבים הבאים:

  1. יוצרים סקריפט PySpark שדומה לסקריפט לדוגמה הבא:

    from pyspark.sql import SparkSession
    session = (
      SparkSession.builder.appName("testing")
        .config("viewsEnabled","true")
        .config("materializationDataset", "DATASET_ID")
        .config("spark.hive.metastore.bigquery.project.id", "PROJECT_ID")
        .config("spark.hive.metastore.client.factory.class", "com.google.cloud.bigquery.metastore.client.BigQueryMetastoreClientFactory")
        .enableHiveSupport()
        .getOrCreate()
    )
    
    session.sql("show databases").show()
    session.sql("use TABLE_NAME").show()
    session.sql("show tables").show()
    
    sql = "SELECT * FROM DATASET_ID.TABLE_ID LIMIT 10"
    df = session.read.format("bigquery").option("dataset", "DATASET_ID").load(sql)
    df.show()

    מחליפים את מה שכתוב בשדות הבאים:

    • DATASET_ID: מזהה מערך הנתונים שלמשתמשים יש הרשאת יצירה לגביו
    • PROJECT_ID: מזהה הפרויקט עם טבלת BigLake
    • TABLE_NAME: שם הטבלה ב-BigLake
    • TABLE_ID: המזהה של טבלת BigLake
  2. שולחים את משימת האצווה.

ניהול טבלאות BigLake שפורסמו

טבלאות BigLake שפורסמו נוצרות ומנוהלות ב-BigQuery על ידי סריקת הגילוי. כברירת מחדל, סריקת הגילוי מטפלת בגילוי נתונים חדשים, בהסקת מסקנות לגבי סכימות ובשינויים בסכימות בכל פעם שהסריקות המתוזמנות או הסריקות לפי דרישה מופעלות. כדי לציין שהמטא-נתונים מנוהלים על ידי הסריקה, הסריקה מפרסמת טבלאות עם התווית metadata-managed-mode שהערך שלה מוגדר ל-discovery-managed.

אם רוצים לנהל את הסכימה ומטא-נתונים אחרים כמו אפשרויות CSV או JSON באופן עצמאי, צריך להגדיר את התווית metadata-managed-mode לערך user_managed. כך הסכימה לא משתנה כשמריצים את הסריקה הבאה של גילוי המקורות. הגישה הזו יכולה להיות שימושית בתרחישים שבהם הסכימה שמוסקת על ידי סריקת הגילוי שגויה או שונה מהסכימה הצפויה לטבלה מסוימת. כשהתווית metadata-managed-mode מוגדרת לערך user_managed, היא יכולה להפחית את העלות.

כדי לעדכן את התווית, אפשר לערוך את הערך של מפתח התווית metadata-managed-mode ל-user_managed במקום ל-discovery-managed. במקרה הזה, סריקת הגילוי לא מעדכנת את הסכימה של הטבלה כל עוד התווית user_managed מצורפת לטבלה.

עדכון של טבלאות BigLake שפורסמו

בטבלאות BigLake שפורסמו באמצעות משימות סריקה לגילוי עם הגדרות ברירת המחדל, הסכימה ומטא-נתונים אחרים מתעדכנים אוטומטית בכל הפעלה של משימת סריקה לגילוי בתדירות המתוזמנת.

כדי לעדכן טבלת BigLake שפורסמה, פועלים לפי השלבים הבאים:

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. עדכון של מאפיין אחד או יותר של הטבלה.

  3. בחלונית הימנית, לוחצים על כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.

  4. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Datasets ובוחרים מערך נתונים.

  5. לוחצים על סקירה כללית > טבלאות ובוחרים את הטבלה.

  6. בכרטיסייה פרטים, בקטע תוויות, מוודאים שהתווית metadata-managed-mode מוגדרת לערך user_managed. אם הערך שמוגדר שונה, פועלים לפי השלבים הבאים:

    1. לוחצים על עריכת הפרטים.

    2. לצד המפתח metadata-managed-mode, בשדה value, מזינים user_managed.

מחיקת טבלאות BigLake שפורסמו

כדי למחוק טבלת BigLake שפורסמה, פועלים לפי השלבים הבאים:

  1. מוחקים את קובצי הנתונים של הטבלה בקטגוריה של Cloud Storage.

  2. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  3. בחלונית הימנית, לוחצים על כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

  4. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Datasets ובוחרים מערך נתונים.

  5. לוחצים על סקירה כללית > טבלאות ובוחרים את הטבלה.

  6. בחלונית פרטים, בקטע תוויות, מוודאים שהתווית metadata-managed-mode לא מוגדרת לערך user_managed. אם הערך הוא user_managed, צריך לבצע את השלבים הבאים:

    1. לוחצים על עריכת הפרטים .

    2. לצד המפתח metadata-managed-mode, בשדה value, מזינים discovery-managed.

  7. לוחצים על Run. סריקת הגילוי מופעלת לפי דרישה.

אחרי סיום הסריקה לגילוי, הטבלה ב-BigLake נמחקת ב-BigQuery ולא ניתן להציג אותה או לשלוח אליה שאילתות באמצעות Spark.

הפעלת סריקת גילוי לפי דרישה

כדי להפעיל סריקת גילוי לפי דרישה, בוחרים באחת מהאפשרויות הבאות.

המסוף

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שרוצים להריץ.

  4. לוחצים על הפעלה מיידית.

gcloud

כדי להריץ סריקת גילוי, משתמשים בפקודה gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
  --location=LOCATION

מחליפים את המשתנים הבאים:

  • LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי.
  • DATASCAN: השם של סריקת הגילוי.

REST

כדי להריץ סריקת גילוי על פי דרישה, משתמשים ב-method‏ dataScans.run ב-Dataplex API.

הצגת סריקות לגילוי

כדי להציג את הסריקות לגילוי, בוחרים באחת מהאפשרויות הבאות.

המסוף

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery, מוצגות סריקות הגילוי שנוצרו בפרויקט.

gcloud

gcloud dataplex datascans list --location=LOCATION --project=PROJECT_ID

מחליפים את מה שכתוב בשדות הבאים:

  • LOCATION: המיקום של הפרויקט
  • PROJECT_ID: מזהה הפרויקט ב- Google Cloud

REST

כדי לאחזר את רשימת הסריקות של גילוי נתונים בפרויקט, משתמשים בשיטה dataScans.list ב-Dataplex API.

הצגת סריקת גילוי

כדי לראות סריקה של גילוי, בוחרים באחת מהאפשרויות הבאות.

המסוף

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שרוצים לראות את הפרטים שלה.

    • בקטע פרטי הסריקה מוצגים פרטים על סריקת הגילוי.
    • בקטע סטטוס הסריקה מוצגות תוצאות הגילוי של משימת הסריקה האחרונה.

gcloud

gcloud dataplex datascans jobs describe JOB \
    --location=LOCATION \
    --datascan=DATASCAN \
    --view=FULL

מחליפים את מה שכתוב בשדות הבאים:

  • JOB: מזהה המשימה של משימת הסריקה לגילוי.
  • LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי.
  • DATASCAN: השם של סריקת הגילוי שאליה שייך הג'וב.
  • --view=FULL: לראות את תוצאת משימת הסריקה של הגילוי.

REST

כדי לראות את התוצאות של סריקת גילוי נתונים, משתמשים בשיטה dataScans.get ב-Dataplex API.

צפייה בתוצאות היסטוריות של סריקת גילוי

כדי לראות את התוצאות של סריקות היסטוריות של גילוי, בוחרים באחת מהאפשרויות הבאות.

המסוף

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שרוצים לראות את הפרטים שלה.

  4. לוחצים על החלונית היסטוריית הסריקות. בחלונית היסטוריית הסריקות מוצג מידע על משימות קודמות, כולל מספר הרשומות שנסרקו בכל משימה, הסטטוס של כל משימה והשעה שבה המשימות הופעלו.

  5. כדי לראות מידע מפורט על משימה, לוחצים על המשימה בעמודה מזהה משימה.

gcloud

gcloud dataplex datascans jobs list \
    --location=LOCATION \
    --datascan=DATASCAN

מחליפים את מה שכתוב בשדות הבאים:

  • LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי.
  • DATASCAN: השם של סריקת הגילוי שאליה שייך הג'וב.

REST

כדי לראות את כל העבודות של סריקת גילוי, משתמשים ב-method‏ dataScans.job/list ב-Dataplex API.

עדכון סריקת Discovery

כדי לשנות את התזמון של סריקת גילוי, למשל כדי לשנות את התזמון מסריקה לפי דרישה לסריקה חוזרת, צריך לעדכן את סריקת הגילוי.

המסוף

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery, בשורה של סריקת הגילוי שרוצים לעדכן, לוחצים על Actions > Edit.

  4. עורכים את הערכים.

  5. לוחצים על Save.

gcloud

כדי לעדכן סריקת Discovery, משתמשים בפקודה gcloud dataplex datascans update data-discovery.

gcloud dataplex datascans update data-discovery SCAN_ID --location=LOCATION --description=DESCRIPTION

מחליפים את מה שכתוב בשדות הבאים:

  • SCAN_ID: המזהה של סריקת הגילוי שרוצים לעדכן
  • LOCATION: האזור שבו נוצרה סריקת הגילוי Google Cloud
  • DESCRIPTION: התיאור החדש של הסריקה לגילוי

REST

כדי לעדכן סריקת גילוי, משתמשים ב-method‏ dataScans.patch ב-Dataplex API.

מחיקת סריקת גילוי

כדי למחוק סריקת גילוי, בוחרים באחת מהאפשרויות הבאות.

המסוף

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery, לוחצים על Actions > Delete (פעולות > מחיקה) ליד סריקת הגילוי שרוצים למחוק.

  4. לוחצים על Delete.

gcloud

gcloud dataplex datascans delete SCAN_ID --location=LOCATION --async

מחליפים את מה שכתוב בשדות הבאים:

  • SCAN_ID: המזהה של סריקת הגילוי שרוצים למחוק.
  • LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי.

REST

כדי למחוק סריקת גילוי, משתמשים ב-method ‏dataScans.delete ב-Dataplex API.