גילוי וקטלוג של נתונים ב-Cloud Storage

במאמר הזה מוסבר איך להשתמש בתכונה 'גילוי אוטומטי של Dataplex Universal Catalog' ב-BigQuery. התכונה הזו מאפשרת לסרוק נתונים בקטגוריות של Cloud Storage כדי לחלץ מטא-נתונים ולתעד אותם בקטלוג. במסגרת סריקת הגילוי, גילוי אוטומטי יוצר טבלאות BigLake או טבלאות חיצוניות לנתונים מובְנים וטבלאות אובייקטים לנתונים לא מובְנים. הנתונים המרוכזים בטבלה הזו מאפשרים לקבל תובנות מבוססות-AI, לשמור על אבטחת מידע ולנהל אותם.

כדי להשתמש בגילוי אוטומטי של נתונים ב-Cloud Storage, יוצרים ומריצים סריקת גילוי.

גילוי אוטומטי נקרא גם גילוי עצמאי.

סקירה כללית של סריקת Discovery

סריקת Discovery מבצעת את הפעולות הבאות:

במקרה של נתונים לא מובְנים, כמו תמונות וסרטונים, הסריקה לגילוי מזהה ורושמת קבוצות של קבצים שמשתמשים באותו פורמט קובץ נתונים. הקבצים צריכים להיות בתיקיות שמכילות את אותו פורמט קובץ. לדוגמה, gs://images/group1 צריך להכיל רק תמונות GIF, ו-gs://images/group2 צריך להכיל רק תמונות JPEG, כדי שסריקת הגילוי תזהה ותירשם שתי טבלאות אובייקטים של BigLake.

במקרה של נתונים מובְנים, כמו Avro, הסריקה לאיתור נתונים רושמת קבוצות של קבצים כטבלאות חיצוניות של BigLake ומזהה קבצים רק אם הם נמצאים בתיקיות שמכילות את אותו פורמט נתונים ואת אותה סכימה תואמת.

סריקת הגילוי תומכת בפורמטים הבאים:

מובנה וחצי מובנה

לא מובנה

  • תמונה (לדוגמה, JPEG, ‏ PNG ו-BMP)
  • מסמכים (כמו PDF, מצגות ושקפים ודוחות טקסט)
  • אודיו או וידאו (כמו WAV,‏ MP3 ו-MP4)

הסריקה של Discovery תומכת בפורמטים הבאים של דחיסה:

נתונים מובְנים ונתונים חצי מובְנים

  • דחיסה פנימית לפורמטים הבאים:

    דחיסה דוגמה לסיומת קובץ פורמט נתמך
    gzip .gz.parquet Parquet
    lz4 .lz4.parquet Parquet
    Snappy .snappy.parquet Parquet, ‏ ORC, ‏ Avro
    lzo .lzo.parquet Parquet, ORC
  • דחיסה חיצונית של קובצי JSON ו-CSV:

    • gzip
    • bzip2

נתונים לא מובְנים

בטבלאות של אובייקטים, הדחיסה מנוהלת בעיקר באמצעות מטא-נתונים של אובייקטים ב-Cloud Storage, ולא באמצעות הגדרות פנימיות של BigQuery.

  • דחיסה של מטא-נתונים סטנדרטיים: מערכת BigQuery מזהה באופן אוטומטי קבצים שנדחסו באמצעות gzip ו-bzip2 אם הם משתמשים בתוספים הסטנדרטיים ‎ .gz או ‎ .bz2.
  • Content-Encoding: אפשר להשתמש במטא-נתונים Content-Encoding gzip ב-Cloud Storage כדי להציג קבצים דחוסים תוך שמירה על סוג התוכן המקורי שלהם.
  • דחיסה פנימית של מדיה: יש תמיכה מקורית בפורמטים שנדחסים באופן מובנה (כמו JPEG לתמונות, MP3 לאודיו ו-MP4 לווידאו).

כדי לראות את המגבלה של מספר הטבלאות שסריקת גילוי תומכת בהן, אפשר לעיין במאמר מכסות ומגבלות.

הטבלאות שמתגלות נרשמות ב-BigQuery כטבלאות חיצוניות של BigLake, כטבלאות אובייקטים של BigLake או כטבלאות חיצוניות. כך הנתונים שלהם יהיו זמינים לניתוח ב-BigQuery. מופעל גם מטמון של מטא-נתונים לטבלאות BigLake ולטבלאות אובייקטים. כל הטבלאות של BigLake מוזנות אוטומטית ל-Dataplex Universal Catalog לצורך חיפוש וגילוי.

לפני שמתחילים

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

התפקידים הנדרשים לחשבון השירות של Dataplex Universal Catalog

לפני שמתחילים, צריך להקצות את הרשאות ה-IAM לחשבון השירות של Dataplex Universal Catalog בפרויקט.

  service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
  

מחליפים את PROJECT_NUMBER בפרויקט שבו מופעל Dataplex API.

כדי לוודא שלחשבון השירות של Dataplex יש את ההרשאות שנדרשות ליצירה ולהרצה של סריקת גילוי, צריך לבקש מהאדמין להקצות לחשבון השירות של Dataplex את תפקידי ה-IAM הבאים:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות ליצירה ולהרצה של סריקת גילוי. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי ליצור ולהריץ סריקת Discovery, נדרשות ההרשאות הבאות:

  • bigquery.datasets.create בפרויקט של מקור הנתונים
  • storage.buckets.get בקטגוריית מקור הנתונים
  • storage.objects.get בקטגוריית מקור הנתונים
  • storage.objects.list בקטגוריית מקור הנתונים
  • bigquery.datasets.get בפרויקט של מקור הנתונים
  • הוספת חיבור:
    • bigquery.connections.delegate בחיבור ל-BigQuery
    • bigquery.connections.use בחיבור ל-BigQuery

יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של Dataplex את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

תפקידים שנדרשים לחשבון השירות של החיבור ל-BigQuery

כדי לוודא שלחשבון השירות של BigQuery Connection יש את ההרשאות שנדרשות ליצירת סריקת גילוי, צריך לבקש מהאדמין לתת לחשבון השירות של BigQuery Connection את תפקיד ה-IAM‏ Dataplex Discovery Service Agent (roles/dataplex.discoveryServiceAgent) בקטגוריה של Cloud Storage.

מידע נוסף על הקצאת תפקידים מופיע במאמר ניהול הגישה לפרויקטים, לתיקיות ולארגונים.

זהו תפקיד שמוגדר מראש וכולל את ההרשאות שנדרשות ליצירת סריקת גילוי. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי ליצור סריקת Discovery, נדרשות ההרשאות הבאות:

  • bigquery.datasets.create בפרויקט של מקור הנתונים
  • storage.buckets.get בקטגוריית מקור הנתונים
  • storage.objects.get בקטגוריית מקור הנתונים
  • storage.objects.list בקטגוריית מקור הנתונים
  • bigquery.datasets.get בפרויקט של מקור הנתונים
  • הוספת חיבור:
    • bigquery.connections.delegate בחיבור ל-BigQuery
    • bigquery.connections.use בחיבור ל-BigQuery

יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של BigQuery Connection את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

התפקידים הנדרשים למשתמשי קצה

כדי לקבל את ההרשאות שדרושות ליצירה ולניהול של סריקות לגילוי נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בקטגוריית Cloud Storage:

  • גישה מלאה למשאבי DataScan: אדמין DataScan של Dataplex‏ (roles/dataplex.dataScanAdmin) – הפרויקט שלכם
  • גישת כתיבה למשאבי DataScan: Dataplex DataScan Editor (roles/dataplex.dataScanEditor) – הפרויקט שלכם
  • הרשאת קריאה למשאבי DataScan, לא כולל התוצאות: Dataplex DataScan Viewer (roles/dataplex.dataScanViewer) – הפרויקט שלכם
  • הרשאת קריאה למשאבי DataScan, כולל התוצאות: Dataplex DataScan DataViewer ‏ (roles/dataplex.dataScanDataViewer) – הפרויקט שלכם

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות ליצירה ולניהול של סריקות לגילוי נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי ליצור ולנהל סריקות של גילוי נתונים, נדרשות ההרשאות הבאות:

  • יוצרים סריקת נתונים: dataplex.datascans.create בפרויקט
  • מחיקת DataScan: dataplex.datascans.delete בפרויקט או במשאב DataScan
  • הצגת פרטים של DataScan ללא תוצאות: dataplex.datascans.get במקרן שלכם משאב DataScan
  • הצגת פרטים של DataScan, כולל התוצאות: dataplex.datascans.getData בפרויקט או במשאב DataScan
  • הצגת רשימה של סריקות נתונים: dataplex.datascans.list בפרויקט או במשאב DataScan
  • מריצים DataScan: dataplex.datascans.run בפרויקט או במשאב DataScan
  • עדכון התיאור של DataScan: dataplex.datascans.update במקרן שלכם משאב DataScan
  • צפייה בהרשאות IAM של DataScan: dataplex.datascans.getIamPolicy בפרויקט או במשאב DataScan
  • מגדירים את הרשאות ה-IAM ב-DataScan: dataplex.datascans.setIamPolicy בפרויקט או במשאב DataScan

יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

יצירת סריקת Discovery

כדי לגלות נתונים, צריך ליצור ולהריץ סריקת גילוי. אפשר להגדיר לוח זמנים לסריקה או להפעיל את הסריקה לפי דרישה.

כשסריקת הגילוי מופעלת, היא יוצרת מערך נתונים חדש ב-BigQuery שתואם למאגר Cloud Storage שנסרק. השם של מערך הנתונים ב-BigQuery זהה לשם של קטגוריה של Cloud Storage. תווים לא חוקיים בשם של הקטגוריה מוחלפים בקו תחתון. אם שם מערך הנתונים לא זמין, מתווסף סיומת (לדוגמה, _discovered_001). מערך הנתונים מכיל את הטבלאות החיצוניות של BigLake או טבלאות חיצוניות אחרות שנוצרו על ידי סריקת הגילוי לצורך ניתוח נוסף.

המסוף

  1. נכנסים לדף Metadata curation במסוף Google Cloud .

    מעבר אל 'ניהול מטא-נתונים'

  2. בכרטיסייה Cloud Storage discovery, לוחצים על Create.

  3. בחלונית Create discovery scan, מגדירים את הפרטים של הנתונים שרוצים לסרוק.

  4. מזינים שם לסריקה.

  5. בשדה Scan ID, מזינים מזהה ייחודי בהתאם למוסכמות למתן שמות למשאבים ב- Google Cloud. אם לא מספקים מזהה, סריקת הגילוי יוצרת את מזהה הסריקה.

  6. אופציונלי: מוסיפים תיאור של הסריקה.

  7. כדי לציין את קטגוריית Cloud Storage שמכילה את הקבצים שרוצים לסרוק, בשדה Bucket, עוברים לקטגוריה ובוחרים אותה.

  8. אופציונלי: מגדירים את הנתונים שרוצים לכלול או להחריג מסריקת הגילוי על ידי ציון רשימה של תבניות glob לסינון קבצים.

    • Include: אם רוצים לסרוק רק קבוצת משנה של הנתונים, צריך לספק רשימה של דפוסי glob שתואמים לאובייקטים שרוצים לכלול.
    • החרגה: מספקים רשימה של דפוסי glob שתואמים לאובייקטים שרוצים להחריג.

    לדוגמה, אם רוצים להחריג את gs://test_bucket/foo/.. מסריקת הגילוי, מזינים את **/foo/** כנתיב להחרגה. מירכאות גורמות לשגיאות. חשוב להזין **/foo/** במקום "**/foo/**".

    אם מספקים גם דפוסי הכללה וגם דפוסי החרגה, דפוסי ההחרגה מוחלים קודם.

  9. אופציונלי: בפרויקט, בוחרים את פרויקט מערך הנתונים ב-BigQuery שמכיל את הטבלאות החיצוניות של BigLake או את הטבלאות החיצוניות שלא שייכות ל-BigLake שנוצרו על ידי סריקת הגילוי. אם לא מציינים פרויקט, מערך הנתונים נוצר בפרויקט שמכיל את הקטגוריה של Cloud Storage.

  10. בקטע Location type, בוחרים באפשרות Region או Multi-region (האפשרות שזמינה) שבה ייצור מערך הנתונים לפרסום ב-BigQuery.

  11. כדי ליצור טבלאות BigLake מהנתונים שנסרקו, בשדה Connection ID (מזהה החיבור), מציינים את מזהה החיבור של משאב Google Cloud . מידע נוסף זמין במאמר בנושא Google Cloud קישורי משאבים ב-BigQuery.

    אפשר ליצור מזהה חיבור חדש באותו מיקום שבו נמצא מערך הנתונים של BigQuery, שהוא מיקום שתואם למיקום של קטגוריית Cloud Storage.

    אם לא מציינים מזהה של חיבור למשאב, הסריקה לגילוי יוצרת טבלאות חיצוניות שאינן BigLake. כדי להבין את ההבדלים בין סוגי הטבלאות החיצוניות האלה ולמה שירות החיפוש הרחב עשוי לבחור באחת מהן ולא באחרת, אפשר לעיין בהשוואה של ההבדלים בהתנהגות.

  12. בקטע תדירות החיפוש הרחב, מגדירים מתי רוצים שהסריקה תפעל:

    • חזרה: הסריקה מופעלת לפי לוח זמנים מוגדר מראש. מציינים את שעת ההתחלה, הימים שבהם הסריקה תפעל והתדירות, למשל כל שעה.

    • על פי דרישה: הסריקה מופעלת על פי דרישה.

  13. אופציונלי: בקטע JSON or CSV specifications (הגדרות של JSON או CSV), מציינים איך הסריקה צריכה לעבד קובצי JSON ו-CSV. לוחצים על מפרטים של JSON או CSV.

    1. כדי להגדיר אפשרויות JSON, בוחרים באפשרות הפעלת אפשרויות ניתוח JSON.
      • השבתת הסקת סוגים: האם סריקת הגילוי צריכה להסיק סוגי נתונים כשסורקים נתונים. אם משביתים את ההסקה של סוגי נתונים עבור נתוני JSON, כל העמודות נרשמות כסוגי הנתונים הפרימיטיביים שלהן, כמו מחרוזת, מספר או ערך בוליאני.
      • פורמט הקידוד: קידוד התווים של הנתונים, כמו UTF-8,‏ US-ASCII או ISO-8859-1. אם לא מציינים ערך, המערכת משתמשת ב-UTF-8 כברירת מחדל.
    2. כדי להגדיר אפשרויות של קובץ CSV, מסמנים את התיבה הפעלת אפשרויות ניתוח של קובץ CSV.
      • השבתת הסקת סוגים: האם סריקת הגילוי צריכה להסיק סוגי נתונים כשסורקים נתונים. אם משביתים את ההיסק של סוג הנתונים עבור נתוני CSV, כל העמודות נרשמות כמחרוזות.
      • שורות כותרת: מספר שורות הכותרת, 0 או 1. אם מציינים את הערך 0, סריקת הגילוי מסיקה כותרות ומחלצת את שמות העמודות מהקובץ. ערך ברירת המחדל הוא 0.
      • תו מפריד עמודות: התו שמשמש להפרדת הערכים. צריך לספק תו יחיד, \r (החזרת גררה) או \n (שורה חדשה). ברירת המחדל היא פסיק (,).
      • פורמט הקידוד: קידוד התווים של הנתונים, כמו UTF-8,‏ US-ASCII או ISO-8859-1. אם לא מציינים ערך, המערכת משתמשת ב-UTF-8 כברירת מחדל.
  14. לוחצים על יצירה (כדי לתזמן סריקה), על הפעלה מיידית (כדי להפעיל סריקה לפי דרישה) או על יצירה והפעלה (כדי להפעיל סריקה חד-פעמית).

    סריקה מתוזמנת מופעלת בהתאם ללוח הזמנים שהגדרתם.

    סריקה לפי דרישה מופעלת פעם אחת בהתחלה כשיוצרים אותה, ואפשר להפעיל אותה בכל שלב. יכול להיות שיחלפו כמה דקות עד שסריקת החיפוש הרחב תפעל.

    סריקה חד-פעמית מתבצעת באופן אוטומטי, פעם אחת בלבד. הוא נמחק אוטומטית כשהוא מגיע לסף אורך החיים (TTL) שהוגדר לו, ערך שקובע את משך הזמן שסריקת גילוי נשארת פעילה אחרי ההפעלה. ערך ה-TTL יכול להיות בין 0 שניות (מחיקה מיידית) לבין 365 ימים. סריקת גילוי ללא TTL מוגדר נמחקת אוטומטית אחרי 24 שעות.

gcloud

כדי ליצור סריקת Discovery, משתמשים בפקודה gcloud dataplex datascans create data-discovery.

gcloud dataplex datascans create data-discovery --location=LOCATION
--data-source-resource=BUCKET_PATH

מחליפים את מה שכתוב בשדות הבאים:

  • LOCATION: המיקום שבו רוצים ליצור את הסריקה לגילוי
  • BUCKET_PATH: הנתיב ב-Cloud Storage של הקטגוריה שרוצים לסרוק

REST

כדי ליצור סריקת גילוי, משתמשים ב-‎dataScans.create method.

שליחת שאילתות לגבי טבלאות BigLake שפורסמו

אחרי שמריצים את סריקת הגילוי, טבלאות BigLake מתפרסמות במערך נתונים חדש ב-BigQuery. אחרי כן, הטבלאות זמינות לניתוח ב-BigQuery באמצעות SQL, או ב-Dataproc באמצעות Apache Spark או HiveQL.

SQL

אתם יכולים להציג טבלאות ב-BigQuery או לשלוח שאילתות לגביהן. מידע נוסף על הרצת שאילתות ב-BigQuery זמין במאמר הרצת שאילתה.

Apache Spark

כדי להריץ שאילתות בטבלאות BigLake באמצעות Spark SQL במשימה ללא שרת ב-Dataproc, פועלים לפי השלבים הבאים:

  1. יוצרים סקריפט PySpark שדומה לסקריפט לדוגמה הבא:

    from pyspark.sql import SparkSession
    session = (
      SparkSession.builder.appName("testing")
        .config("viewsEnabled","true")
        .config("materializationDataset", "DATASET_ID")
        .config("spark.hive.metastore.bigquery.project.id", "PROJECT_ID")
        .config("spark.hive.metastore.client.factory.class", "com.google.cloud.bigquery.metastore.client.BigQueryMetastoreClientFactory")
        .enableHiveSupport()
        .getOrCreate()
    )
    
    session.sql("show databases").show()
    session.sql("use TABLE_NAME").show()
    session.sql("show tables").show()
    
    sql = "SELECT * FROM DATASET_ID.TABLE_ID LIMIT 10"
    df = session.read.format("bigquery").option("dataset", "DATASET_ID").load(sql)
    df.show()

    מחליפים את מה שכתוב בשדות הבאים:

    • DATASET_ID: מזהה מערך הנתונים שלמשתמשים יש הרשאת יצירה לגביו
    • PROJECT_ID: מזהה הפרויקט עם טבלת BigLake
    • TABLE_NAME: שם הטבלה ב-BigLake
    • TABLE_ID: מזהה הטבלה ב-BigLake
  2. שולחים את משימת האצווה.

ניהול טבלאות BigLake שפורסמו

טבלאות BigLake שפורסמו נוצרות ומנוהלות ב-BigQuery על ידי סריקת הגילוי. כברירת מחדל, סריקת הגילוי מטפלת בגילוי נתונים חדשים, בהסקת מסקנות לגבי סכימות ובשינויים בסכימות בכל פעם שהסריקות המתוזמנות או הסריקות על פי דרישה מופעלות. כדי לציין שהמטא-נתונים מנוהלים על ידי הסריקה, הסריקה מפרסמת טבלאות עם התווית metadata-managed-mode שהערך שלה מוגדר ל-discovery-managed.

אם רוצים לנהל את הסכימה ומטא-נתונים אחרים כמו אפשרויות CSV או JSON באופן עצמאי, צריך להגדיר את התווית metadata-managed-mode לערך user_managed. כך הסכימה לא משתנה כשמריצים את הסריקה הבאה של גילוי המקורות. הגישה הזו יכולה להיות שימושית בתרחישים שבהם הסכימה שמוסקת על ידי סריקת הגילוי שגויה או שונה מהסכימה הצפויה לטבלה מסוימת. כשהתווית metadata-managed-mode מוגדרת לערך user_managed, היא יכולה להפחית את העלות.

כדי לעדכן את התווית, אפשר לערוך את הערך של מפתח התווית metadata-managed-mode ל-user_managed במקום ל-discovery-managed. במקרה הזה, סריקת הגילוי לא מעדכנת את הסכימה של הטבלה כל עוד התווית user_managed מצורפת לטבלה.

עדכון של טבלאות BigLake שפורסמו

בטבלאות BigLake שפורסמו באמצעות משימות סריקה לגילוי עם הגדרות ברירת המחדל, הסכימה ומטא-נתונים אחרים מתעדכנים אוטומטית בכל הפעלה של משימת סריקה לגילוי בתדירות המתוזמנת.

כדי לעדכן טבלת BigLake שפורסמה, פועלים לפי השלבים הבאים:

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. עדכון של מאפיין אחד או יותר של הטבלה.

  3. בחלונית הימנית, לוחצים על כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.

  4. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Datasets ואז בוחרים מערך נתונים.

  5. לוחצים על סקירה כללית > טבלאות ובוחרים את הטבלה.

  6. בכרטיסייה פרטים, בקטע תוויות, מוודאים שהתווית metadata-managed-mode מוגדרת לערך user_managed. אם הערך שמוגדר שונה, פועלים לפי השלבים הבאים:

    1. לוחצים על עריכת הפרטים.

    2. לצד המפתח metadata-managed-mode, בשדה value, מזינים user_managed.

מחיקת טבלאות BigLake שפורסמו

כדי למחוק טבלת BigLake שפורסמה, פועלים לפי השלבים הבאים:

  1. מוחקים את קובצי הנתונים של הטבלה בקטגוריה של Cloud Storage.

  2. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  3. בחלונית הימנית, לוחצים על כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

  4. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Datasets ואז בוחרים מערך נתונים.

  5. לוחצים על סקירה כללית > טבלאות ובוחרים את הטבלה.

  6. בחלונית פרטים, בקטע תוויות, מוודאים שהתווית metadata-managed-mode לא מוגדרת כ-user_managed. אם הערך הוא user_managed, צריך לבצע את השלבים הבאים:

    1. לוחצים על עריכת הפרטים .

    2. לצד המפתח metadata-managed-mode, בשדה value, מזינים discovery-managed.

  7. לוחצים על Run. סריקת הגילוי מופעלת לפי דרישה.

אחרי סיום הסריקה לגילוי, הטבלה ב-BigLake נמחקת ב-BigQuery ולא ניתן להציג אותה או לשלוח אליה שאילתות באמצעות Spark.

הפעלת סריקה של גילוי על פי דרישה

כדי להפעיל סריקת גילוי לפי דרישה, בוחרים באחת מהאפשרויות הבאות.

המסוף

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שרוצים להריץ.

  4. לוחצים על הפעלה מיידית.

gcloud

כדי להריץ סריקת גילוי, משתמשים בפקודה gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
  --location=LOCATION

מחליפים את המשתנים הבאים:

  • LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי.
  • DATASCAN: השם של סריקת הגילוי.

REST

כדי להפעיל סריקת גילוי על פי דרישה, משתמשים ב-method‏ dataScans.run ב-Dataplex API.

רשימת סריקות הגילוי

כדי להציג את סריקות הגילוי, בוחרים באחת מהאפשרויות הבאות.

המסוף

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery מופיעה רשימה של סריקות הגילוי שנוצרו בפרויקט.

gcloud

gcloud dataplex datascans list --location=LOCATION --project=PROJECT_ID

מחליפים את מה שכתוב בשדות הבאים:

  • LOCATION: המיקום של הפרויקט
  • PROJECT_ID: מזהה הפרויקט ב- Google Cloud

REST

כדי לאחזר את רשימת סריקות גילוי הנתונים בפרויקט, משתמשים בשיטה dataScans.list ב-Dataplex API.

הצגת סריקת גילוי

כדי לראות סריקה של חיפוש רחב, בוחרים באחת מהאפשרויות הבאות.

המסוף

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שרוצים לראות את הפרטים שלה.

    • בקטע פרטי הסריקה מוצגים פרטים על סריקת הגילוי.
    • בקטע סטטוס הסריקה מוצגות תוצאות הגילוי של משימת הסריקה האחרונה.

gcloud

gcloud dataplex datascans jobs describe JOB \
    --location=LOCATION \
    --datascan=DATASCAN \
    --view=FULL

מחליפים את מה שכתוב בשדות הבאים:

  • JOB: מזהה המשימה של משימת הסריקה לגילוי.
  • LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי.
  • DATASCAN: השם של סריקת החיפוש הרחב שאליה שייכת המשימה.
  • --view=FULL: לראות את תוצאת משימת הסריקה של הגילוי.

REST

כדי לראות את התוצאות של סריקת גילוי נתונים, משתמשים בשיטה dataScans.get ב-Dataplex API.

צפייה בתוצאות היסטוריות של סריקת גילוי

כדי לראות תוצאות היסטוריות של סריקת גילוי, בוחרים באחת מהאפשרויות הבאות.

המסוף

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שרוצים לראות את הפרטים שלה.

  4. לוחצים על החלונית היסטוריית הסריקות. בחלונית היסטוריית הסריקות מוצג מידע על משימות קודמות, כולל מספר הרשומות שנסרקו בכל משימה, הסטטוס של כל משימה והשעה שבה המשימות הופעלו.

  5. כדי לראות מידע מפורט על משימה, לוחצים על המשימה בעמודה מזהה משימה.

gcloud

gcloud dataplex datascans jobs list \
    --location=LOCATION \
    --datascan=DATASCAN

מחליפים את מה שכתוב בשדות הבאים:

  • LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי.
  • DATASCAN: השם של סריקת החיפוש הרחב שאליה שייכת המשימה.

REST

כדי לראות את כל העבודות של סריקת גילוי, משתמשים ב-method‏ dataScans.job/list ב-Dataplex API.

עדכון סריקת גילוי

כדי לשנות את התזמון של סריקת גילוי, למשל כדי לשנות את התזמון מסריקה על פי דרישה לסריקה חוזרת, צריך לעדכן את סריקת הגילוי.

המסוף

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery, בשורה של סריקת הגילוי שרוצים לעדכן, לוחצים על Actions > Edit (פעולות > עריכה).

  4. עורכים את הערכים.

  5. לוחצים על Save.

gcloud

כדי לעדכן סריקת Discovery, משתמשים בפקודה gcloud dataplex datascans update data-discovery.

gcloud dataplex datascans update data-discovery SCAN_ID --location=LOCATION --description=DESCRIPTION

מחליפים את מה שכתוב בשדות הבאים:

  • SCAN_ID: המזהה של סריקת הגילוי שרוצים לעדכן
  • LOCATION: האזור שבו נוצרה סריקת הגילוי Google Cloud
  • DESCRIPTION: התיאור החדש של הסריקה לגילוי

REST

כדי לעדכן סריקת גילוי, משתמשים ב-method‏ dataScans.patch ב-Dataplex API.

מחיקת סריקת גילוי

כדי למחוק סריקת גילוי, בוחרים באחת מהאפשרויות הבאות.

המסוף

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery, לוחצים על Actions > Delete (פעולות > מחיקה) ליד סריקת הגילוי שרוצים למחוק.

  4. לוחצים על Delete.

gcloud

gcloud dataplex datascans delete SCAN_ID --location=LOCATION --async

מחליפים את מה שכתוב בשדות הבאים:

  • SCAN_ID: המזהה של סריקת הגילוי שרוצים למחוק.
  • LOCATION: Google Cloud האזור שבו נוצרה סריקת הגילוי.

REST

כדי למחוק סריקת גילוי, משתמשים ב-method ‏dataScans.delete ב-Dataplex API.