יצירה ושימוש בסריקות של פרופיל נתונים

הקטלוג האוניברסלי של Dataplex מאפשר לכם לזהות מאפיינים סטטיסטיים נפוצים (ערכים נפוצים, פיזור נתונים, ספירת ערכי NULL) של העמודות בטבלאות BigQuery. המידע הזה עוזר לכם להבין ולנתח את הנתונים בצורה יעילה יותר.

מידע נוסף על סריקות של פרופיל נתונים ב-Dataplex Universal Catalog זמין במאמר בנושא פרופיל נתונים.

לפני שמתחילים

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

תפקידים והרשאות נדרשים

בקטע הזה מוסבר על התפקידים וההרשאות ב-IAM שנדרשים כדי להשתמש בסריקות של פרופילי נתונים ב-Dataplex Universal Catalog.

תפקידים והרשאות של משתמשים

כדי לקבל את ההרשאות שדרושות ליצירה ולניהול של סריקות פרופיל נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים:

  • יצירה, הפעלה, עדכון ומחיקה של סריקות פרופיל נתונים: Dataplex DataScan Editor (roles/dataplex.dataScanEditor) on the project containing the data scan
  • צפייה בתוצאות של סריקת פרופיל נתונים, במשימות ובהיסטוריה: Dataplex DataScan Viewer (roles/dataplex.dataScanViewer) on the project containing the data scan
  • פרסום תוצאות סריקת פרופיל נתונים ב-Dataplex Universal Catalog: Dataplex Catalog Editor (roles/dataplex.catalogEditor) on the @bigquery entry group
  • הצגת תוצאות סריקת פרופיל הנתונים שפורסם ב-BigQuery בכרטיסייה פרופיל נתונים: BigQuery Data Viewer (roles/bigquery.dataViewer) בטבלה

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות ליצירה ולניהול של סריקות פרופיל נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי ליצור ולנהל סריקות של פרופיל נתונים, צריך את ההרשאות הבאות:

  • יצירה, הפעלה, עדכון ומחיקה של סריקות פרופיל נתונים:
    • dataplex.datascans.create בפרויקט
    • dataplex.datascans.update בסריקת נתונים
    • dataplex.datascans.delete בסריקת נתונים
    • dataplex.datascans.run בסריקת נתונים
    • dataplex.datascans.get בסריקת נתונים
    • dataplex.datascans.list בפרויקט
    • dataplex.dataScanJobs.get במשימת סריקת נתונים
    • dataplex.dataScanJobs.list בסריקת נתונים
  • הצגת תוצאות הסריקה של פרופיל הנתונים, המשימות וההיסטוריה:
    • dataplex.datascans.getData בסריקת נתונים
    • dataplex.datascans.list בפרויקט
    • dataplex.dataScanJobs.get במשימת סריקת נתונים
    • dataplex.dataScanJobs.list בסריקת נתונים
  • פרסום תוצאות של סריקת פרופיל נתונים ב-Dataplex Universal Catalog:
    • dataplex.entryGroups.useDataProfileAspect on entry group
    • bigquery.tables.update בטבלה
    • dataplex.entries.update on entry
  • הצגת התוצאות של פרופיל הנתונים שפורסם עבור טבלה ב-BigQuery או ב-Dataplex Universal Catalog:
    • bigquery.tables.get בטבלה
    • bigquery.tables.getData בטבלה

יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

תפקידים והרשאות של חשבון שירות ב-Dataplex Universal Catalog

כדי לוודא שלחשבון השירות של Dataplex Universal Catalog יש את ההרשאות שנדרשות להרצת סריקות של פרופילי נתונים ולייצוא התוצאות, צריך לבקש מהאדמין להקצות לחשבון השירות של Dataplex Universal Catalog את תפקידי ה-IAM הבאים:

  • מריצים סריקות של פרופיל נתונים על נתונים ב-BigQuery:
    • BigQuery Job User (roles/bigquery.jobUser) בפרויקט שבו מופעלת הסריקה
    • BigQuery Data Viewer (צפייה בנתוני BigQuery) (roles/bigquery.dataViewer) בטבלאות שנסרקות
  • הפעלת סריקות של פרופיל נתונים לטבלאות חיצוניות ב-BigQuery שמשתמשות בנתונים מ-Cloud Storage:
  • ייצוא תוצאות סריקת פרופיל נתונים לטבלה ב-BigQuery: ‫BigQuery Data Editor (עריכה של נתוני BigQuery) roles/bigquery.dataEditor בטבלה

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות להפעלת סריקות של פרופיל נתונים ולייצוא תוצאות. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי להריץ סריקות של פרופיל נתונים ולייצא תוצאות, נדרשות ההרשאות הבאות:

  • הפעלת סריקות של פרופיל נתונים על נתונים ב-BigQuery:
    • bigquery.jobs.create בפרויקט
    • bigquery.tables.get בטבלה
    • bigquery.tables.getData בטבלה
  • הפעלת סריקות של פרופיל נתונים לטבלאות חיצוניות ב-BigQuery שמשתמשות בנתונים מ-Cloud Storage:
    • storage.buckets.get בקטגוריה
    • storage.objects.get באובייקט
  • מייצאים את תוצאות סריקת פרופיל הנתונים לטבלה ב-BigQuery:
    • bigquery.tables.create במערך הנתונים
    • bigquery.tables.updateData בטבלה

יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של Dataplex Universal Catalog את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

אם בטבלה נעשה שימוש באבטחה ברמת השורה ב-BigQuery, אפשר לסרוק ב-Dataplex Universal Catalog רק את השורות שחשבון השירות של Dataplex Universal Catalog יכול לראות. כדי לאפשר ל-Dataplex Universal Catalog לסרוק את כל השורות, מוסיפים את חשבון השירות שלו למסנן שורות שבו התנאי הוא TRUE.

אם בטבלה נעשה שימוש באבטחה ברמת העמודה ב-BigQuery, Dataplex Universal Catalog צריך גישה כדי לסרוק עמודות מוגנות. כדי להעניק גישה, צריך לתת לחשבון השירות של Dataplex Universal Catalog את התפקיד Data Catalog Fine-Grained Reader (roles/datacatalog.fineGrainedReader) בכל תגי המדיניות שמשמשים בטבלה. למשתמש שיוצר או מעדכן סריקת נתונים צריכות להיות גם הרשאות לעמודות מוגנות.

הקצאת תפקידים לחשבון השירות של Dataplex Universal Catalog

כדי להריץ סריקות של פרופיל נתונים, Dataplex Universal Catalog משתמש בחשבון שירות שנדרשות לו הרשאות להרצת משימות ב-BigQuery ולקריאת נתונים מטבלאות ב-BigQuery. כדי להעניק את התפקידים הנדרשים, פועלים לפי השלבים הבאים:

  1. מקבלים את כתובת האימייל של חשבון השירות של Dataplex Universal Catalog. אם לא יצרתם בפרויקט הזה פרופיל נתונים או סריקה של איכות הנתונים, מריצים את הפקודה הבאה gcloud כדי ליצור את זהות השירות:

    gcloud beta services identity create --service=dataplex.googleapis.com
    

    הפקודה מחזירה את כתובת האימייל של חשבון השירות, בפורמט הבא: service-PROJECT_ID@gcp-sa-dataplex.iam.gserviceaccount.com.

    אם חשבון השירות כבר קיים, אפשר למצוא את כתובת האימייל שלו בתצוגת הגורמים עם השם Dataplex בדף IAM במסוף Google Cloud .

  2. נותנים לחשבון השירות את התפקיד BigQuery Job User (roles/bigquery.jobUser) בפרויקט. התפקיד הזה מאפשר לחשבון השירות להריץ משימות של BigQuery לסריקה.

    gcloud projects add-iam-policy-binding PROJECT_ID \
        --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \
        --role="roles/bigquery.jobUser"
    

    מחליפים את מה שכתוב בשדות הבאים:

    • PROJECT_ID: מזהה הפרויקט ב- Google Cloud .
    • service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com: כתובת האימייל של חשבון השירות של Dataplex Universal Catalog.
  3. מעניקים לחשבון השירות את התפקיד BigQuery Data Viewer (roles/bigquery.dataViewer) לכל טבלה שרוצים ליצור לה פרופיל. התפקיד הזה מעניק הרשאת קריאה בלבד לטבלאות.

    gcloud bigquery tables add-iam-policy-binding DATASET_ID.TABLE_ID \
        --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \
        --role="roles/bigquery.dataViewer"
    

    מחליפים את מה שכתוב בשדות הבאים:

    • DATASET_ID: המזהה של מערך הנתונים שמכיל את הטבלה.
    • TABLE_ID: המזהה של הטבלה שרוצים ליצור לה פרופיל.
    • service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com: כתובת האימייל של חשבון השירות של Dataplex Universal Catalog.

יצירת סריקת פרופיל נתונים

המסוף

  1. במסוף Google Cloud , נכנסים לדף Data profiling & quality של Dataplex Universal Catalog.

    מעבר לפרופיל נתונים ולאיכות נתונים

  2. לוחצים על יצירת סריקת פרופיל נתונים.

  3. אופציונלי: מזינים שם לתצוגה.

  4. מזינים מזהה. מוסכמות למתן שמות למשאבים

  5. אופציונלי: מזינים תיאור.

  6. בשדה טבלה, לוחצים על עיון. בוחרים את הטבלה שרוצים לסרוק ולוחצים על בחירה.

    בטבלאות במערכי נתונים עם מספר אזורים, בוחרים אזור שבו ייסרק הנתונים.

    כדי לעיין בטבלאות שמאורגנות באגמי Dataplex Universal Catalog, לוחצים על Browse within Dataplex Lakes.

  7. בשדה היקף, בוחרים באפשרות מצטבר או כל הנתונים.

    • אם בוחרים באפשרות נתונים מצטברים, בשדה עמודת חותמת זמן בוחרים עמודה מסוג DATE או TIMESTAMP מהטבלה ב-BigQuery, שערכיה גדלים ככל שמוסיפים רשומות חדשות, ושניתן להשתמש בה כדי לזהות רשומות חדשות. בטבלאות שמחולקות למחיצות בעמודה מהסוגים DATE או TIMESTAMP, מומלץ להשתמש בעמודת המחיצה כשדה חותמת הזמן.
  8. אופציונלי: כדי לסנן את הנתונים, מבצעים אחת מהפעולות הבאות:

    • כדי לסנן לפי שורות, מסמנים את התיבה Filter rows. מזינים ביטוי SQL תקין שאפשר להשתמש בו בסעיף WHERE בתחביר GoogleSQL. לדוגמה: col1 >= 0.

      המסנן יכול להיות שילוב של תנאי SQL בכמה עמודות. לדוגמה: col1 >= 0 AND col2 < 10.

    • כדי לסנן לפי עמודות, מסמנים את התיבה Filter columns.

      • כדי לכלול עמודות בסריקת הפרופיל, בשדה Include columns (עמודות להכללה), לוחצים על Browse (עיון). בוחרים את העמודות שרוצים לכלול ולוחצים על בחירה.

      • כדי להחריג עמודות מסריקת הפרופיל, בשדה Exclude columns (החרגת עמודות), לוחצים על Browse (עיון). בוחרים את העמודות שרוצים להחריג ולוחצים על בחירה.

  9. כדי להחיל דגימה על סריקת פרופיל הנתונים, בוחרים אחוז דגימה ברשימה גודל הדגימה. בוחרים ערך באחוזים בטווח שבין 0.0% ל-100.0%, עם עד 3 ספרות אחרי הנקודה העשרונית.

    • בקבוצות נתונים גדולות יותר, כדאי לבחור אחוז דגימה נמוך יותר. לדוגמה, אם מזינים ערך בין 0.1% ל-1.0% עבור טבלה בגודל 1 PB, פרופיל הנתונים יכלול דגימה של נתונים בגודל 1-10 TB.

    • כדי לקבל תוצאה, צריכות להיות לפחות 100 רשומות בנתונים שנדגמו.

    • בסריקות מצטברות של נתונים, סריקת פרופיל הנתונים מחילה דגימה על התוספת האחרונה.

  10. אופציונלי: מפרסמים את תוצאות הסריקה של פרופיל הנתונים בדפים של ה-Dataplex Universal Catalog ו-BigQuery במסוףGoogle Cloud של טבלת המקור. מסמנים את תיבת הסימון פרסום התוצאות בקטלוג Dataplex.

    אפשר לראות את התוצאות האחרונות של הסריקה בכרטיסייה פרופיל הנתונים בדפים של Dataplex Universal Catalog ו-BigQuery עבור טבלת המקור. כדי לאפשר למשתמשים לגשת לתוצאות הסריקה שפורסמו, אפשר לעיין בקטע הענקת גישה לתוצאות סריקת פרופיל הנתונים במסמך הזה.

    יכול להיות שהאפשרות לפרסום לא תהיה זמינה במקרים הבאים:

    • אין לכם את ההרשאות הנדרשות בטבלה.
    • סריקה נוספת של פרופיל נתונים מוגדרת לפרסום תוצאות.
  11. בקטע תזמון, בוחרים באחת מהאפשרויות הבאות:

    • חזרה: הפעלת סריקת פרופיל הנתונים לפי לוח זמנים: שעתי, יומי, שבועי, חודשי או בהתאמה אישית. מציינים באיזו תדירות ובאיזו שעה הסריקה תתבצע. אם בוחרים באפשרות 'בהתאמה אישית', צריך להשתמש בפורמט cron כדי לציין את לוח הזמנים.

    • על פי דרישה: הפעלת סריקת פרופיל הנתונים על פי דרישה.

    • חד-פעמי: סריקת פרופיל הנתונים תופעל פעם אחת עכשיו, והסריקה תוסר אחרי תקופת ה-TTL.

    • Time to live: הערך של אורך חיים (TTL) מגדיר את משך הזמן שסריקת פרופיל נתונים נשארת פעילה אחרי ההרצה. סריקת פרופיל נתונים ללא הגדרת אורך חיים (TTL) מוסרת אוטומטית אחרי 24 שעות. הזמן שחולף עד שהנתונים נמחקים יכול להיות בין 0 שניות (מחיקה מיידית) ל-365 ימים.

  12. לוחצים על Continue.

  13. אופציונלי: ייצוא תוצאות הסריקה לטבלת BigQuery רגילה. בקטע Export scan results to BigQuery table (ייצוא תוצאות הסריקה לטבלה ב-BigQuery), מבצעים את הפעולות הבאות:

    1. בשדה Select BigQuery dataset (בחירת מערך נתונים ב-BigQuery), לוחצים על Browse (עיון). בוחרים מערך נתונים ב-BigQuery לאחסון תוצאות סריקת פרופיל הנתונים.

    2. בשדה BigQuery table (טבלה ב-BigQuery), מציינים את הטבלה שבה יאוחסנו התוצאות של סריקת פרופיל הנתונים. אם אתם משתמשים בטבלה קיימת, ודאו שהיא תואמת לסכימת טבלת הייצוא. אם הטבלה שצוינה לא קיימת, Dataplex Universal Catalog יוצר אותה בשבילכם.

  14. אופציונלי: מוסיפים תוויות. תוויות הן צמדי מפתח/ערך שמאפשרים לקשר בין אובייקטים או ביניהם לבין משאבים אחרים של Google Cloud .

  15. כדי ליצור את הסריקה, לוחצים על יצירה.

    אם הגדרתם את התזמון להפעלה לפי דרישה, תוכלו גם להריץ את הסריקה עכשיו בלחיצה על הפעלת הסריקה.

gcloud

כדי ליצור סריקה של פרופיל נתונים, משתמשים בפקודה gcloud dataplex datascans create data-profile.

אם נתוני המקור מאורגנים באגם Dataplex Universal Catalog, צריך לכלול את הדגל --data-source-entity:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY

אם נתוני המקור לא מאורגנים באגם של Dataplex Universal Catalog, צריך לכלול את הדגל --data-source-resource:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-resource=DATA_SOURCE_RESOURCE

מחליפים את המשתנים הבאים:

  • DATASCAN: השם של סריקת פרופיל הנתונים.
  • LOCATION: האזור Google Cloud שבו ייסרק פרופיל הנתונים.
  • DATA_SOURCE_ENTITY: הישות ב-Dataplex Universal Catalog שמכילה את הנתונים של סריקת פרופיל הנתונים. לדוגמה, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
  • DATA_SOURCE_RESOURCE: השם של המשאב שמכיל את הנתונים לסריקת פרופיל הנתונים. לדוגמה, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

C#‎

C#

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה C#במדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog C# API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

using Google.Api.Gax.ResourceNames;
using Google.Cloud.Dataplex.V1;
using Google.LongRunning;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for CreateDataScan</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void CreateDataScanRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        CreateDataScanRequest request = new CreateDataScanRequest
        {
            ParentAsLocationName = LocationName.FromProjectLocation("[PROJECT]", "[LOCATION]"),
            DataScan = new DataScan(),
            DataScanId = "",
            ValidateOnly = false,
        };
        // Make the request
        Operation<DataScan, OperationMetadata> response = dataScanServiceClient.CreateDataScan(request);

        // Poll until the returned long-running operation is complete
        Operation<DataScan, OperationMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        DataScan result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<DataScan, OperationMetadata> retrievedResponse = dataScanServiceClient.PollOnceCreateDataScan(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            DataScan retrievedResult = retrievedResponse.Result;
        }
    }
}

Go

Go

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Goבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Go API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.


package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.CreateDataScanRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#CreateDataScanRequest.
	}
	op, err := c.CreateDataScan(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

Java

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Javaבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Java API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

import com.google.cloud.dataplex.v1.CreateDataScanRequest;
import com.google.cloud.dataplex.v1.DataScan;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.LocationName;

public class SyncCreateDataScan {

  public static void main(String[] args) throws Exception {
    syncCreateDataScan();
  }

  public static void syncCreateDataScan() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      CreateDataScanRequest request =
          CreateDataScanRequest.newBuilder()
              .setParent(LocationName.of("[PROJECT]", "[LOCATION]").toString())
              .setDataScan(DataScan.newBuilder().build())
              .setDataScanId("dataScanId1260787906")
              .setValidateOnly(true)
              .build();
      DataScan response = dataScanServiceClient.createDataScanAsync(request).get();
    }
  }
}

Python

Python

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Pythonבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Python API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_create_data_scan():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    data_scan = dataplex_v1.DataScan()
    data_scan.data_quality_spec.rules.dimension = "dimension_value"
    data_scan.data.entity = "entity_value"

    request = dataplex_v1.CreateDataScanRequest(
        parent="parent_value",
        data_scan=data_scan,
        data_scan_id="data_scan_id_value",
    )

    # Make the request
    operation = client.create_data_scan(request=request)

    print("Waiting for operation to complete...")

    response = operation.result()

    # Handle the response
    print(response)

Ruby

Ruby

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Rubyבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Ruby API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

require "google/cloud/dataplex/v1"

##
# Snippet for the create_data_scan call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#create_data_scan.
#
def create_data_scan
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::CreateDataScanRequest.new

  # Call the create_data_scan method.
  result = client.create_data_scan request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

REST

כדי ליצור סריקת פרופיל נתונים, משתמשים ב-method‏ dataScans.create.

ייצוא סכימת הטבלה

אם רוצים לייצא את תוצאות סריקת פרופיל הנתונים לטבלה קיימת ב-BigQuery, צריך לוודא שהיא תואמת לסכימת הטבלה הבאה:

שם העמודה סוג הנתונים בעמודה שם שדה משנה (אם רלוונטי) סוג הנתונים של שדה משנה מצב דוגמה
data_profile_scan struct/record resource_name string יכול להיות ריק //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string יכול להיות ריק test-project
location string יכול להיות ריק us-central1
data_scan_id string יכול להיות ריק test-datascan
data_source struct/record resource_name string יכול להיות ריק

מספר הפנייה בנושא הישות: //dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity

טבלה: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

dataplex_entity_project_id string יכול להיות ריק test-project
dataplex_entity_project_number integer יכול להיות ריק 123456789012
dataplex_lake_id string יכול להיות ריק

(תקף רק אם המקור הוא ישות)

test-lake

dataplex_zone_id string יכול להיות ריק

(תקף רק אם המקור הוא ישות)

test-zone

dataplex_entity_id string יכול להיות ריק

(תקף רק אם המקור הוא ישות)

test-entity

table_project_id string יכול להיות ריק dataplex-table
table_project_number int64 יכול להיות ריק 345678901234
dataset_id string יכול להיות ריק

(תקף רק אם המקור הוא טבלה)

test-dataset

table_id string יכול להיות ריק

(תקף רק אם המקור הוא טבלה)

test-table

data_profile_job_id string יכול להיות ריק caeba234-cfde-4fca-9e5b-fe02a9812e38
data_profile_job_configuration json trigger string יכול להיות ריק schedule/ondemand
incremental boolean יכול להיות ריק false/true
sampling_percent float יכול להיות ריק

(0-100)

20.0 (מציין 20%)

row_filter string יכול להיות ריק col1 >= 0 AND col2 < 10
column_filter json יכול להיות ריק {"include_fields":["col1","col2"], "exclude_fields":["col3"]}
job_labels json יכול להיות ריק {"key1":value1}
job_start_time timestamp יכול להיות ריק 2023-01-01 00:00:00 UTC
job_end_time timestamp יכול להיות ריק 2023-01-01 00:00:00 UTC
job_rows_scanned integer יכול להיות ריק 7500
column_name string יכול להיות ריק column-1
column_type string יכול להיות ריק string
column_mode string יכול להיות ריק repeated
percent_null float יכול להיות ריק

(0.0-100.0)

20.0 (מציין 20%)

percent_unique float יכול להיות ריק

(0.0-100.0)

92.5

min_string_length integer יכול להיות ריק

(ההגדרה תקפה רק אם סוג העמודה הוא מחרוזת)

10

max_string_length integer יכול להיות ריק

(ההגדרה תקפה רק אם סוג העמודה הוא מחרוזת)

4

average_string_length float יכול להיות ריק

(ההגדרה תקפה רק אם סוג העמודה הוא מחרוזת)

7.2

min_value float יכול להיות ריק (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני)
max_value float יכול להיות ריק (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני)
average_value float יכול להיות ריק (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני)
standard_deviation float יכול להיות ריק (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני)
quartile_lower integer יכול להיות ריק (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני)
quartile_median integer יכול להיות ריק (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני)
quartile_upper integer יכול להיות ריק (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני)
top_n struct/record - repeated value string יכול להיות ריק "4009"
count integer יכול להיות ריק 20
percent float יכול להיות ריק 10 (מציין 10%)

הגדרת ייצוא הטבלה

כשמייצאים לטבלאות של BigQueryExport, צריך לפעול לפי ההנחיות הבאות:

  • בשדה resultsTable, משתמשים בפורמט: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
  • משתמשים בטבלה רגילה ב-BigQuery.
  • אם הטבלה לא קיימת כשיוצרים או מעדכנים את הסריקה, Dataplex Universal Catalog יוצר את הטבלה בשבילכם.
  • כברירת מחדל, הטבלה מחולקת למחיצות בעמודה job_start_time מדי יום.
  • אם רוצים שהטבלה תפוצל למחיצות בהגדרות אחרות או אם לא רוצים שהיא תפוצל, צריך ליצור מחדש את הטבלה עם הסכימה וההגדרות הנדרשות, ואז לספק את הטבלה שנוצרה מראש כטבלת התוצאות.
  • מוודאים שטבלת התוצאות נמצאת באותו מיקום כמו טבלת המקור.
  • אם VPC-SC מוגדר בפרויקט, טבלת התוצאות צריכה להיות באותו היקף של VPC-SC כמו טבלת המקור.
  • אם הטבלה משתנה במהלך שלב ההפעלה של הסריקה, המשימה הנוכחית מייצאת לטבלת התוצאות הקודמת, והשינוי בטבלה נכנס לתוקף החל ממשימת הסריקה הבאה.
  • אל תשנו את סכימת הטבלה. אם אתם צריכים עמודות בהתאמה אישית, אתם יכולים ליצור תצוגה בטבלה.
  • כדי להפחית את העלויות, מגדירים תפוגה למחיצה בהתאם לתרחיש השימוש. מידע נוסף זמין במאמר בנושא הגדרת תאריך התפוגה של המחיצה.

יצירת כמה סריקות של פרופיל נתונים

אפשר להגדיר סריקות של פרופיל נתונים לכמה טבלאות במערך נתונים ב-BigQuery בו-זמנית באמצעות מסוף Google Cloud .

  1. במסוף Google Cloud , נכנסים לדף Data profiling & quality של Dataplex Universal Catalog.

    מעבר לפרופיל נתונים ולאיכות נתונים

  2. לוחצים על יצירת סריקת פרופיל נתונים.

  3. בוחרים באפשרות סריקות מרובות של פרופילים של נתונים.

  4. מזינים קידומת למזהה. ‫Dataplex Universal Catalog יוצר באופן אוטומטי מזהי סריקה באמצעות הקידומת והסיומות הייחודיות שצוינו.

  5. מזינים תיאור לכל הסריקות של פרופיל הנתונים.

  6. בשדה Dataset, לוחצים על Browse. בוחרים קבוצת נתונים שממנה רוצים לבחור טבלאות. לוחצים על Select.

  7. אם מערך הנתונים הוא רב-אזורי, בוחרים אזור שבו ייערכו הסריקות של פרופיל הנתונים.

  8. קובעים את ההגדרות המשותפות לסריקות:

    1. בשדה היקף, בוחרים באפשרות מצטבר או כל הנתונים.

    2. כדי להחיל דגימה על הסריקות של פרופיל הנתונים, בוחרים אחוז דגימה ברשימה גודל הדגימה.

      בוחרים ערך אחוזים בין 0.0% ל-100.0% עם עד 3 ספרות עשרוניות.

    3. אופציונלי: מפרסמים את תוצאות הסריקה של פרופיל הנתונים בדפים של ה-Dataplex Universal Catalog ו-BigQuery במסוףGoogle Cloud של טבלת המקור. מסמנים את התיבה פרסום התוצאות בקטלוג Dataplex.

      אפשר לראות את התוצאות האחרונות של הסריקה בכרטיסייה פרופיל הנתונים בדפים של Dataplex Universal Catalog ו-BigQuery עבור טבלת המקור. כדי לאפשר למשתמשים לגשת לתוצאות הסריקה שפורסמו, אפשר לעיין בקטע הענקת גישה לתוצאות של סריקת פרופיל נתונים במסמך הזה.

    4. בקטע תזמון, בוחרים באחת מהאפשרויות הבאות:

      • חזרה: הפעלת הסריקות של פרופיל הנתונים לפי תזמון: שעתי, יומי, שבועי, חודשי או בהתאמה אישית. מציינים באיזו תדירות הסריקות יפעלו ובאיזו שעה. אם בוחרים באפשרות 'בהתאמה אישית', צריך להשתמש בפורמט cron כדי לציין את לוח הזמנים.

      • על פי דרישה: הרצת סריקות של פרופיל הנתונים על פי דרישה.

  9. לוחצים על Continue.

  10. בשדה Choose tables, לוחצים על Browse. בוחרים טבלה אחת או יותר לסריקה ולוחצים על בחירה.

  11. לוחצים על Continue.

  12. אופציונלי: ייצוא תוצאות הסריקה לטבלת BigQuery רגילה. בקטע Export scan results to BigQuery table (ייצוא תוצאות הסריקה לטבלה ב-BigQuery), מבצעים את הפעולות הבאות:

    1. בשדה Select BigQuery dataset (בחירת מערך נתונים ב-BigQuery), לוחצים על Browse (עיון). בוחרים מערך נתונים ב-BigQuery לאחסון תוצאות סריקת פרופיל הנתונים.

    2. בשדה BigQuery table (טבלה ב-BigQuery), מציינים את הטבלה שבה יאוחסנו התוצאות של סריקת פרופיל הנתונים. אם אתם משתמשים בטבלה קיימת, צריך לוודא שהיא תואמת לסכימת טבלת הייצוא. אם הטבלה שצוינה לא קיימת, Dataplex Universal Catalog יוצר אותה בשבילכם.

      ב-Dataplex Universal Catalog נעשה שימוש באותה טבלת תוצאות לכל הסריקות של פרופילי הנתונים.

  13. אופציונלי: מוסיפים תוויות. תוויות הן צמדי מפתח/ערך שמאפשרים לקשר בין אובייקטים או ביניהם לבין משאבים אחרים של Google Cloud .

  14. כדי ליצור את הסריקות, לוחצים על יצירה.

    אם מגדירים את התזמון להפעלה לפי דרישה, אפשר גם להריץ את הסריקות עכשיו על ידי לחיצה על הפעלת הסריקה.

הפעלת סריקת פרופיל נתונים

המסוף

  1. במסוף Google Cloud , נכנסים לדף Data profiling & quality של Dataplex Universal Catalog.

    מעבר לפרופיל נתונים ולאיכות נתונים

  2. לוחצים על סריקת פרופיל הנתונים כדי להריץ אותה.
  3. לוחצים על הפעלה מיידית.

gcloud

כדי להריץ סריקת פרופיל נתונים, משתמשים בפקודה gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

מחליפים את המשתנים הבאים:

  • DATASCAN: השם של סריקת פרופיל הנתונים.
  • LOCATION: Google Cloud האזור שבו נוצרה סריקת פרופיל הנתונים.

C#‎

C#

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה C#במדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog C# API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

using Google.Cloud.Dataplex.V1;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for RunDataScan</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void RunDataScanRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        RunDataScanRequest request = new RunDataScanRequest
        {
            DataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
        };
        // Make the request
        RunDataScanResponse response = dataScanServiceClient.RunDataScan(request);
    }
}

Go

Go

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Goבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Go API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.


package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.RunDataScanRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#RunDataScanRequest.
	}
	resp, err := c.RunDataScan(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

Java

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Javaבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Java API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

import com.google.cloud.dataplex.v1.DataScanName;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.RunDataScanRequest;
import com.google.cloud.dataplex.v1.RunDataScanResponse;

public class SyncRunDataScan {

  public static void main(String[] args) throws Exception {
    syncRunDataScan();
  }

  public static void syncRunDataScan() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      RunDataScanRequest request =
          RunDataScanRequest.newBuilder()
              .setName(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
              .build();
      RunDataScanResponse response = dataScanServiceClient.runDataScan(request);
    }
  }
}

Python

Python

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Pythonבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Python API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_run_data_scan():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    request = dataplex_v1.RunDataScanRequest(
        name="name_value",
    )

    # Make the request
    response = client.run_data_scan(request=request)

    # Handle the response
    print(response)

Ruby

Ruby

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Rubyבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Ruby API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

require "google/cloud/dataplex/v1"

##
# Snippet for the run_data_scan call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#run_data_scan.
#
def run_data_scan
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::RunDataScanRequest.new

  # Call the run_data_scan method.
  result = client.run_data_scan request

  # The returned object is of type Google::Cloud::Dataplex::V1::RunDataScanResponse.
  p result
end

REST

כדי להריץ סריקת פרופיל נתונים, משתמשים ב-dataScans.run method.

צפייה בתוצאות של סריקת פרופיל נתונים

המסוף

  1. במסוף Google Cloud , נכנסים לדף Data profiling & quality של Dataplex Universal Catalog.

    מעבר לפרופיל נתונים ולאיכות נתונים

  2. לוחצים על השם של סריקת פרופיל נתונים.

    • בקטע סקירה כללית מוצג מידע על המשימות האחרונות, כולל מתי הסריקה בוצעה, מספר הרשומות בטבלה שנסרקו וסטטוס המשימה.

    • בקטע Data profile scan configuration מוצגים פרטים על סריקת פרופיל הנתונים.

  3. כדי לראות מידע מפורט על משימה, כמו העמודות של הטבלה שנסרקה, נתונים סטטיסטיים על העמודות שנמצאו בסריקה ויומני המשימות, לוחצים על הכרטיסייה היסטוריית המשימות. לאחר מכן לוחצים על מזהה משרה.

gcloud

כדי להציג את התוצאות של עבודת סריקת פרופיל נתונים, משתמשים בפקודה gcloud dataplex datascans jobs describe:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

מחליפים את המשתנים הבאים:

  • JOB: מזהה העבודה של עבודת סריקת פרופיל הנתונים.
  • LOCATION: Google Cloud האזור שבו נוצרה סריקת פרופיל הנתונים.
  • DATASCAN: השם של סריקת פרופיל הנתונים שהעבודה שייכת לה.
  • --view=FULL: כדי לראות את תוצאת עבודת הסריקה, מציינים FULL.

C#‎

C#

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה C#במדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog C# API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

using Google.Cloud.Dataplex.V1;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for GetDataScan</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void GetDataScanRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        GetDataScanRequest request = new GetDataScanRequest
        {
            DataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
            View = GetDataScanRequest.Types.DataScanView.Unspecified,
        };
        // Make the request
        DataScan response = dataScanServiceClient.GetDataScan(request);
    }
}

Go

Go

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Goבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Go API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.


package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.GetDataScanRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#GetDataScanRequest.
	}
	resp, err := c.GetDataScan(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

Java

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Javaבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Java API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

import com.google.cloud.dataplex.v1.DataScan;
import com.google.cloud.dataplex.v1.DataScanName;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.GetDataScanRequest;

public class SyncGetDataScan {

  public static void main(String[] args) throws Exception {
    syncGetDataScan();
  }

  public static void syncGetDataScan() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      GetDataScanRequest request =
          GetDataScanRequest.newBuilder()
              .setName(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
              .build();
      DataScan response = dataScanServiceClient.getDataScan(request);
    }
  }
}

Python

Python

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Pythonבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Python API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_get_data_scan():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    request = dataplex_v1.GetDataScanRequest(
        name="name_value",
    )

    # Make the request
    response = client.get_data_scan(request=request)

    # Handle the response
    print(response)

Ruby

Ruby

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Rubyבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Ruby API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

require "google/cloud/dataplex/v1"

##
# Snippet for the get_data_scan call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#get_data_scan.
#
def get_data_scan
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::GetDataScanRequest.new

  # Call the get_data_scan method.
  result = client.get_data_scan request

  # The returned object is of type Google::Cloud::Dataplex::V1::DataScan.
  p result
end

REST

כדי לראות את התוצאות של סריקת פרופיל נתונים, משתמשים בשיטה dataScans.get.

הצגת התוצאות שפורסמו

אם תוצאות סריקת פרופיל הנתונים מתפרסמות בדפים של BigQuery ושל Dataplex Universal Catalog במסוף Google Cloud , אפשר לראות את תוצאות הסריקה האחרונות בכרטיסייה Data profile של טבלת המקור.

  1. נכנסים לדף Search של Dataplex Universal Catalog במסוף Google Cloud .

    לחיפוש Google

  2. מחפשים את הטבלה ובוחרים אותה.

  3. לוחצים על הכרטיסייה פרופיל נתונים.

    מוצגות התוצאות האחרונות שפורסמו.

צפייה במשימת סריקת פרופיל הנתונים האחרונה

המסוף

  1. במסוף Google Cloud , נכנסים לדף Data profiling & quality של Dataplex Universal Catalog.

    מעבר לפרופיל נתונים ולאיכות נתונים

  2. לוחצים על השם של סריקת פרופיל נתונים.

  3. לוחצים על הכרטיסייה תוצאות העבודה האחרונות.

    בכרטיסייה Latest job results (תוצאות העבודה האחרונה), אם יש לפחות ריצה אחת שהושלמה בהצלחה, מוצג מידע על העבודה האחרונה. היא מפרטת את העמודות של הטבלה שנסרקה ואת הנתונים הסטטיסטיים לגבי העמודות שנמצאו בסריקה.

gcloud

כדי לראות את סריקת פרופיל הנתונים האחרונה שהסתיימה בהצלחה, משתמשים בפקודה gcloud dataplex datascans describe:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

מחליפים את המשתנים הבאים:

  • DATASCAN: השם של סריקת פרופיל הנתונים שרוצים לראות את העבודה האחרונה שלה.
  • LOCATION: האזור שבו נוצרה סריקת פרופיל הנתונים. Google Cloud
  • --view=FULL: כדי לראות את תוצאת עבודת הסריקה, מציינים FULL.

REST

כדי לראות את עבודת הסריקה האחרונה, משתמשים בשיטה dataScans.get.

הצגת תוצאות סריקה היסטוריות

ב-Dataplex Universal Catalog נשמרת היסטוריית סריקות פרופיל הנתונים של 300 המשימות האחרונות או של השנה האחרונה, לפי המוקדם מביניהם.

המסוף

  1. במסוף Google Cloud , נכנסים לדף Data profiling & quality של Dataplex Universal Catalog.

    מעבר לפרופיל נתונים ולאיכות נתונים

  2. לוחצים על השם של סריקת פרופיל נתונים.

  3. לוחצים על הכרטיסייה היסטוריית המשרות.

    בכרטיסייה היסטוריית המשימות מופיע מידע על משימות קודמות, כמו מספר הרשומות שנסרקו בכל משימה, סטטוס המשימה והשעה שבה המשימה הופעלה.

  4. כדי לראות מידע מפורט על משימה, לוחצים על אחת מהמשימות בעמודה מזהה משימה.

gcloud

כדי לראות את העבודות ההיסטוריות של סריקת פרופיל הנתונים, משתמשים בפקודה gcloud dataplex datascans jobs list:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

מחליפים את המשתנים הבאים:

  • LOCATION: האזור שבו נוצרה סריקת פרופיל הנתונים. Google Cloud
  • DATASCAN: השם של סריקת פרופיל הנתונים שעבורה רוצים להציג את המשימות.

C#‎

C#

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה C#במדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog C# API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

using Google.Api.Gax;
using Google.Cloud.Dataplex.V1;
using System;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for ListDataScanJobs</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void ListDataScanJobsRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        ListDataScanJobsRequest request = new ListDataScanJobsRequest
        {
            ParentAsDataScanName = DataScanName.FromProjectLocationDataScan("[PROJECT]", "[LOCATION]", "[DATASCAN]"),
            Filter = "",
        };
        // Make the request
        PagedEnumerable<ListDataScanJobsResponse, DataScanJob> response = dataScanServiceClient.ListDataScanJobs(request);

        // Iterate over all response items, lazily performing RPCs as required
        foreach (DataScanJob item in response)
        {
            // Do something with each item
            Console.WriteLine(item);
        }

        // Or iterate over pages (of server-defined size), performing one RPC per page
        foreach (ListDataScanJobsResponse page in response.AsRawResponses())
        {
            // Do something with each page of items
            Console.WriteLine("A page of results:");
            foreach (DataScanJob item in page)
            {
                // Do something with each item
                Console.WriteLine(item);
            }
        }

        // Or retrieve a single page of known size (unless it's the final page), performing as many RPCs as required
        int pageSize = 10;
        Page<DataScanJob> singlePage = response.ReadPage(pageSize);
        // Do something with the page of items
        Console.WriteLine($"A page of {pageSize} results (unless it's the final page):");
        foreach (DataScanJob item in singlePage)
        {
            // Do something with each item
            Console.WriteLine(item);
        }
        // Store the pageToken, for when the next page is required.
        string nextPageToken = singlePage.NextPageToken;
    }
}

Go

Go

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Goבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Go API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.


package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
	"google.golang.org/api/iterator"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.ListDataScanJobsRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#ListDataScanJobsRequest.
	}
	it := c.ListDataScanJobs(ctx, req)
	for {
		resp, err := it.Next()
		if err == iterator.Done {
			break
		}
		if err != nil {
			// TODO: Handle error.
		}
		// TODO: Use resp.
		_ = resp

		// If you need to access the underlying RPC response,
		// you can do so by casting the `Response` as below.
		// Otherwise, remove this line. Only populated after
		// first call to Next(). Not safe for concurrent access.
		_ = it.Response.(*dataplexpb.ListDataScanJobsResponse)
	}
}

Java

Java

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Javaבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Java API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

import com.google.cloud.dataplex.v1.DataScanJob;
import com.google.cloud.dataplex.v1.DataScanName;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.ListDataScanJobsRequest;

public class SyncListDataScanJobs {

  public static void main(String[] args) throws Exception {
    syncListDataScanJobs();
  }

  public static void syncListDataScanJobs() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      ListDataScanJobsRequest request =
          ListDataScanJobsRequest.newBuilder()
              .setParent(DataScanName.of("[PROJECT]", "[LOCATION]", "[DATASCAN]").toString())
              .setPageSize(883849137)
              .setPageToken("pageToken873572522")
              .setFilter("filter-1274492040")
              .build();
      for (DataScanJob element : dataScanServiceClient.listDataScanJobs(request).iterateAll()) {
        // doThingsWith(element);
      }
    }
  }
}

Python

Python

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Pythonבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Python API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_list_data_scan_jobs():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    request = dataplex_v1.ListDataScanJobsRequest(
        parent="parent_value",
    )

    # Make the request
    page_result = client.list_data_scan_jobs(request=request)

    # Handle the response
    for response in page_result:
        print(response)

Ruby

Ruby

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Rubyבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Ruby API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

require "google/cloud/dataplex/v1"

##
# Snippet for the list_data_scan_jobs call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#list_data_scan_jobs.
#
def list_data_scan_jobs
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::ListDataScanJobsRequest.new

  # Call the list_data_scan_jobs method.
  result = client.list_data_scan_jobs request

  # The returned object is of type Gapic::PagedEnumerable. You can iterate
  # over elements, and API calls will be issued to fetch pages as needed.
  result.each do |item|
    # Each element is of type ::Google::Cloud::Dataplex::V1::DataScanJob.
    p item
  end
end

REST

כדי להציג משימות היסטוריות של סריקת פרופיל נתונים, משתמשים בשיטה dataScans.jobs.list.

הענקת גישה לתוצאות של סריקת פרופיל נתונים

כדי לאפשר למשתמשים בארגון לראות את תוצאות הסריקה:

  1. במסוף Google Cloud , נכנסים לדף Data profiling & quality של Dataplex Universal Catalog.

    מעבר לפרופיל נתונים ולאיכות נתונים

  2. לוחצים על סריקת פרופיל הנתונים שרוצים לשתף את התוצאות שלה.

  3. לוחצים על הכרטיסייה Permissions.

  4. מבצעים את הפעולות הבאות:

    • כדי להעניק גישה ל-Principal, לוחצים על Grant access. מעניקים את התפקיד Dataplex DataScan DataViewer לחשבון המשתמש המשויך.
    • כדי להסיר גישה מחשבון משתמש, בוחרים את החשבון שרוצים להסיר ממנו את התפקיד Dataplex DataScan DataViewer. לוחצים על הסרת הגישה ומאשרים כשמופיעה בקשה.

ניהול סריקות של פרופיל נתונים בטבלה ספציפית

השלבים במאמר הזה מראים איך לנהל סריקות של פרופילי נתונים בפרויקט באמצעות הדף Data profiling &quality (פרופיל נתונים ואיכות) בקטלוג האוניברסלי של Dataplex במסוף Google Cloud .

אפשר גם ליצור ולנהל סריקות של פרופיל נתונים כשעובדים עם טבלה ספציפית. במסוף Google Cloud , בדף Dataplex Universal Catalog של הטבלה, משתמשים בכרטיסייה פרופיל נתונים. מבצעים את הפעולות הבאות:

  1. במסוף Google Cloud , עוברים לדף Search של Dataplex Universal Catalog.

    לחיפוש Google

    מחפשים את הטבלה ובוחרים אותה.

  2. לוחצים על הכרטיסייה פרופיל נתונים.

  3. בהתאם לשאלה אם הטבלה כוללת סריקת פרופיל נתונים שהתוצאות שלה פורסמו, אפשר לעבוד עם סריקות פרופיל הנתונים של הטבלה בדרכים הבאות:

    • תוצאות סריקת פרופיל הנתונים מתפרסמות: התוצאות האחרונות שפורסמו מוצגות בדף.

      כדי לנהל את הסריקות של פרופיל הנתונים בטבלה הזו, לוחצים על סריקה של פרופיל הנתונים ובוחרים באחת מהאפשרויות הבאות:

    • תוצאות סריקת פרופיל הנתונים לא מתפרסמות: לוחצים על התפריט לצד פרופיל נתונים מהיר ואז בוחרים באחת מהאפשרויות הבאות:

      • התאמה אישית של פרופיל הנתונים: יצירת סריקת פרופיל נתונים חדשה. מידע נוסף זמין בקטע יצירת סריקת פרופיל נתונים במסמך הזה. כשיוצרים סריקה מדף הפרטים של טבלה, הטבלה נבחרת מראש.

      • הצגת פרופילים קודמים: הצגת רשימה של סריקות פרופיל נתונים שרלוונטיות לטבלה הזו.

עדכון סריקת פרופיל נתונים

המסוף

  1. במסוף Google Cloud , נכנסים לדף Data profiling & quality של Dataplex Universal Catalog.

    מעבר לפרופיל נתונים ולאיכות נתונים

  2. לוחצים על השם של סריקת פרופיל נתונים.

  3. לוחצים על עריכה ועורכים את הערכים.

  4. לוחצים על Save.

gcloud

כדי לעדכן סריקת פרופיל נתונים, משתמשים בפקודה gcloud dataplex datascans update data-profile:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

מחליפים את המשתנים הבאים:

  • DATASCAN: השם של סריקת פרופיל הנתונים שרוצים לעדכן.
  • LOCATION: האזור שבו נוצרה סריקת פרופיל הנתונים. Google Cloud
  • DESCRIPTION: התיאור החדש של הסריקה של פרופיל הנתונים.

C#‎

C#

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה C#במדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog C# API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

using Google.Cloud.Dataplex.V1;
using Google.LongRunning;
using Google.Protobuf.WellKnownTypes;

public sealed partial class GeneratedDataScanServiceClientSnippets
{
    /// <summary>Snippet for UpdateDataScan</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void UpdateDataScanRequestObject()
    {
        // Create client
        DataScanServiceClient dataScanServiceClient = DataScanServiceClient.Create();
        // Initialize request argument(s)
        UpdateDataScanRequest request = new UpdateDataScanRequest
        {
            DataScan = new DataScan(),
            UpdateMask = new FieldMask(),
            ValidateOnly = false,
        };
        // Make the request
        Operation<DataScan, OperationMetadata> response = dataScanServiceClient.UpdateDataScan(request);

        // Poll until the returned long-running operation is complete
        Operation<DataScan, OperationMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        DataScan result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<DataScan, OperationMetadata> retrievedResponse = dataScanServiceClient.PollOnceUpdateDataScan(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            DataScan retrievedResult = retrievedResponse.Result;
        }
    }
}

Go

Go

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Goבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Go API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.


package main

import (
	"context"

	dataplex "cloud.google.com/go/dataplex/apiv1"
	dataplexpb "cloud.google.com/go/dataplex/apiv1/dataplexpb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := dataplex.NewDataScanClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &dataplexpb.UpdateDataScanRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/dataplex/apiv1/dataplexpb#UpdateDataScanRequest.
	}
	op, err := c.UpdateDataScan(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

Java

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Javaבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Java API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

import com.google.cloud.dataplex.v1.DataScan;
import com.google.cloud.dataplex.v1.DataScanServiceClient;
import com.google.cloud.dataplex.v1.UpdateDataScanRequest;
import com.google.protobuf.FieldMask;

public class SyncUpdateDataScan {

  public static void main(String[] args) throws Exception {
    syncUpdateDataScan();
  }

  public static void syncUpdateDataScan() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataScanServiceClient dataScanServiceClient = DataScanServiceClient.create()) {
      UpdateDataScanRequest request =
          UpdateDataScanRequest.newBuilder()
              .setDataScan(DataScan.newBuilder().build())
              .setUpdateMask(FieldMask.newBuilder().build())
              .setValidateOnly(true)
              .build();
      DataScan response = dataScanServiceClient.updateDataScanAsync(request).get();
    }
  }
}

Python

Python

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Pythonבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Python API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

# This snippet has been automatically generated and should be regarded as a
# code template only.
# It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
#   client as shown in:
#   https://googleapis.dev/python/google-api-core/latest/client_options.html
from google.cloud import dataplex_v1


def sample_update_data_scan():
    # Create a client
    client = dataplex_v1.DataScanServiceClient()

    # Initialize request argument(s)
    data_scan = dataplex_v1.DataScan()
    data_scan.data_quality_spec.rules.dimension = "dimension_value"
    data_scan.data.entity = "entity_value"

    request = dataplex_v1.UpdateDataScanRequest(
        data_scan=data_scan,
    )

    # Make the request
    operation = client.update_data_scan(request=request)

    print("Waiting for operation to complete...")

    response = operation.result()

    # Handle the response
    print(response)

Ruby

Ruby

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Rubyבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Ruby API.

כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

require "google/cloud/dataplex/v1"

##
# Snippet for the update_data_scan call in the DataScanService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::Dataplex::V1::DataScanService::Client#update_data_scan.
#
def update_data_scan
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::Dataplex::V1::DataScanService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::Dataplex::V1::UpdateDataScanRequest.new

  # Call the update_data_scan method.
  result = client.update_data_scan request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

REST

כדי לערוך סריקת פרופיל נתונים, משתמשים ב-‎dataScans.patch method.

מחיקת סריקת פרופיל נתונים

המסוף

  1. במסוף Google Cloud , נכנסים לדף Data profiling & quality של Dataplex Universal Catalog.

    מעבר לפרופיל נתונים ולאיכות נתונים

  2. לוחצים על הסריקה שרוצים למחוק.

  3. לוחצים על מחיקה ומאשרים כשמופיעה בקשה.

gcloud

כדי למחוק סריקת פרופיל נתונים, משתמשים בפקודה gcloud dataplex datascans delete:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION --async

מחליפים את המשתנים הבאים:

  • DATASCAN: השם של סריקת פרופיל הנתונים שרוצים למחוק.
  • LOCATION: האזור שבו נוצרה סריקת פרופיל הנתונים. Google Cloud

REST

כדי למחוק סריקת פרופיל נתונים, משתמשים בשיטת dataScans.delete.

המאמרים הבאים