במאמר הזה מוסבר איך להשתמש ב-Dataplex Universal Catalog כדי לחפש משאבים כמו מערכי נתונים של BigQuery, מופעים של Cloud SQL ומקורות נתונים נתמכים אחרים. מיקום מרכזי של מקורות נתונים מבוזרים מאפשר לכם לקטלג, לסווג, לשלוט בגישה לנתונים ולנהל את הנתונים הארגוניים.
ב-Dataplex Universal Catalog יש שני מצבי חיפוש:
- חיפוש מילות מפתח מאפשר לכם למצוא משאבים באמצעות מילות מפתח ספציפיות, מסננים ותחביר מוגדר.
- חיפוש בשפה טבעית מתבסס על AI כדי לתמוך בשאילתות סמנטיות. הוא מאפשר לכם למצוא משאבים באמצעות שפה יומיומית, בלי שתצטרכו להשתמש בתחביר מורכב.
טווח החיפוש
בתוצאות החיפוש ב-Dataplex Universal Catalog נשמרות ההרשאות שיש לכם לגבי המשאבים התואמים במערכות המקור.
לדוגמה, אם יש לכם גישת קריאה למטא-נתונים של BigQuery באובייקט, האובייקט הזה יופיע בתוצאות החיפוש של Dataplex Universal Catalog. אם יש לכם גישה לטבלה ב-BigQuery אבל לא למערך הנתונים שמכיל את הטבלה הזו, הטבלה עדיין תופיע כצפוי בחיפוש בקטלוג האוניברסלי של Dataplex.
כברירת מחדל, החיפוש מוגבל לארגון שלכם. התוצאות כוללות רק משאבים מאותו ארגון של הפרויקט שבו אתם מחפשים.
תוצאות החיפוש כוללות רק את המשאבים ששייכים לאותו גבולות גזרה של VPC Service Controls כמו הפרויקט שבו מתבצע החיפוש. כשמשתמשים במסוףGoogle Cloud , זהו הפרויקט שנבחר במסוף.
כדי להרחיב את היקף תוצאות החיפוש מעבר למשאבים ב-service perimeter של VPC Service Controls בפרויקט, אפשר להשתמש בכללי תעבורת נתונים נכנסת (ingress) ויוצאת (egress) של VPC Service Controls. הכללים האלה מאפשרים להחליף נתונים באופן פרטי ויעיל בארגון. אפשר להגדיר כללי תעבורת נתונים נכנסת (ingress) ותעבורת נתונים יוצאת (egress) באמצעותGoogle Cloud המסוף או באמצעות קובצי JSON או YAML. אפשר להיעזר בדוגמה הבאה של YAML ובמסמכי התיעוד של VPC Service Controls כדי להתאים את הכלל לדרישות הספציפיות שלכם.
egressPolicies:
- egressFrom:
identityType: ANY_USER_ACCOUNT
egressTo:
# Specify which resources should be present in the search results. In this example,
# BigQuery.
operations:
- methodSelectors:
- method: '*'
serviceName: bigquery.googleapis.com
# Specify project ids under which the search is performed.
resources:
- projects/SEARCH_PROJECT_ID
ingressPolicies:
- ingressFrom:
identityType: ANY_USER_ACCOUNT
sources:
- accessLevel: '*'
ingressTo:
# Specify which resources should be present in the search results. In this example,
# BigQuery.
operations:
- methodSelectors:
- method: '*'
serviceName: bigquery.googleapis.com
# Specify project ids to expose in search results.
resources:
- projects/INGRESS_PROJECT_ID
מידע נוסף על התפקידים בניהול הזהויות והרשאות הגישה (IAM) שצריך להשתמש בהם כדי לחפש ב-Dataplex Universal Catalog זמין במאמר תפקידי IAM ב-Dataplex Universal Catalog.
בידוד תוצאות החיפוש לפי סביבה באמצעות VPC Service Controls
כדי לבודד את תוצאות החיפוש ב-Dataplex Universal Catalog בין סביבות כמו פיתוח, בדיקה וייצור, צריך להגדיר היקפי VPC Service Controls נפרדים לכל סביבה. מקצים את שני הפרויקטים (הפרויקטים שמכילים את נכסי הנתונים והפרויקטים שמשמשים לביצוע חיפושים) לגבולות הגזרה של הסביבה המתאימה. חיפושים שמבוצעים מפרויקט בתוך גבולות גזרה ספציפיים יחזירו רק תוצאות של נכסים שנמצאים גם הם באותם גבולות גזרה.
מגבלות על ביטול שליחה בחיפוש
שאילתות חיפוש ב-Dataplex Universal Catalog לא מבטיחות שליפה מלאה. יכול להיות שלא יוחזרו תוצאות שתואמות לשאילתה. בנוסף, אם חוזרים על שאילתות חיפוש, יכול להיות שתוצאות החיפוש יהיו שונות (גם אלה שמוחזרות וגם אלה שלא מוחזרות).
כדי להריץ שאילתות על כל המטא-נתונים של Dataplex Universal Catalog, אפשר לייצא את המטא-נתונים ל-Cloud Storage ואז להריץ עליהם שאילתות מ-BigQuery. מידע נוסף זמין במאמר ייצוא מטא-נתונים.
מסננים
בעזרת מסננים אפשר לצמצם את תוצאות החיפוש. המסננים זמינים גם בחיפוש לפי מילות מפתח וגם בחיפוש בשפה טבעית, אבל יכול להיות שהאפשרויות הזמינות יהיו שונות מעט בהתאם למצב.
כשמספקים מסננים בכמה קטעים, המערכת מעריכה אותם באמצעות האופרטור הלוגי AND. תוצאות החיפוש מכילות מקורות מידע שתואמים לפחות לתנאי אחד מכל קטע שנבחר. לדוגמה, אם בוחרים במערכת BigQuery ובסוג המשאב dataset, תוצאות החיפוש יכללו מערכי נתונים של BigQuery אבל לא מערכי נתונים של Vertex AI.
אם בוחרים כמה מסננים באותו קטע, המערכת מבצעת הערכה שלהם באמצעות האופרטור הלוגי OR. לדוגמה, אם בוחרים את סוג המשאב dataset ואת סוג המשאב table, תוצאות החיפוש יכללו גם קבוצות נתונים וגם טבלאות.
מסנני חיפוש לפי מילות מפתח
בחיפוש מילות מפתח, המסננים מחולקים לקטעים הבאים:
- מערכות כמו BigQuery, Cloud SQL ועוד. מערכת Dataplex Universal Catalog מכילה רשומות מותאמות אישית.
- היבטים (תגים): רשימה של כל ההיבטים שזמינים לכם.
- פרויקט: רשימה של כל הפרויקטים שזמינים לכם.
- כינויי סוגים מתארים סוגי משאבים, כמו מסדי נתונים, מערכי נתונים, מודלים, טבלאות, תצוגות, שירותים וסוגים בהתאמה אישית.
- מערכי נתונים מגיעים מ-BigQuery.
סינון לפי ערך היבט
המסננים Aspects מאפשרים לכם לחפש נכסים שתויגו באמצעות תבנית ספציפית. אפשר להשתמש בתפריט התאמה אישית כדי לצמצם עוד יותר את התוצאות ולסנן לפי ערכים ספציפיים של היבטים. תנאי הסינון של ערך ההיבט תלויים בסוג הנתונים של שדה ההיבט. לדוגמה, בשדות datetime ו-number
אפשר לציין תאריך מסוים או טווח תאריכים.
סינון לפי סטטוס החשיפה
המסננים Systems, Type aliases, Project ו-Datasets מוצגים בהתאם לשאילתה הנוכחית בשדה Search.
מסנני חיפוש בשפה טבעית
לחיפוש בשפה טבעית, המסננים הבאים זמינים:
- היקף: חיפוש בכל הארגון (ברירת מחדל), בפרויקט הנוכחי או רק במשאבים המסומנים בכוכב. מידע נוסף מופיע בקטע היקף החיפוש במסמך הזה.
- Systems: Google Cloud השירות שאליו המשאב משתייך, כמו BigQuery. מערכת Dataplex Universal Catalog מכילה קבוצות של רשומות.
- Projects: הפרויקטים שבהם יתבצע החיפוש.
- סוג: סוג המשאב, כמו חיבור ל-BigQuery, קטגוריה של Cloud Storage או מסד נתונים. בהתאם לסוג המשאב, אפשר גם לסנן לפי סוג משנה, כמו סוג החיבור או ניב SQL.
- בחירת מיקומים: המיקומים שבהם יתבצע החיפוש.
- בחירת מערכי נתונים: תוצאות החיפוש מוגבלות למשאבי BigQuery ששייכים למערכי הנתונים שנבחרו ב-BigQuery. בשדה Type to filter (הקלדה לסינון), מזינים את השם של מערך הנתונים.
- סוגי היבטים: סוגי ההיבטים של Dataplex Universal Catalog שמשויכים למשאב שאתם מחפשים. כדי לסנן לפי ערכי היבטים, לוחצים על סינון לפי ערכי הערות ואז בוחרים את הערכים.
לפני שמתחילים
לפני שמבצעים חיפוש, צריך לוודא שהוקצו לכם התפקידים הנדרשים ושהפעלתם את ה-API הדרוש.
התפקידים הנדרשים
בקטע הזה מתוארים התפקידים וההרשאות שנדרשים כדי לחפש משאבים ולגשת לתוצאות החיפוש.
להסבר על מתן תפקידים, ראו איך מנהלים את הרשאות הגישה.
יכול להיות שתוכלו לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
התפקידים שנדרשים כדי לחפש רשומות
כדי לחפש רשומות, צריך לפחות אחד מתפקידי ה-IAM הבאים בפרויקט שמשמש לחיפוש: Dataplex Catalog Admin, Dataplex Catalog Editor או Dataplex Catalog Viewer. ההרשאות בתוצאות החיפוש נבדקות בנפרד מהפרויקט שנבחר.
התפקידים שנדרשים כדי לגשת לתוצאות החיפוש
תוצאות החיפוש ב-Dataplex Universal Catalog מוגבלות בהתאם לתפקיד שלכם. כדי לחפש נכס ב-Dataplex Universal Catalog, צריכות להיות לכם הרשאות גישה למשאב המתאים במערכת המקור. מידע נוסף מופיע בקטע היקף החיפוש במאמר הזה.
לדוגמה, כדי לחפש מערכי נתונים, טבלאות, תצוגות ומודלים של BigQuery, אתם צריכים את ההרשאות המתאימות לערכים האלה. מידע נוסף זמין במאמר הרשאות ב-BigQuery.
ברשימה הבאה מפורטות ההרשאות המינימליות הנדרשות:
- כדי לחפש טבלה, צריך הרשאה
bigquery.tables.getלטבלה הזו. - כדי לחפש מערך נתונים, צריך הרשאה מסוג
bigquery.datasets.getלמערך הנתונים הזה. - כדי לחפש מטא-נתונים של מערך נתונים או טבלה, צריך את התפקיד BigQuery Metadata Viewer (צפייה במטא-נתונים של BigQuery) (
roles/bigquery.metadataViewer).
דוגמה נוספת: כדי לחפש מכונות, מסדי נתונים, סכימות, טבלאות ותצוגות ב-Cloud SQL, צריך הרשאות מתאימות לערכים האלה. מידע נוסף זמין במאמר תפקידים והרשאות ב-Cloud SQL.
כדי לחפש רשומות בהתאמה אישית, צריך את התפקיד Dataplex Catalog Viewer (roles/dataplex.catalogViewer).
הפעלת ה-API
Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
חיפוש מקורות מידע
המסוף
כדי לחפש משאבים, פועלים לפי השלבים הבאים:
נכנסים לדף Search של Dataplex Universal Catalog במסוף Google Cloud .
אם פלטפורמת החיפוש מוגדרת כ-Data Catalog, בתפריט Choose search platform בוחרים באפשרות Dataplex Universal Catalog.
אם בוחרים באפשרות Dataplex Universal Catalog, אפשר לחפש במאגר המטא-נתונים של Dataplex Universal Catalog. אם אתם משתמשים ב-Data Catalog, תוכלו לבחור באפשרות Data Catalog כדי לחפש במאגר של Data Catalog.
כדי להשתמש בחיפוש מילות מפתח, פועלים לפי השלבים הבאים:
בשדה Find resources across projects, מזינים את השאילתה.
כדי לצמצם את החיפוש, משתמשים בחלונית Filters. רשימת המסננים הזמינים מופיעה במאמר מסננים לחיפוש לפי מילות מפתח.
אפשר להוסיף באופן ידני את המסננים הבאים:
- כדי להוסיף מסנן פרויקט: בקטע פרויקט, לוחצים על הוספת פרויקט. מחפשים פרויקט ספציפי, בוחרים את הפרויקט ולוחצים על Open.
- כדי להוסיף מסנן של סוג היבט: בקטע היבטים, לוחצים על התפריט הוספת סוגים נוספים של היבטים. מחפשים תבנית ספציפית, בוחרים אותה ולוחצים על אישור.
אופציונלי: בנוסף לנכסים שזמינים לכם, אתם יכולים לחפש משאבים שזמינים לכולם ב- Google Cloud על ידי בחירה באפשרות Include public datasets (הכללת מערכי נתונים ציבוריים).
הטיפים הבאים יעזרו לכם ליצור שאילתת חיפוש:
- אם הביטוי לחיפוש מכיל רווחים, צריך להקיף אותו במירכאות. לדוגמה,
"search terms". - מוסיפים
NOTלפני מילת מפתח כדי להתאים לשלילה הלוגית של המסנןkeyword:term. אפשר גם להשתמש באופרטורים בוליאנייםANDו-ORכדי לשלב ביטויי חיפוש. האופרטוריםAND,ORו-NOTלא תלויי אותיות רישיות.
לדוגמה, הפקודה
NOT column:termמפרטת את כל העמודות מלבד אלה שתואמות למונח שצוין. רשימה של מילות מפתח ומונחים אחרים שאפשר להשתמש בהם בביטוי חיפוש ב-Dataplex Universal Catalog מופיעה במאמר בנושא תחביר חיפוש.- אם הביטוי לחיפוש מכיל רווחים, צריך להקיף אותו במירכאות. לדוגמה,
כדי להשתמש בחיפוש בשפה טבעית, פועלים לפי השלבים הבאים:
לוחצים על חיפוש בשפה טבעית.
בשדה חיפוש משאבים בכל הפרויקטים באמצעות שפה טבעית, מזינים את השאילתה בשפה טבעית ומקישים על Enter.
הנה כמה שאילתות לדוגמה:
Show me the datasets that contain taxi informationFind data on vaccine distribution across different countriesGet tables with historical temperature data for major world citiesSearch for hurricane tracking and storm activity datasetsPopulation data by country
כדי לצמצם את החיפוש, לוחצים על מסננים. רשימת המסננים הזמינים מופיעה במאמר מסננים לחיפוש בשפה טבעית.
כדי לראות מידע נוסף על המשאב שחיפשתם, לוחצים על שם המשאב בתוצאות החיפוש. ייפתח דף הפרטים של הרשומה.
gcloud
כדי לחפש משאבים, משתמשים בפקודה gcloud dataplex entries search.
C#
C#
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה C#במדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog C# API.
כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Go
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Goבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Go API.
כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Javaבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Java API.
כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Pythonבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Python API.
כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Rubyבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Ruby API.
כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי לחפש משאבים, משתמשים בשיטה searchEntries.
הצגת פרטים של רשומה
המסוף
משתמשים בחיפוש ב-Dataplex Universal Catalog כדי לראות את הפרטים של רשומה.
חיפוש רשומה ב-Dataplex Universal Catalog.
בתוצאות החיפוש, לוחצים על הרשומה שרוצים לראות את הפרטים שלה.
ייפתח דף הפרטים של הרשומה. הדף כולל את הקטעים הבאים:
- פרטי הרשומה: כוללים מידע כמו סוג הרשומה, המערכת, הפלטפורמה, שם מלא, זמן היצירה, זמן השינוי האחרון, תיאור והאחראים.
- סקירה כללית: סקירה כללית של הערך, אם היא זמינה.
- מאפיינים: המאפיינים הנדרשים והאופציונליים שהוגדרו לרשומה. מידע נוסף זמין במאמר בנושא קטגוריות של היבטים.
gcloud
כדי לראות את הפרטים של רשומה, משתמשים בפקודה gcloud dataplex entries lookup.
C#
C#
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה C#במדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog C# API.
כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Go
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Goבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Go API.
כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Javaבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Java API.
כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Pythonבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Python API.
כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה Rubyבמדריך למתחילים בנושא Dataplex Universal Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Dataplex Universal Catalog Ruby API.
כדי לבצע אימות ב-Dataplex Universal Catalog, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי לראות את הפרטים של רשומה, משתמשים בשיטה lookupEntry.
מגבלות
אלה המגבלות של חיפוש בשפה טבעית:
חיפוש בשפה טבעית מותאם לחיפוש רחב ולגילוי, ולכן הוא מחזיר קבוצה מוגבלת של התוצאות הרלוונטיות ביותר. יכול להיות שהרשימה לא תכלול את כל הפריטים התואמים, ולכן היא לא מתאימה לעומסי עבודה שתלויים בה, כמו צינורות של אוסף פריטים.
חיפוש בשפה טבעית מתייחס רק למטא-נתונים של המשאב, כולל סכימות, תיאורים והיבטים. הוא לא עונה על שאלות לגבי הנתונים בטבלאות (לדוגמה, "מה היו נתוני המכירות בחודש שעבר?") או מבצע שאילתות אנליטיות על המטא-נתונים (לדוגמה, "כמה טבלאות יש במערך הנתונים X?").
משאבים ציבוריים לא נכללים בחיפוש בשפה טבעית.
המאמרים הבאים
- הסבר על תחביר החיפוש ב-Dataplex Universal Catalog
- מידע נוסף על ניהול מטא-נתונים ב-Dataplex Universal Catalog
- איך מעשירים רשומות במטא-נתונים באמצעות היבטים
- איך מנהלים רשומות ומייבאים מקורות בהתאמה אישית