סריקה של פרופיל נתונים לנתונים לא מובְנים ב-Knowledge Catalog הופכת נתונים לא מובְנים או קבצים לא מובְנים כמו קובצי PDF ב-Cloud Storage לנכסים מובְנים שאפשר להריץ עליהם שאילתות ב-BigQuery. בעוד שכלי גילוי רגילים מוגבלים למטא-נתונים ברמת הקובץ, כמו גודל וסוג, סריקה של פרופיל נתונים לנתונים לא מובְנים שמבוססת על מודלים של Vertex AI Gemini מנתחת את תוכן הקובץ. היא מחלצת באופן אוטומטי את ההקשר העסקי שנדרש כדי להנחות סוכני AI ולהפעיל ניתוחים מתקדמים.
האוטומציה הזו מבטלת את הצורך בניתוח ידני של מסמכים ובקוד ETL מותאם אישית, ומאפשרת לכם לגלות, לסווג ולהשתמש בנתונים שלא הייתה לכם גישה אליהם בעבר.
סריקה של פרופיל נתונים לנתונים לא מובְנים מנתחת את התוכן של קבצים לא מובְנים כדי לחלץ מידע ולהסיק סכימות. זה שונה מהתכונה תובנות לגבי נתונים מובְנים, שמייצרת תיאורים ושאילתות SQL על סמך המטא-נתונים של טבלאות מובְנות קיימות, וגם מפרופיל נתונים סטטיסטי רגיל, שמחשב מדדים כמו ספירת ערכי null והתפלגויות ערכים.
גילוי אוטומטי ופרופילים סמנטיים
אתם יכולים ליצור פרופיל של נתונים לא מובְנים באמצעות שני תהליכי עבודה שונים, בהתאם לנקודת ההתחלה שלכם:
במהלך סריקת גילוי ב-Cloud Storage: סריקת גילוי מאתרת באופן אוטומטי את הקבצים הלא מובנים שלכם ב-Cloud Storage ומקטלגת אותם לטבלאות אובייקטים אחת או יותר ב-BigQuery לצורך ניתוח. טבלת אובייקטים היא טבלה לקריאה בלבד של אובייקטים של נתונים לא מובנים ששוכנים ב-Cloud Storage. כשמריצים סריקת גילוי עם האפשרות הפעלת הסקה סמנטית מופעלת, היא משמשת כנקודת הכניסה האוטומטית ליצירת פרופיל של נתונים לא מובנים.
כסריקה עצמאית של פרופיל נתונים לנתונים לא מובנים: אם כבר יש לכם טבלאות של אובייקטים ב-BigQuery, אתם יכולים להריץ סריקה של פרופיל נתונים לנתונים לא מובנים ישירות בטבלאות האלה. בתהליך העבודה העצמאי הזה, אפשר גם להנחות את החילוץ באמצעות הנחיה מותאמת אישית במפרט של DataScan.
כשמבצעים פרופיל של נתונים לא מובנים (באופן אוטומטי במהלך סריקת גילוי או כסריקה עצמאית), המערכת רושמת את טבלאות האובייקטים כרשומות ב-Knowledge Catalog. רשומה מייצגת נכס נתונים שאת המטא-נתונים שלו אתם מתעדים. כשנוצרות כמה טבלאות בעקבות סריקת גילוי, לכל רשומה יש כרטיסיית תובנות משלה. אחרי כן תוכלו לפתוח את הרשומה הזו כדי לעיין בתובנות הנתונים שנוצרו. המערכת מבצעת את הפעולות הבאות:
מזהה ומקבץ קבצים (בסריקת גילוי בלבד). מזהה ומארגן באופן אוטומטי קבצים לא מובנים ב-Cloud Storage בטבלאות אובייקטים. טבלאות האובייקטים האלה הן טבלאות לקריאה בלבד שמספקות ממשק מובנה לנתונים לא מובנים.
מבצע סריקה של פרופיל נתונים לנתונים לא מובנים. משתמש במודלים של Vertex AI Gemini כדי לנתח את התוכן בקבצים, להבין את המשמעות והמבנה שלהם. זה כולל הסקת ישויות, שמשתמשת ב-AI גנרטיבי כדי לחלץ מאפיינים ספציפיים, למשל
Company,ProductאוSerial Number, מתוכן הקובץ. זה כולל גם חילוץ קשרים, שמזהה איך הישויות האלה מתקשרות, למשלComponent is_part_of Product, כדי ליצור גרף סמנטי. אם אתם מריצים סריקה של פרופיל עצמאי, אתם יכולים להנחות את החילוץ הזה על ידי מתן הנחיה מותאמת אישית במפרט DataScan.יצירת סכימות ופרופילים של גרפים. מספק סכימה רלציונית שנוצרה על ידי AI ומצרף היבט
Graph Profile(dataplex-types.global.graph-profile) לרשומה בקטלוג שמייצגת את טבלת האובייקטים. היבטים מאפשרים לכם לתעד מטא-נתונים בתוך רשומות. היבט המטא-נתונים הזה מכיל את הסכימות המשוערות של הישויות (NodeType) והקשרים (EdgeType).העשרת המטא-נתונים. מאכלס אוטומטית את Knowledge Catalog במטא-נתונים שנוצרו על ידי AI. כך הנתונים מוכנים לחיפוש ולחילוץ.
במקום לתכנן סכימות של מסדי נתונים באופן ידני, אפשר לבצע חילוץ נתונים באמצעות SQL בלחיצה אחת או תזמור צינורות. בתהליך הזה, ישויות ויחסים שנלמדו מנתונים ממומשים בפורמטים מובנים, כמו טבלאות או תצוגות פיזיות של BigQuery.
שיטות API
אתם יכולים להגדיר, להריץ ולנהל סריקות של פרופילי נתונים לנתונים לא מובנים ולרשומות הקטלוג שנוצרות מהם באמצעות השיטות הבאות של API בארכיטקטורת REST:
| שיטת ה-API | תיאור |
|---|---|
projects.locations.dataScans.create |
יצירת סריקת גילוי (באמצעות dataDiscoverySpec) או סריקת פרופיל נתונים עצמאית לנתונים לא מובנים (באמצעות unstructuredDataProfileSpec). |
projects.locations.dataScans.run |
מפעיל סריקה של פרופיל נתונים או סריקה של גילוי נתונים לפי דרישה, כדי לנתח קבצים לא מובנים וליצור תובנות סמנטיות. |
projects.locations.dataScans.get |
הסוכן מאחזר את פרטי ההגדרה ואת התוצאות האחרונות של סריקת פרופיל נתונים קיים. |
projects.locations.dataScans.jobs.list |
מוצגת רשימה של משימות סריקה היסטוריות של סריקת פרופיל נתונים ספציפי או סריקת גילוי. |
projects.locations.dataScans.jobs.get |
שליפת תוצאות מפורטות של הרצה ויומנים של משימת סריקה ספציפית של פרופיל נתונים. |
projects.locations.entryGroups.entries.get |
מאחזר רשומה בקטלוג שמייצגת טבלת אובייקטים, כולל היבטים של מטא-נתונים שנוצרו על ידי AI שמצורפים אליה (כמו GraphProfile). |
projects.locations.entryGroups.entries.patch |
עדכון של רשומה בקטלוג כדי לצרף, לשנות או לאצור היבטים של מטא-נתונים (כמו dataplex-types.global.graph-profile). |
תרחישים לדוגמה
אתם יכולים להשתמש בסריקות של פרופיל הנתונים לנתונים לא מובְנים למטרות שונות בתחומים שונים בתעשייה, כולל:
הגדרת צינור עיבוד נתונים ונורמליזציה של אפס ETL. החלפת מנתחי נתונים מותאמים אישית בהצעה אוטומטית של סכימה ופריסה בלחיצה אחת כדי להפוך נתונים לטבלאות, לתצוגות או לגרפים סמנטיים ב-BigQuery, וכך להקל על חילוץ נתונים מ-Cloud Storage ל-BigQuery.
לדוגמה, בתחום המסחר האלקטרוני והקמעונאות, פלטפורמת מסחר יכולה לבצע נורמליזציה אוטומטית של חשבוניות ושל הזמנות רכש של ספקים במאות פריסות שונות של קובצי PDF, ולהפוך אותן לסכימת BigQuery מגובשת ומאוחדת (מיפוי של
Unit Pr.,Price/Pkgו-Item Costלעמודה אחת שלUnit_Price) בלי לכתוב קוד ניתוח מותאם אישית. בתחום הבריאות, ביוסטטיסטיקאים יכולים להזין פרוטוקולים של ניסויים קליניים רב-מרכזיים וטפסים של דוחות מקרים (CRF) לטבלאות מובנות לניתוח קבוצות משתמשים.סיווג תוכן ואימות. קיבוץ אוטומטי של נתונים לא מובנים לנכסים שאפשר לחפש בהם, עם מטא-נתונים שנוצרו על ידי AI. כך מנהלי נתונים יכולים לבצע אימות ומעקב של ישויות שחולצו, בהיקף נרחב, עם אימות אנושי.
לדוגמה, בשירותים פיננסיים, בנק השקעות שמבצע בדיקת נאותות של מיזוגים ורכישות יכול לסווג באופן אוטומטי מאגרי מידע גדולים של חוזים היסטוריים והסכמי אשראי, ולחלץ ישויות משפטיות מורכבות (
Contracting_Parties,Indemnity_Cap,Governing_Law). מנהלי נתונים יכולים לעיין בתרשים הידע החזותי בכרטיסייה תובנות כדי לזהות התחייבויות בסיכון גבוה לפני ייצוא הנתונים לדוחות למנהלים.הארקה של סוכני AI. הארקה של סוכני Retrieval-Augmented Generation (יצירה משולבת-אחזור, RAG) באמצעות גרפים מאומתים. כך נוצר 'שרשרת מעקב' ברורה שמקשרת בין קבצים גולמיים לבין לוגיקה עסקית מובנית, ומצמצמת את התופעה של הזיות. כך סוכני AI יכולים לנווט בין צירופים של כמה טבלאות ללא עמימות.
לדוגמה, בתעשיית הייצור ובפעולות תפעוליות, חברה שמייצרת מכונות כבדות יכולה לחלץ קשרים בין ציודים מיומני תחזוקה ומדוחות על אירועים שנרשמו בשטח במשך עשרות שנים בפורמט לא מובנה. כשמגיע טכנאי לאתר ושואל סוכן AI בממשק שיחה איך לפתור ירידה לא אופיינית בלחץ הידראולי, הסוכן משתמש בתרשים הקשרים המאומת (
Error_Code indicates_failure Hydraulic_Valve) כדי לספק תוכנית תיקון מדויקת עם הוראות מפורטות, תוך ציטוט של דוח האירוע ההיסטורי המדויק.
מגבלות
לפני שמשתמשים בסריקות של פרופיל נתונים לנתונים לא מובנים, חשוב לעיין במגבלות הבאות:
פורמטים נתמכים סריקות לגילוי נתונים מזהות ומקבצות באופן אוטומטי סוגים שונים של קבצים לא מובְנים בטבלאות של אובייקטים ב-BigQuery, אבל מנוע ההיסק הסמנטי של סריקות פרופיל נתונים לנתונים לא מובְנים מותאם בעיקר למסמכי PDF.
מיקומים. סריקות של פרופיל נתונים לנתונים לא מובנים זמינות רק במיקומים שתומכים במודלים של Vertex AI Gemini 2.5 Pro (לדוגמה,
us-central1,europe-west1,asia-southeast1). רשימת האזורים הנתמכים מופיעה בקטע אזורים נתמכים במאמר Gemini 2.5 Pro. סריקות שנוצרו באזורים לא נתמכים מחזירות שגיאות אימות או שגיאות הפעלה.היקף המשאבים. סריקות של פרופיל נתונים לנתונים לא מובנים פועלות רק על טבלאות אובייקטים ב-BigQuery. הם לא תומכים בטבלאות מובנות רגילות של BigQuery, בטבלאות חיצוניות עם נתונים מובנים או בתצוגות מפורטות של BigQuery.
תמחור
במהלך שלב טרום-ההשקה הציבורית, סריקות של פרופיל נתונים לנתונים לא מובנים זמינות לניסוי ולבדיקה בתנאי קידום מכירות מיוחדים:
היסק סמנטי. אין חיוב על שימוש במודלים של Vertex AI Gemini כדי לחלץ מידע סמנטי ולהסיק פרופילים של גרפים במהלך סריקות גילוי לאורך תקופת התצוגה המקדימה.
עלויות משאבים בסיסיות. חלים חיובים רגילים על המשאבים שנדרשים לאחסון ולעיבוד הנתונים:
Knowledge Catalog
החיוב על סריקות לגילוי מתבסס על מק"טים של עיבוד ב-Knowledge Catalog Premium (שעות DCU) עבור הסריקה הבסיסית וקיבוץ של קבצים לא מובנים. מידע נוסף זמין במאמר בנושא תמחור של Knowledge Catalog.
היבטים של מטא-נתונים שנוצרו על ידי AI, כולל פרופילים של גרפים, כרוכים בחיובים רגילים על אחסון קטלוג ב-Knowledge Catalog.
BigQuery ו-Dataform
אם משתמשים בשיטת החילוץ של צינור הנתונים, חלים חיובים רגילים על הרצת Dataform ועל עבודות BigQuery.
אם משתמשים בשיטת SQL, חלים חיובים רגילים על BigQuery ML (
ML.PROCESS_DOCUMENT) ועל עיבוד שאילתות ב-BigQuery.כל הנתונים שנוצרו ב-BigQuery, כולל טבלאות אובייקטים, מטא-נתונים שהמערכת הסיקה וישויות שחולצו, כרוכים בחיובים סטנדרטיים על אחסון ועל שאילתות ב-BigQuery. מידע נוסף זמין במאמר בנושא תמחור ב-BigQuery.
מבני חיוב רשמיים ייעודיים לסריקות של פרופיל נתונים עבור נתונים לא מובְנים והסקת מסקנות סמנטיות יתחילו להיות זמינים עם ההשקה הרשמית (GA).
מכסות
מכסות סטנדרטיות של משאבי DataScan ושל API חלות על כל סריקת גילוי או סריקת פרופיל נתונים. מכסת השימוש הספציפית שחלה על נפח ההיסקים הסמנטיים היא כדלקמן: מספר ההפעלות היומי הכולל של סריקות פרופיל נתונים עבור נתונים לא מובנים בטבלאות אובייקטים ב-BigQuery מוגבל ל-140 הפעלות לכל פרויקט ביום.
כשמבצעים פרופיל של נתונים לא מובנים במהלך סריקת גילוי, חלים גם המגבלות על מספר הטבלאות שסריקת גילוי תומכת בהן. למידע נוסף, אפשר לעיין במאמר בנושא מכסות ומגבלות ב-BigQuery.
המאמרים הבאים
- איך משתמשים בסריקת גילוי לנתונים לא מובנים
- איך משתמשים בפרופיל נתונים לנתונים לא מובְנים
- מידע נוסף על גילוי נתונים
- מידע נוסף על פרופיל נתונים