מידע על תובנות מנתונים לא מובנים

סריקה של פרופיל נתונים לנתונים לא מובְנים ב-Knowledge Catalog הופכת נתונים לא גלויים או קבצים לא מובְנים כמו קובצי PDF ב-Cloud Storage לנכסים מובְנים שאפשר להריץ עליהם שאילתות ב-BigQuery. בעוד שכלי גילוי רגילים מוגבלים למטא-נתונים ברמת הקובץ, כמו גודל וסוג, סריקה של פרופיל נתונים לנתונים לא מובנים שמבוססת על מודלים של Vertex AI Gemini מנתחת את תוכן הקובץ. הוא מחלץ באופן אוטומטי את ההקשר העסקי שנדרש כדי לעגן סוכני AI ולהפעיל ניתוח מתקדם.

האוטומציה הזו מבטלת את הצורך בניתוח ידני של מסמכים ובקוד ETL מותאם אישית, ומאפשרת לכם לגלות, לסווג ולהשתמש בנתונים שלא הייתה לכם גישה אליהם בעבר.

בסריקה של פרופיל נתונים לנתונים לא מובְנים, המערכת מנתחת את התוכן של קבצים לא מובְנים כדי לחלץ מידע ולהסיק סכמות. התכונה הזו שונה מהתכונה תובנות לגבי נתונים מובְנים, שמפיקה תיאורים ושאילתות SQL על סמך המטא-נתונים של טבלאות מובְנות קיימות, וגם מפרופיל נתונים סטטיסטי רגיל, שמחשב מדדים כמו מספר הערכים הריקים והתפלגות הערכים.

גילוי אוטומטי ופרופילים סמנטיים

אתם יכולים ליצור פרופיל של נתונים לא מובְנים באמצעות שני תהליכי עבודה שונים, בהתאם לנקודת ההתחלה שלכם:

  • במהלך סריקת גילוי ב-Cloud Storage: סריקת גילוי מאתרת באופן אוטומטי את הקבצים הלא מובנים ב-Cloud Storage ומקטלגת אותם בטבלאות אובייקטים אחת או יותר ב-BigQuery לצורך ניתוח. טבלת אובייקטים היא טבלה לקריאה בלבד של אובייקטים של נתונים לא מובנים שנמצאים ב-Cloud Storage. כשמריצים סריקת גילוי עם האפשרות הפעלת הסקה סמנטית מופעלת, הסריקה משמשת כנקודת הכניסה האוטומטית ליצירת פרופיל של נתונים לא מובנים.

  • כסריקה עצמאית של פרופיל נתונים לנתונים לא מובנים: אם כבר יש לכם טבלאות של אובייקטים ב-BigQuery, אתם יכולים להריץ סריקה של פרופיל נתונים לנתונים לא מובנים ישירות בטבלאות האלה. בתהליך העבודה העצמאי הזה, אפשר גם להנחות את החילוץ באמצעות הנחיה מותאמת אישית במפרט של DataScan.

כשמבצעים פרופיל של נתונים לא מובנים (באופן אוטומטי במהלך סריקת גילוי או כסריקה עצמאית), המערכת רושמת את טבלאות האובייקטים כרשומות ב-Knowledge Catalog. רשומה מייצגת נכס נתונים שאת המטא-נתונים שלו אתם מתעדים. כשנוצרות כמה טבלאות בעקבות סריקת גילוי, לכל רשומה יש כרטיסיית תובנות משלה. אחרי כן תוכלו לפתוח את הרשומה הזו כדי לעיין בתובנות הנתונים שנוצרו. המערכת מבצעת את הפעולות הבאות:

  1. מזהה ומקבץ קבצים (סריקת גילוי בלבד). מזהה ומארגן באופן אוטומטי קבצים לא מובנים ב-Cloud Storage בטבלאות אובייקטים. טבלאות האובייקטים האלה הן טבלאות לקריאה בלבד שמספקות ממשק מובנה לנתונים לא מובנים.

  2. מבצע סריקה של פרופיל נתונים לנתונים לא מובְנים. משתמש במודלים של Vertex AI Gemini כדי לנתח את התוכן בקבצים ולהבין את המשמעות והמבנה שלהם. התכונה הזו כוללת הסקת ישויות, שמשתמשת ב-AI גנרטיבי כדי לחלץ מאפיינים ספציפיים, למשל Company, Product או Serial Number, מתוכן הקובץ. הוא כולל גם חילוץ קשרים, שמזהה את הקשר בין הישויות האלה, למשל Component is_part_of Product, כדי ליצור תרשים סמנטי. אם אתם מריצים סריקה של פרופיל עצמאי, אתם יכולים להנחות את החילוץ הזה על ידי מתן הנחיה מותאמת אישית במפרט של DataScan.

  3. יצירת סכימות ופרופילים של גרפים. מספק סכימה רלציונית שנוצרה על ידי AI ומצרף היבט Graph Profile (dataplex-types.global.graph-profile) לרשומה בקטלוג שמייצגת את טבלת האובייקט. היבטים מאפשרים לכם לתעד מטא-נתונים בתוך רשומות. היבט המטא-נתונים הזה מכיל את הסכימות המשוערות של הישויות (NodeType) והקשרים (EdgeType).

  4. העשרה של המטא-נתונים. מאכלס אוטומטית את Knowledge Catalog במטא-נתונים שנוצרו על ידי AI. כך הנתונים הופכים לזמינים לחיפוש ומוכנים לחילוץ.

במקום לתכנן סכימות של מסדי נתונים באופן ידני, אפשר לבצע חילוץ נתונים באמצעות SQL או תזמור צינורות בלחיצה אחת. במהלך התהליך הזה, יש מימוש של ישויות וקשרים שהוסקו בפורמטים מובנים, כמו טבלאות או תצוגות פיזיות של BigQuery.

שיטות API

אתם יכולים להגדיר, להריץ ולנהל סריקות של פרופילי נתונים לנתונים לא מובנים ולרשומות הקטלוג שנוצרות מהם באמצעות השיטות הבאות של API בארכיטקטורת REST:

שיטת ה-API תיאור
projects.locations.dataScans.create יצירת סריקת גילוי (באמצעות dataDiscoverySpec) או סריקת פרופיל נתונים עצמאית לנתונים לא מובנים (באמצעות unstructuredDataProfileSpec).
projects.locations.dataScans.run מפעיל סריקה של פרופיל נתונים או עבודת סריקה לגילוי נתונים לפי דרישה, כדי לנתח קבצים לא מובנים וליצור תובנות סמנטיות.
projects.locations.dataScans.get הסוכן מאחזר את פרטי ההגדרה ואת התוצאות האחרונות של סריקת פרופיל נתונים קיים.
projects.locations.dataScans.jobs.list מוצגת רשימה של משימות סריקה היסטוריות של פרופיל נתונים ספציפי או סריקת גילוי ספציפית.
projects.locations.dataScans.jobs.get שליפת תוצאות מפורטות של הרצה ויומנים של משימת סריקה ספציפית של פרופיל נתונים.
projects.locations.entryGroups.entries.get מאחזר רשומה בקטלוג שמייצגת טבלת אובייקטים, כולל היבטים של מטא-נתונים שנוצרו על ידי AI שמצורפים אליה (כמו GraphProfile).
projects.locations.entryGroups.entries.patch עדכון של רשומה בקטלוג כדי לצרף, לשנות או לאצור היבטים של מטא-נתונים (כמו dataplex-types.global.graph-profile).

תרחישים לדוגמה

אתם יכולים להשתמש בסריקות של פרופיל הנתונים עבור נתונים לא מובְנים למטרות שונות בתחומים שונים בתעשייה, כולל:

  • הגדרת צינור עיבוד נתונים ונורמליזציה של אפס ETL. החלפת מנתחי נתונים מותאמים אישית בהצעה אוטומטית של סכימה ופריסה בלחיצה אחת כדי להפוך נתונים לטבלאות, לתצוגות או לגרפים סמנטיים ב-BigQuery, וכך להקל על חילוץ נתונים מ-Cloud Storage ל-BigQuery.

    לדוגמה, בתחום המסחר האלקטרוני והקמעונאות, פלטפורמת מסחר יכולה לבצע נורמליזציה אוטומטית של חשבוניות ושל הזמנות רכש של ספקים במאות פריסות שונות של קובצי PDF, ולהפוך אותן לסכימת BigQuery מגובשת ומאוחדת (מיפוי של Unit Pr., Price/Pkg ו-Item Cost לעמודה אחת של Unit_Price) בלי לכתוב קוד ניתוח מותאם אישית. בתחום הבריאות, ביוסטטיסטיקאים יכולים להזין פרוטוקולים של ניסויים קליניים רב-מרכזיים וטפסים של דוחות מקרים (CRF) לטבלאות מובנות כדי לבצע ניתוח קבוצות משתמשים מהיר.

  • סיווג תוכן ואימות. קיבוץ אוטומטי של נתונים לא מובנים לנכסים שאפשר לחפש בהם, עם מטא-נתונים שנוצרו על ידי AI. כך מנהלי נתונים יכולים לבצע אימות ומעקב של ישויות שחולצו, בהיקף נרחב, עם אימות אנושי.

    לדוגמה, בשירותים פיננסיים, בנק השקעות שמבצע בדיקת נאותות של מיזוגים ורכישות יכול לסווג באופן אוטומטי מאגרי מידע גדולים של חוזים היסטוריים והסכמי אשראי, ולחלץ ישויות משפטיות מורכבות (Contracting_Parties, Indemnity_Cap, Governing_Law). מנהלי נתונים יכולים לעיין בתרשים הידע החזותי בכרטיסייה תובנות כדי לזהות התחייבויות בסיכון גבוה לפני ייצוא הנתונים לדוחות למנהלים.

  • הארקה של סוכן AI. סוכני Retrieval-Augmented Generation (יצירה משולבת-אחזור, RAG) עם גרפים מאומתים. הגישה הזו מספקת "שרשרת מעקב" ברורה שמקשרת בין קבצים גולמיים לבין לוגיקה עסקית מובנית, ומפחיתה את התופעה של המצאת עובדות (הזיות), כך שסוכני AI יכולים לנווט בין הצטרפויות של כמה טבלאות ללא עמימות.

    לדוגמה, בתעשיית הייצור ובפעולות תעשייתיות, חברה שמייצרת מכונות כבדות יכולה לחלץ קשרים בין ציודים מיומני תחזוקה ודוחות אירועים לא מובנים שנאספו במשך עשרות שנים. כשאיש טכני באתר שואל סוכן AI בממשק שיחה איך לפתור ירידה לא אופיינית בלחץ הידראולי, הסוכן משתמש בתרשים קשרים מאומת (Error_Code indicates_failure Hydraulic_Valve) כדי לספק תוכנית תיקון מדויקת ומפורטת, עם ציטוט של דיווח על אירוע היסטורי מדויק.

מגבלות

לפני שמשתמשים בסריקות של פרופיל נתונים לנתונים לא מובנים, חשוב לעיין במגבלות הבאות:

  • פורמטים נתמכים סריקות לגילוי נתונים מזהות ומקבצות באופן אוטומטי סוגים שונים של קבצים לא מובְנים בטבלאות של אובייקטים ב-BigQuery, אבל מנוע ההיסק הסמנטי של סריקות פרופיל נתונים לנתונים לא מובְנים מותאם בעיקר למסמכי PDF.

  • מיקומים. סריקות של פרופיל נתונים לנתונים לא מובנים זמינות רק במיקומים שתומכים במודלים של Vertex AI Gemini 2.5 Pro (לדוגמה, us-central1,‏ europe-west1,‏ asia-southeast1). רשימת האזורים הנתמכים מופיעה בקטע אזורים נתמכים במאמר Gemini 2.5 Pro. סריקות שנוצרו באזורים לא נתמכים מחזירות שגיאות אימות או שגיאות הפעלה.

  • היקף המשאבים. סריקות של פרופיל נתונים לנתונים לא מובנים פועלות רק על טבלאות אובייקטים ב-BigQuery. הם לא תומכים בטבלאות מובנות רגילות של BigQuery, בטבלאות חיצוניות עם נתונים מובנים או בתצוגות מפורטות של BigQuery.

תמחור

במהלך שלב הטרום-השקה הפומבית, סריקות של פרופיל נתונים לנתונים לא מובנים זמינות לניסוי ולבדיקה בתנאי קידום מכירות מיוחדים:

  • הסקה סמנטית. אין חיוב על שימוש במודלים של Vertex AI Gemini כדי לחלץ מידע סמנטי ולהסיק פרופילים של גרפים במהלך סריקות גילוי לאורך תקופת התצוגה המקדימה.

  • עלויות המשאבים הבסיסיים. יחולו חיובים רגילים על המשאבים שנדרשים לאחסון ולעיבוד הנתונים:

    • Knowledge Catalog

      • החיוב על סריקות גילוי מבוסס על מק"טים של עיבוד ב-Knowledge Catalog Premium (שעות DCU) עבור סריקת הבסיס וקיבוץ קבצים לא מובנים. מידע נוסף מפורט במאמר בנושא תמחור של Knowledge Catalog.

      • היבטים של מטא-נתונים שנוצרו על ידי AI, כולל פרופילים של גרפים, כרוכים בחיובים רגילים על אחסון קטלוג ב-Knowledge Catalog.

    • BigQuery ו-Dataform

      • אם משתמשים בשיטת החילוץ של צינור הנתונים, חלים חיובים רגילים על הרצת Dataform ועל עבודות BigQuery.

      • אם משתמשים בשיטת SQL, חלים חיובים רגילים על BigQuery ML‏ (ML.PROCESS_DOCUMENT) ועל עיבוד שאילתות ב-BigQuery.

      • כל הנתונים שמועברים ל-BigQuery, כולל טבלאות אובייקטים, מטא-נתונים שהמערכת מסיקה וישויות שחולצו, כרוכים בחיובים סטנדרטיים על אחסון ועל שאילתות ב-BigQuery. מידע נוסף זמין במאמר תמחור ב-BigQuery.

מבני חיוב רשמיים ייעודיים לסריקות של פרופיל נתונים עבור נתונים לא מובְנים והסקת מסקנות סמנטיות יתחילו להיות זמינים עם ההשקה הרשמית (GA).

מכסות

מכסות סטנדרטיות של משאבי DataScan ושל API חלות על כל סריקת גילוי או סריקת פרופיל נתונים. מכסת השימוש הספציפית שחלה על נפח ההיסקים הסמנטיים היא כדלקמן: מספר ההפעלות היומי הכולל של סריקות פרופיל נתונים עבור נתונים לא מובנים בטבלאות אובייקטים ב-BigQuery מוגבל ל-140 הפעלות לכל פרויקט ביום.

כשמבצעים פרופיל של נתונים לא מובְנים במהלך סריקת גילוי, חלים גם המגבלות על מספר הטבלאות שסריקת גילוי תומכת בהן. מידע נוסף זמין במאמר מכסות ומגבלות ב-BigQuery.

המאמרים הבאים