מידע על תובנות מנתונים לא מובנים

סריקה של פרופיל נתונים לנתונים לא מובְנים ב-Knowledge Catalog הופכת נתונים לא מובְנים או קבצים לא מובְנים כמו קובצי PDF ב-Cloud Storage לנכסים מובְנים שאפשר להריץ עליהם שאילתות ב-BigQuery. בעוד שכלי גילוי רגילים מוגבלים למטא-נתונים ברמת הקובץ, כמו גודל וסוג, סריקה של פרופיל נתונים לנתונים לא מובְנים שמבוססת על מודלים של Vertex AI Gemini מנתחת את תוכן הקובץ. היא מחלצת באופן אוטומטי את ההקשר העסקי שנדרש כדי להנחות סוכני AI ולהפעיל ניתוחים מתקדמים.

האוטומציה הזו מבטלת את הצורך בניתוח ידני של מסמכים ובקוד ETL מותאם אישית, ומאפשרת לכם לגלות, לסווג ולהשתמש בנתונים שלא הייתה לכם גישה אליהם בעבר.

סריקה של פרופיל נתונים לנתונים לא מובְנים מנתחת את התוכן של קבצים לא מובְנים כדי לחלץ מידע ולהסיק סכימות. זה שונה מהתכונה תובנות לגבי נתונים מובְנים, שמייצרת תיאורים ושאילתות SQL על סמך המטא-נתונים של טבלאות מובְנות קיימות, וגם מפרופיל נתונים סטטיסטי רגיל, שמחשב מדדים כמו ספירת ערכי null והתפלגויות ערכים.

גילוי אוטומטי ופרופילים סמנטיים

אתם יכולים ליצור פרופיל של נתונים לא מובְנים באמצעות שני תהליכי עבודה שונים, בהתאם לנקודת ההתחלה שלכם:

  • במהלך סריקת גילוי ב-Cloud Storage: סריקת גילוי מאתרת באופן אוטומטי את הקבצים הלא מובנים שלכם ב-Cloud Storage ומקטלגת אותם לטבלאות אובייקטים אחת או יותר ב-BigQuery לצורך ניתוח. טבלת אובייקטים היא טבלה לקריאה בלבד של אובייקטים של נתונים לא מובנים ששוכנים ב-Cloud Storage. כשמריצים סריקת גילוי עם האפשרות הפעלת הסקה סמנטית מופעלת, היא משמשת כנקודת הכניסה האוטומטית ליצירת פרופיל של נתונים לא מובנים.

  • כסריקה עצמאית של פרופיל נתונים לנתונים לא מובנים: אם כבר יש לכם טבלאות של אובייקטים ב-BigQuery, אתם יכולים להריץ סריקה של פרופיל נתונים לנתונים לא מובנים ישירות בטבלאות האלה. בתהליך העבודה העצמאי הזה, אפשר גם להנחות את החילוץ באמצעות הנחיה מותאמת אישית במפרט של DataScan.

כשמבצעים פרופיל של נתונים לא מובנים (באופן אוטומטי במהלך סריקת גילוי או כסריקה עצמאית), המערכת רושמת את טבלאות האובייקטים כרשומות ב-Knowledge Catalog. רשומה מייצגת נכס נתונים שאת המטא-נתונים שלו אתם מתעדים. כשנוצרות כמה טבלאות בעקבות סריקת גילוי, לכל רשומה יש כרטיסיית תובנות משלה. אחרי כן תוכלו לפתוח את הרשומה הזו כדי לעיין בתובנות הנתונים שנוצרו. המערכת מבצעת את הפעולות הבאות:

  1. מזהה ומקבץ קבצים (בסריקת גילוי בלבד). מזהה ומארגן באופן אוטומטי קבצים לא מובנים ב-Cloud Storage בטבלאות אובייקטים. טבלאות האובייקטים האלה הן טבלאות לקריאה בלבד שמספקות ממשק מובנה לנתונים לא מובנים.

  2. מבצע סריקה של פרופיל נתונים לנתונים לא מובנים. משתמש במודלים של Vertex AI Gemini כדי לנתח את התוכן בקבצים, להבין את המשמעות והמבנה שלהם. זה כולל הסקת ישויות, שמשתמשת ב-AI גנרטיבי כדי לחלץ מאפיינים ספציפיים, למשל Company, Product או Serial Number, מתוכן הקובץ. זה כולל גם חילוץ קשרים, שמזהה איך הישויות האלה מתקשרות, למשל Component is_part_of Product, כדי ליצור גרף סמנטי. אם אתם מריצים סריקה של פרופיל עצמאי, אתם יכולים להנחות את החילוץ הזה על ידי מתן הנחיה מותאמת אישית במפרט DataScan.

  3. יצירת סכימות ופרופילים של גרפים. מספק סכימה רלציונית שנוצרה על ידי AI ומצרף היבט Graph Profile (dataplex-types.global.graph-profile) לרשומה בקטלוג שמייצגת את טבלת האובייקטים. היבטים מאפשרים לכם לתעד מטא-נתונים בתוך רשומות. היבט המטא-נתונים הזה מכיל את הסכימות המשוערות של הישויות (NodeType) והקשרים (EdgeType).

  4. העשרת המטא-נתונים. מאכלס אוטומטית את Knowledge Catalog במטא-נתונים שנוצרו על ידי AI. כך הנתונים מוכנים לחיפוש ולחילוץ.

במקום לתכנן סכימות של מסדי נתונים באופן ידני, אפשר לבצע חילוץ נתונים באמצעות SQL בלחיצה אחת או תזמור צינורות. בתהליך הזה, ישויות ויחסים שנלמדו מנתונים ממומשים בפורמטים מובנים, כמו טבלאות או תצוגות פיזיות של BigQuery.

שיטות API

אתם יכולים להגדיר, להריץ ולנהל סריקות של פרופילי נתונים לנתונים לא מובנים ולרשומות הקטלוג שנוצרות מהם באמצעות השיטות הבאות של API בארכיטקטורת REST:

שיטת ה-API תיאור
projects.locations.dataScans.create יצירת סריקת גילוי (באמצעות dataDiscoverySpec) או סריקת פרופיל נתונים עצמאית לנתונים לא מובנים (באמצעות unstructuredDataProfileSpec).
projects.locations.dataScans.run מפעיל סריקה של פרופיל נתונים או סריקה של גילוי נתונים לפי דרישה, כדי לנתח קבצים לא מובנים וליצור תובנות סמנטיות.
projects.locations.dataScans.get הסוכן מאחזר את פרטי ההגדרה ואת התוצאות האחרונות של סריקת פרופיל נתונים קיים.
projects.locations.dataScans.jobs.list מוצגת רשימה של משימות סריקה היסטוריות של סריקת פרופיל נתונים ספציפי או סריקת גילוי.
projects.locations.dataScans.jobs.get שליפת תוצאות מפורטות של הרצה ויומנים של משימת סריקה ספציפית של פרופיל נתונים.
projects.locations.entryGroups.entries.get מאחזר רשומה בקטלוג שמייצגת טבלת אובייקטים, כולל היבטים של מטא-נתונים שנוצרו על ידי AI שמצורפים אליה (כמו GraphProfile).
projects.locations.entryGroups.entries.patch עדכון של רשומה בקטלוג כדי לצרף, לשנות או לאצור היבטים של מטא-נתונים (כמו dataplex-types.global.graph-profile).

תרחישים לדוגמה

אתם יכולים להשתמש בסריקות של פרופיל הנתונים לנתונים לא מובְנים למטרות שונות בתחומים שונים בתעשייה, כולל:

  • הגדרת צינור עיבוד נתונים ונורמליזציה של אפס ETL. החלפת מנתחי נתונים מותאמים אישית בהצעה אוטומטית של סכימה ופריסה בלחיצה אחת כדי להפוך נתונים לטבלאות, לתצוגות או לגרפים סמנטיים ב-BigQuery, וכך להקל על חילוץ נתונים מ-Cloud Storage ל-BigQuery.

    לדוגמה, בתחום המסחר האלקטרוני והקמעונאות, פלטפורמת מסחר יכולה לבצע נורמליזציה אוטומטית של חשבוניות ושל הזמנות רכש של ספקים במאות פריסות שונות של קובצי PDF, ולהפוך אותן לסכימת BigQuery מגובשת ומאוחדת (מיפוי של Unit Pr., Price/Pkg ו-Item Cost לעמודה אחת של Unit_Price) בלי לכתוב קוד ניתוח מותאם אישית. בתחום הבריאות, ביוסטטיסטיקאים יכולים להזין פרוטוקולים של ניסויים קליניים רב-מרכזיים וטפסים של דוחות מקרים (CRF) לטבלאות מובנות לניתוח קבוצות משתמשים.

  • סיווג תוכן ואימות. קיבוץ אוטומטי של נתונים לא מובנים לנכסים שאפשר לחפש בהם, עם מטא-נתונים שנוצרו על ידי AI. כך מנהלי נתונים יכולים לבצע אימות ומעקב של ישויות שחולצו, בהיקף נרחב, עם אימות אנושי.

    לדוגמה, בשירותים פיננסיים, בנק השקעות שמבצע בדיקת נאותות של מיזוגים ורכישות יכול לסווג באופן אוטומטי מאגרי מידע גדולים של חוזים היסטוריים והסכמי אשראי, ולחלץ ישויות משפטיות מורכבות (Contracting_Parties, Indemnity_Cap, Governing_Law). מנהלי נתונים יכולים לעיין בתרשים הידע החזותי בכרטיסייה תובנות כדי לזהות התחייבויות בסיכון גבוה לפני ייצוא הנתונים לדוחות למנהלים.

  • הארקה של סוכני AI. הארקה של סוכני Retrieval-Augmented Generation (יצירה משולבת-אחזור, RAG) באמצעות גרפים מאומתים. כך נוצר 'שרשרת מעקב' ברורה שמקשרת בין קבצים גולמיים לבין לוגיקה עסקית מובנית, ומצמצמת את התופעה של הזיות. כך סוכני AI יכולים לנווט בין צירופים של כמה טבלאות ללא עמימות.

    לדוגמה, בתעשיית הייצור ובפעולות תפעוליות, חברה שמייצרת מכונות כבדות יכולה לחלץ קשרים בין ציודים מיומני תחזוקה ומדוחות על אירועים שנרשמו בשטח במשך עשרות שנים בפורמט לא מובנה. כשמגיע טכנאי לאתר ושואל סוכן AI בממשק שיחה איך לפתור ירידה לא אופיינית בלחץ הידראולי, הסוכן משתמש בתרשים הקשרים המאומת (Error_Code indicates_failure Hydraulic_Valve) כדי לספק תוכנית תיקון מדויקת עם הוראות מפורטות, תוך ציטוט של דוח האירוע ההיסטורי המדויק.

מגבלות

לפני שמשתמשים בסריקות של פרופיל נתונים לנתונים לא מובנים, חשוב לעיין במגבלות הבאות:

  • פורמטים נתמכים סריקות לגילוי נתונים מזהות ומקבצות באופן אוטומטי סוגים שונים של קבצים לא מובְנים בטבלאות של אובייקטים ב-BigQuery, אבל מנוע ההיסק הסמנטי של סריקות פרופיל נתונים לנתונים לא מובְנים מותאם בעיקר למסמכי PDF.

  • מיקומים. סריקות של פרופיל נתונים לנתונים לא מובנים זמינות רק במיקומים שתומכים במודלים של Vertex AI Gemini 2.5 Pro (לדוגמה, us-central1,‏ europe-west1,‏ asia-southeast1). רשימת האזורים הנתמכים מופיעה בקטע אזורים נתמכים במאמר Gemini 2.5 Pro. סריקות שנוצרו באזורים לא נתמכים מחזירות שגיאות אימות או שגיאות הפעלה.

  • היקף המשאבים. סריקות של פרופיל נתונים לנתונים לא מובנים פועלות רק על טבלאות אובייקטים ב-BigQuery. הם לא תומכים בטבלאות מובנות רגילות של BigQuery, בטבלאות חיצוניות עם נתונים מובנים או בתצוגות מפורטות של BigQuery.

תמחור

במהלך שלב טרום-ההשקה הציבורית, סריקות של פרופיל נתונים לנתונים לא מובנים זמינות לניסוי ולבדיקה בתנאי קידום מכירות מיוחדים:

  • היסק סמנטי. אין חיוב על שימוש במודלים של Vertex AI Gemini כדי לחלץ מידע סמנטי ולהסיק פרופילים של גרפים במהלך סריקות גילוי לאורך תקופת התצוגה המקדימה.

  • עלויות משאבים בסיסיות. חלים חיובים רגילים על המשאבים שנדרשים לאחסון ולעיבוד הנתונים:

    • Knowledge Catalog

      • החיוב על סריקות לגילוי מתבסס על מק"טים של עיבוד ב-Knowledge Catalog Premium (שעות DCU) עבור הסריקה הבסיסית וקיבוץ של קבצים לא מובנים. מידע נוסף זמין במאמר בנושא תמחור של Knowledge Catalog.

      • היבטים של מטא-נתונים שנוצרו על ידי AI, כולל פרופילים של גרפים, כרוכים בחיובים רגילים על אחסון קטלוג ב-Knowledge Catalog.

    • BigQuery ו-Dataform

      • אם משתמשים בשיטת החילוץ של צינור הנתונים, חלים חיובים רגילים על הרצת Dataform ועל עבודות BigQuery.

      • אם משתמשים בשיטת SQL, חלים חיובים רגילים על BigQuery ML‏ (ML.PROCESS_DOCUMENT) ועל עיבוד שאילתות ב-BigQuery.

      • כל הנתונים שנוצרו ב-BigQuery, כולל טבלאות אובייקטים, מטא-נתונים שהמערכת הסיקה וישויות שחולצו, כרוכים בחיובים סטנדרטיים על אחסון ועל שאילתות ב-BigQuery. מידע נוסף זמין במאמר בנושא תמחור ב-BigQuery.

מבני חיוב רשמיים ייעודיים לסריקות של פרופיל נתונים עבור נתונים לא מובְנים והסקת מסקנות סמנטיות יתחילו להיות זמינים עם ההשקה הרשמית (GA).

מכסות

מכסות סטנדרטיות של משאבי DataScan ושל API חלות על כל סריקת גילוי או סריקת פרופיל נתונים. מכסת השימוש הספציפית שחלה על נפח ההיסקים הסמנטיים היא כדלקמן: מספר ההפעלות היומי הכולל של סריקות פרופיל נתונים עבור נתונים לא מובנים בטבלאות אובייקטים ב-BigQuery מוגבל ל-140 הפעלות לכל פרויקט ביום.

כשמבצעים פרופיל של נתונים לא מובנים במהלך סריקת גילוי, חלים גם המגבלות על מספר הטבלאות שסריקת גילוי תומכת בהן. למידע נוסף, אפשר לעיין במאמר בנושא מכסות ומגבלות ב-BigQuery.

המאמרים הבאים