ניתוח נתוני שיחות ב-BigQuery מאפשר לכם להריץ שאילתות על נתונים בפורמט פתוח באמצעות הנחיות בשפה טבעית. היכולת הזו מתבססת על קטלוג זמן הריצה של Lakehouse בתוך Lakehouse for Apache Iceberg כדי למפות אוטומטית את השאלות שלכם לסכימות הבסיסיות של הטבלאות. כך תוכלו ליצור ולהריץ שאילתות SQL בלי לכתוב את הקוד באופן ידני.
כשמגדירים את השאילתות, אפשר להשתמש בסוכני נתונים כדי לספק מילוני מונחים עסקיים והוראות למערכת, וכך לשפר את הדיוק.
איך ניתוח נתונים של שיחות עובד
ניתוח נתונים בממשק שיחה משתמש במודלים גדולים של שפה (LLM) כדי להבין את השאלות שלכם בשפה טבעית ולמפות אותן לסכימה של הטבלאות. התהליך כולל את השלבים הבאים:
- גילוי סכימות: המערכת מאחזרת מטא-נתונים מקטלוג זמן הריצה של Lakehouse כדי להבין את מבני הטבלאות, שמות העמודות וסוגי הנתונים.
- יצירת SQL: מודל ה-LLM יוצר שאילתת SQL שתואמת למנוע BigQuery ולפורמט הנתונים הבסיסי.
- ביצוע: מערכת BigQuery מריצה את שאילתת ה-SQL שנוצרה ישירות על הנתונים בפורמט הפתוח ב-Lakehouse של Google Cloud.
- תשובה: התוצאות מוחזרות לממשק השיחה, ולעתים קרובות מלוות בסיכום או בהמחשה.
מידע נוסף על ניתוח נתונים בשיחה, כמו ניהול סוכני נתונים, תמחור או שיטות מומלצות, זמין במאמר סקירה כללית על ניתוח נתונים בשיחה.
פורמטים נתמכים
ניתוח נתונים שיחתי מתרגם את השאלות שלכם בשפה טבעית לשאילתות SQL. הוא תומך בפורמטים של טבלאות פתוחות שנתמכים בקטלוג של Lakehouse runtime, כמו טבלאות Apache Iceberg.
לפני שמתחילים
כדי לשלוח שאילתות על הנתונים, צריך לרשום את הטבלאות החיצוניות בקטלוג של זמן הריצה של Lakehouse. קטלוג זמן הריצה של Lakehouse משמש כמרכז מאוחד שמקשר את BigQuery Studio לנתונים החיצוניים בפורמט פתוח. אחרי הקישור, הטבלאות הופכות לנכסים שאפשר לגלות ב-BigQuery.
שליחת שאילתות לטבלאות באמצעות ניתוח נתונים בשיחה
במסוף Google Cloud , עוברים אל BigQuery Studio Agents Hub.
יוצרים סוכן נתונים או מתחילים שיחה ישירה עם סוכן נתונים קיים.
בוחרים את הטבלאות.
מכיוון שהקטלוג של Lakehouse runtime מאחד את כל הפורמטים השונים האלה, חוויית הגילוי זהה לחיפוש טבלאות BigQuery רגילות.
חיפוש: כשמוסיפים את מקור הידע, מחפשים את שמות הטבלאות בממשק החיפוש והבחירה של הטבלאות. אפשר להשתמש במילות מפתח לחיפוש כדי לסנן את התוצאות, כולל:
TABLE_NAMEcatalog: CATALOG_NAMEproject: PROJECT_IDnamespace: NAMESPACE_NAME
אימות המקור: שימו לב לחלק של מערך הנתונים בשם המלא. בדרך כלל, טבלאות שנוצרו על ידי מקורות חיצוניים ומנוהלות על ידי קטלוג זמן הריצה של Lakehouse יהיו בפורמט שמשלב את הקטלוג ואת מרחב השמות. לדוגמה:
PROJECT_ID.biglake_catalog.finance_namespace.my_iceberg_tableאוPROJECT_ID.sap_catalog.sales.delta_table.בחירה: הוספת הטבלה שנבחרה להקשר הפעיל של השיחה.
לשאול שאלות בשפה טבעית. המערכת מתרגמת אוטומטית את ההנחיה לשאילתת SQL מאוחדת.
שיפור הדיוק של השאילתות
כדי לעזור לניתוח שיחות להבין טוב יותר את הסכימות והטרמינולוגיה שלכם, אפשר להשתמש באפשרויות ההגדרה של סוכן הנתונים. האפשרויות האלה כוללות מילוני מונחים עסקיים, שאילתות SQL מאומתות והוראות למערכת.
המאמרים הבאים
- מידע נוסף על ניתוח נתוני שיחות ב-BigQuery
- איך רושמים טבלאות חיצוניות בקטלוג של Lakehouse runtime
- מידע נוסף על סוכני נתונים