Looker Blocks הם מודלים מוכנים מראש של נתונים לדפוסי ניתוח נפוצים ולמקורות נתונים. אפשר לעשות שימוש חוזר בעבודה שאחרים כבר עשו במקום להתחיל מאפס, ואז להתאים אישית את הבלוקים לפי המפרט המדויק שלכם. ממערכות אופטימליות של SQL ועד למודלים מפורטים של נתונים, אפשר להשתמש ב-Looker Blocks כנקודת התחלה ליצירת מודלים מהירים וגמישים של נתונים ב-Looker.
אפשר לקבל Blocks כדי להתאים אישית ולהוסיף למכונה של Looker ממגוון מקורות, כולל:
- Looker Marketplace עצמאי, שבו אפשר לעיין ב-Blocks ולגשת לקוד המקור שלהם.
- Looker Marketplace שאפשר לגשת אליו ממכונת Looker. ב-Marketplace הזה אפשר לעיין ב-Looker Blocks – שנקראים 'מודלים' – ולהתקין אותם ישירות במופע Looker שלכם. מידע נוסף על התקנת כלים מ-Looker Marketplace זמין במאמר שימוש ב-Looker Marketplace.
סוגים של Looker Blocks
Looker Blocks מציע מגוון יכולות, למשל:
בלוקים של נתונים, שכוללים גם מערכי נתונים ציבוריים וגם מודלים מלאים של LookML, מחייבים העתקה של מודל LookML ממאגר GitHub כדי לגשת לטבלאות המודל. אי אפשר להתאים אישית את הבלוקים האלה. הוראות מפורטות מופיעות בקטע שימוש בבלוקים של נתונים בדף הזה.
אפליקציות לאיסוף נתונים, כמו Segment ו-Snowplow, עוקבות אחרי אירועים בפורמט סטנדרטי יחסית. כך אפשר ליצור דפוסי עיצוב מבוססי-תבניות – עם יכולות של ניקוי נתונים, טרנספורמציה וניתוח – שכל לקוח יכול להשתמש בהם באמצעות האפליקציות האלה.
באפליקציות אינטרנט אחרות – כמו Salesforce – אפשר להוסיף שדות בהתאמה אישית למשתמשים הפנימיים. כמובן שהנתונים שמתקבלים הם בפורמט פחות סטנדרטי. כתוצאה מכך, אנחנו יכולים להשתמש בתבנית של חלק ממודל הנתונים כדי להפעיל את הניתוח, אבל תצטרכו להתאים אישית את החלק הלא סטנדרטי.
יש גם בלוקים של תובנות עסקיות כלליות. הבלוקים האלה הם דפוסי עיצוב אופטימליים של SQL או LookML, שלא תלויים במקור הנתונים. לדוגמה, חברות רבות ירצו לנתח את ערך הלקוח לטווח הארוך לאורך זמן. יש כמה הנחות מובנות בדפוסים האלה, אבל אפשר להתאים אותם לצרכים העסקיים הספציפיים שלכם. הדפוסים האלה משקפים את נקודת המבט של Looker לגבי הדרך הטובה ביותר לבצע סוגים מסוימים של ניתוחים.
אפשר לעיין ב-Looker Blocks בספרייה של המופע הציבורי של Looker Marketplace בכתובת marketplace.looker.com.
התקנה של בלוק של Looker
כדי להתקין Looker Block מ-Marketplace שמשויך למכונה של Looker, פועלים לפי ההוראות במאמר בנושא התקנת כלי מ-Marketplace.
כדי להתקין בלוק של Looker מ-marketplace.looker.com, פועלים לפי ההוראות בקוד המקור של הבלוק.
לכל בלוק של Looker יש הוראות שימוש ספציפיות.
סטנדרטיזציה והתאמה אישית
מידת ההתאמה האישית שתידרש לכם עשויה להיות תלויה במידת התקנון של סכימת מסד הנתונים שלכם. ברוב ה-Looker Blocks נדרשת התאמה אישית מסוימת כדי להתאים לסכימת הנתונים שלכם.
בחלק מהבלוקים מוצגים גם ניתוחים וגם תצוגות באותו קובץ. השיטה הזו נועדה להקל על הצפייה, אבל בדרך כלל מומלץ להעתיק את החלקים הרלוונטיים של LookML למקומות המתאימים במודל הנתונים. מידע נוסף זמין בדף התיעוד בנושא סוגי קבצים בפרויקט של LookML.
במקרים מסוימים, יכול להיות שתצטרכו ליצור קובצי LookML חדשים במודל הנתונים כדי להכיל את הדוגמאות.
שימוש בבלוקים של נתונים
בלוקי נתונים הם סוג מיוחד של בלוק של Looker שמספק את קבוצת הנתונים וגם את מודל הנתונים. בלוקי הנתונים כוללים מקורות נתונים ציבוריים, כמו:
- נתונים דמוגרפיים: מדדים דמוגרפיים נפוצים מתוך American Community Survey ברמת המדינה, המחוז, אזור המיקוד ואפילו ברמת קבוצת משנה של בלוקים במפקד האוכלוסין.
- נתוני מזג אוויר: דיווח על מזג האוויר בארצות הברית ברמת המיקוד, משנת 1920 עד היום הקודם. הבלוק הזה מתעדכן מדי לילה.
התהליך של גישה למערך נתונים של בלוק נתונים משתנה בהתאם לסכימת מסד הנתונים. בקטעים הבאים מפורטות הוראות לגישה למערכי נתונים במסדי הנתונים האלה:
גישה למערכי נתונים ב-Google BigQuery
אם יש לכם חשבון קיים ב-Google BigQuery, תוכלו לגשת למערכי נתונים שמתארחים ב-BigQuery דרך Looker. אפשר לדלג לקטע הוספת בלוקים של נתונים לפרויקטים בדף הזה.
אם עדיין אין לכם חשבון Google BigQuery, אתם יכולים להגדיר תקופת ניסיון בחינם ואז לגשת למערכי הנתונים הציבוריים של Looker ב-BigQuery.
גישה למערכי נתונים במסדי נתונים אחרים
נתונים שעברו טרנספורמציה עבור מערכי נתונים של Amazon Redshift, MySQL, PostgreSQL או Oracle זמינים לציבור גם ב Google Cloud שירות וגם ב-S3, כך שתוכלו לייבא אותם ישירות למסד הנתונים שתבחרו.
בנוסף, הוספנו את שפת הגדרת הנתונים (DDL) לכל אחד ממערכי הנתונים במאגר GitHub. יכול להיות שתצטרכו לשנות את הצהרות ה-DDL בהתאם לסוגי הנתונים במסד הנתונים שבחרתם, אבל הן אמורות לתת לכם מושג לגבי סוגי העמודות בכל טבלה.
אפשר להוריד נתונים ישירות מאחד מהמקומות הבאים:
- Google Cloud Service:
_gs://looker-datablocks/_ - S3:
_s3://looker-datablocks/_ - קישור לאינטרנט של S3 Bucket: http://looker-datablocks.s3-website-us-east-1.amazonaws.com/
גישה למודל LookML
אפשר ליצור Fork של אחד מהמאגרים שלנו ב-GitHub למאגר חדש ב-GitHub (שמתארח ב-Looker או בחברה שלכם), ואז להרחיב או לשפר אותו במופע שלכם:
- נתונים דמוגרפיים (American Community Survey) – https://github.com/llooker/datablocks-acs
- מזג אוויר (GSOD) – https://github.com/llooker/datablocks-gsod
הוספת בלוקים של נתונים לפרויקטים
בנוסף לשיטה שמתוארת בקטע הזה, אפשר גם להשתמש בשיפורים ב-LookML כדי להוסיף ל-LookML של תצוגות וניתוחים בפרויקטים.
כדי להוסיף בלוק נתונים לפרויקט:
מוסיפים פרויקט חדש למופע Looker.
מבצעים Fork או מעתיקים את המאגרים ב-GitHub שצוינו קודם כדי לגשת ל-LookML מוכן מראש. חשוב ליצור מאגר חדש ב-GitHub.
מסירים מהמאגר קבצים אחרים של דיאלקטים של מסדי נתונים. בלוקים של Looker בדרך כלל יכילו קבצים ל-Google BigQuery, ל-Amazon Redshift ול-Snowflake. לדוגמה, אם אתם מגדירים בלוקי נתונים ב-Google BigQuery, תצטרכו רק את קובצי התצוגה של Google BigQuery, את קובץ ה-Explore של Google BigQuery ואת קובץ המודל של Google BigQuery.
מחליפים את שם החיבור בקובץ המודל בחיבור למסד הנתונים שבו נמצאים הנתונים של בלוקי הנתונים. אם אתם משתמשים ב-Google BigQuery או ב-Snowflake, השתמשו בחיבור למסד הנתונים שממנו תרחיבו או תדייקו את הנתונים.
כל הלוגיקה של הצירוף נמצאת בקובץ
.exploreבכל אחד מהמאגרים. זה הקובץ שתכללו בשלבים הבאים, אחרי שתגדירו את מניפסט הפרויקט.בפרויקט הראשי של Looker שבו רוצים להרחיב או לשפר את בלוקי הנתונים, יוצרים קובץ מניפסט של הפרויקט.
כדי להפנות לבלוקים של נתונים בפרויקט Looker הראשי, מוסיפים את קוד LookML הבא לקובץ המניפסט של הפרויקט:
project_name: "<your_project_name\>"
local_dependency: {
project: "<project_name_of_datablock\>"
}
שיקולים ואפשרויות להגדרה
Google BigQuery: חשוב להשתמש בקבוצה הנכונה של קבצים שעברו מודלים. אם אתם משתמשים ב-Google BigQuery, כדאי להפנות לכל הקבצים עם _bq_ בשם הקובץ. יכול להיות שתצטרכו להתאים את הדיאלקטים של מודל Google BigQuery לדיאלקט של מסד הנתונים שלכם.
תוספים: הגדרנו את כל הפרויקטים שלנו כך שיאפשרו תוספים מקבצים של Explore, כי תוספים של מודלים עלולים לגרום לבעיות בכמה חיבורים.
צירוף טבלאות נגזרות: מומלץ לעיין במסמכי העזרה בנושא טבלאות נגזרות מבוססות LookML (NDT). אתם יכולים לאפשר ל-Looker לכתוב בשבילכם SQL ברמות שונות של צבירה במערכי הנתונים שזמינים לציבור, ולצרף אותם למודל שלכם.
מיזוג של קבוצות תוצאות: אפשר גם למזג קבוצות תוצאות מקבוצות הנתונים שלנו עם הנתונים שלכם על ידי שילוב של קבוצות תוצאות של שאילתות.
דוגמה להגדרה של מערך נתונים דמוגרפי
כדי לגשת לנתונים, אפשר להוריד נתונים גולמיים מ-S3 או מדליים של שירותים, או להתחבר למסד נתונים של Looker. Google Cloud
מייבאים את המודל Demographic Data Block מ-LookML כפרויקט נפרד במופע Looker.
כדי להציג את קובץ התצוגה, משתמשים בפרמטר
include.אחר כך אפשר להרחיב או לשפר את קובץ התצוגה, או להשתמש בטבלאות נגזרות מקוריות כדי לקבל נתונים ברמת הצבירה שנדרשת לניתוחים.
בדוגמה שלנו, נתוני הדמוגרפיה נמצאים ברמת צבירה שונה מזו של מערך הנתונים של המסחר האלקטרוני (קבוצת בלוקים לעומת אזור מיקוד). לכן, אנחנו משתמשים בטבלאות נגזרות מובנות כדי לצבור את הנתונים לרמת אזור המיקוד. כך נמנעים מצירופים מסובכים של הרבה-להרבה:
include: "/american_community_survey/bq.explore" view: zipcode_income_facts { derived_table: { persist_for: "10000 hours" explore_source: fast_facts { column: ZCTA5 { field: tract_zcta_map.ZCTA5 } column: income_household { field: bg_facts.avg_income_house } column: total_population { field: bg_facts.total_population } } } dimension: ZCTA5 {} dimension: income_household { hidden: yes }מיזוג קבצים לתצוגה במודל:
include: "acs*.view" explore: order_items { join: users { sql_on: ${users.id} = ${order_items.user_id} ;; type: left_outer relationship: many_to_one } join: zipcode_income_facts { sql_on: ${users.zip} = ${zipcode_income_facts.ZCTA5} ;; type: left_outer relationship: many_to_one } }