Amazon Athena

‫Looker תומך בחיבורים ל-Amazon Athena, שירות שאילתות אינטראקטיבי שמאפשר לנתח נתונים ב-Amazon S3 באמצעות SQL סטנדרטי. ‫Amazon Athena הוא שירות ללא שרתים, כך שאין תשתית לניהול. החיוב מתבצע רק על השאילתות שמופעלות.

הצפנה של תנועה ברשת

מומלץ להצפין את תעבורת הנתונים ברשת בין אפליקציית Looker לבין מסד הנתונים. כדאי לשקול אחת מהאפשרויות שמתוארות בדף הפעלת גישה מאובטחת למסד נתונים.

הגדרה של חיבור ל-Amazon Athena

בדף הזה מוסבר איך לחבר את Looker למופע של Amazon Athena.

  1. חשוב לוודא שיש לכם את הפריטים הבאים:

    • זוג מפתחות גישה של Amazon AWS.
    • קטגוריית S3 שמכילה את הנתונים שרוצים להריץ עליהם שאילתות ב-Looker באמצעות Amazon Athena. למפתחות הגישה של Amazon AWS צריכה להיות גישת קריאה וכתיבה לקטגוריה הזו.

      ל-Amazon Athena צריכה להיות גישה לקטגוריית S3 הזו באמצעות תפקיד או קבוצת הרשאות, וגם באמצעות כללי חומת אש. אל תוסיפו כללי אבטחה לקטגוריית S3 עבור כתובת ה-IP של Looker, כי זה עלול לחסום בטעות את הגישה של Amazon Athena לקטגוריית S3. (בניבים אחרים מלבד Amazon Athena, יכול להיות שהמשתמשים ירצו להגביל את הגישה לנתונים משכבת הרשת באמצעות רשימת כתובות IP שאפשר לגשת אליהן, כפי שמתואר בדף התיעוד בנושא הפעלת גישה מאובטחת למסד נתונים).

    • ידע לגבי המיקום של נתוני המופע של Amazon Athena. שם האזור מופיע בפינה השמאלית העליונה של מסוף Amazon.

  2. בקטע Admin (ניהול) ב-Looker, בוחרים באפשרות Connections (חיבורים) ואז לוחצים על Add Connection (הוספת חיבור).

  3. ממלאים את פרטי החיבור:

    • שם: מציינים את שם החיבור. כך תתייחסו לחיבור בפרויקטים של LookML.
    • Dialect (ניב): בוחרים באפשרות Amazon Athena.
    • מארח ויציאה: מציינים את שם המארח והיציאה כפי שמתואר במסמכי Athena בנושא פורמט כתובת ה-JDBC. המארח צריך להיות נקודת קצה חוקית של אמזון (כמו athena.eu-west-1.amazonaws.com), והיציאה צריכה להישאר 443. רשימה עדכנית של נקודות קצה שתומכות ב-Athena זמינה בדף הזה במדריך הכללי של AWS.
    • מסד נתונים: מציינים את מסד הנתונים שרוצים להשתמש בו כברירת מחדל. אפשר לגשת למסדי נתונים אחרים, אבל Looker מתייחס למסד הנתונים הזה כאל מסד הנתונים שמוגדר כברירת מחדל.
    • שם משתמש: מציינים את מזהה מפתח הגישה של AWS.
    • סיסמה: מציינים את מפתח הגישה הסודי ל-AWS.
    • הפעלת PDTs: משתמשים במתג הזה כדי להפעיל טבלאות נגזרות קבועות (PDTs). הפעלת PDTs חושפת שדות PDT נוספים ואת הקטע PDT Overrides (שינויים ב-PDT) בחיבור.
    • Temp Database: מציינים את השם של ספריית הפלט בקטגוריית S3 שבה רוצים ש-Looker יכתוב את טבלאות ה-PDT. צריך לציין את הנתיב המלא לספריית הפלט בשדה Additional JDBC parameters. פרטים נוספים מופיעים בקטע Specifying your S3 bucket for query results output and PDTs בדף הזה.
    • מספר החיבורים המקסימלי של כלי ליצירת PDT: מציינים את מספר האפשרויות האפשריות ליצירת PDT בו-זמנית בחיבור הזה. הגדרת ערך גבוה מדי עלולה להשפיע לרעה על זמני השאילתות. מידע נוסף זמין בדף התיעוד בנושא חיבור Looker למסד הנתונים.
    • פרמטרים נוספים של JDBC: מציינים פרמטרים נוספים לחיבור:
      • הפרמטר s3_staging_dir הוא קטגוריית S3 ש-Looker צריך להשתמש בה כדי להפיק פלט של תוצאות שאילתות וטבלאות PDT. אפשר לעיין בקטע הגדרת קטגוריית S3 להפקת פלט של תוצאות שאילתות וטבלאות PDT בדף הזה.
      • סימון תוצאות של סטרימינג. אם יש לכם מדיניות athena:GetQueryResultsStream שמשויכת למשתמש שלכם ב-Athena, אתם יכולים להוסיף את הפרמטר ;UseResultsetStreaming=1 בסוף הפרמטרים הנוספים של JDBC כדי לשפר באופן משמעותי את הביצועים של חילוץ מערכי תוצאות גדולים. כברירת מחדל, הפרמטר הזה מוגדר כ-0.
      • פרמטרים אופציונליים נוספים שאפשר להוסיף למחרוזת החיבור של JDBC. רשימת הפרמטרים ש-Looker תומך בהם מופיעה בקטע פרמטרים נתמכים של JDBC בדף הזה.
    • SSL: מתעלמים. כברירת מחדל, כל החיבורים ל-AWS API מוצפנים.
    • מקסימום חיבורים לכל צומת: כברירת מחדל, הערך הזה מוגדר כ-5. אפשר להגדיל את המספר הזה עד 20 אם Looker הוא מנוע השאילתות הראשי שפועל מול Athena. פרטים נוספים על מגבלות השירות זמינים במאמרי העזרה בנושא מגבלות השירות של Athena. מידע נוסף זמין בדף חיבור Looker למסד הנתונים.
    • Connection Pool Timeout: מציינים את הזמן הקצוב לתפוגה של מאגר החיבורים. כברירת מחדל, הזמן הקצוב לתפוגה מוגדר ל-120 שניות. מידע נוסף זמין בדף חיבור Looker למסד הנתונים.
    • SQL Runner Precache (טעינה מראש של SQL Runner): מבטלים את הסימון של האפשרות הזו אם רוצים ש-SQL Runner יטען את פרטי הטבלה רק כשבוחרים טבלה. מידע נוסף זמין בדף חיבור Looker למסד הנתונים.
    • Database Time Zone (אזור זמן של מסד הנתונים): מציינים את אזור הזמן שבו נעשה שימוש במסד הנתונים. אם לא רוצים להמיר את אזור הזמן, משאירים את השדה הזה ריק. מידע נוסף מופיע בדף התיעוד בנושא שימוש בהגדרות אזור הזמן.

כדי לוודא שהחיבור בוצע בהצלחה, לוחצים על בדיקה. מידע לפתרון בעיות זמין בדף בנושא בדיקת הקישוריות למסד הנתונים.

כדי לשמור את ההגדרות האלה, לוחצים על Connect (חיבור).

ציון של דלי S3 לפלט של תוצאות השאילתות ול-PDT

משתמשים בשדה Additional JDBC parameters בדף Connections כדי להגדיר את הנתיב ל-S3 bucket שבו Looker ישתמש לאחסון של פלט תוצאות השאילתות, וכדי לציין את השם של ספריית הפלט ב-S3 bucket שבה רוצים ש-Looker יכתוב PDT. מציינים את המידע הזה באמצעות הפרמטר s3_staging_dir.

הפרמטר s3_staging_dir JDBC הוא דרך חלופית להגדיר את המאפיין S3OutputLocation של Amazon Athena, שנדרש לחיבורי JDBC של Athena. מידע נוסף ורשימה של כל האפשרויות הזמינות של מנהל התקן JDBC זמינים במסמכי התיעוד של Athena בנושא אפשרויות של מנהל התקן JDBC.

בשדה Additional JDBC parameters (פרמטרים נוספים של JDBC), מציינים את הפרמטר s3_staging_dir בפורמט הבא:

`s3_staging_dir=s3://<s3-bucket>/<output-path>`

כאשר:

  • <s3-bucket> הוא שם קטגוריית ה-S3.
  • <output-path> הוא הנתיב שבו Looker יכתוב את הפלט של תוצאות השאילתה.

לזוג מפתחות הגישה של AWS צריכות להיות הרשאות כתיבה לספרייה <s3-bucket>.

כדי להגדיר את הספרייה שבה Looker יכתוב טבלאות PDT, מזינים את נתיב הספרייה בקטגוריית S3 בשדה Temp Database. לדוגמה, אם רוצים ש-Looker יכתוב טבלאות PDT ל-s3://<s3-bucket>/looker_scratch, צריך להזין את הערך הבא בשדה Temp Database:

`looker_scratch`

מזינים רק את הנתיב של הספרייה. ‫Looker מקבל את שם קטגוריית S3 מהפרמטר s3_staging_dir שמוזן בשדה Additional JDBC Parameters (פרמטרים נוספים של JDBC).

שיקולים לגבי קטגוריות S3

מומלץ להגדיר מחזורי חיים של אובייקטים ב-Amazon S3 כדי לנקות באופן תקופתי קבצים לא נחוצים בקטגוריית S3 שצוינה. יש לכך כמה סיבות:

  • ‫Athena שומרת את תוצאות השאילתות של כל שאילתה בקטגוריה ב-S3. מידע נוסף על שאילתות ב-Athena
  • אם הפעלתם PDT, כש-PDT נוצר, המטא-נתונים לגבי הטבלה שנוצרה מאוחסנים בקטגוריית S3.

משאבים

פרמטרים נתמכים של JDBC

ב-Amazon Athena, ‏ Looker תומך בפרמטרים הבאים של JDBC בשדה Additional JDBC parameters של החיבור. מידע על הפרמטרים האלה זמין במסמכי התיעוד של מסד הנתונים.

  • ApplicationName
  • AwsCredentialsProviderArguments
  • AwsCredentialsProviderClass
  • AwsRegion
  • Catalog
  • Database
  • EnableResultReuseByAge
  • EndPointOverride
  • LogLevel
  • MaxQueryExecutionPollingInterval
  • maxResultReuseAgeInMinutes
  • MetadataRetrievalMethod
  • MinQueryExecutionPollingInterval
  • OutputLocation
  • password
  • ProxyHost
  • ProxyPort
  • ProxyPWD
  • ProxyUID
  • QueryExecutionPollingIntervalMultiplier
  • Region
  • ResultFetcher
  • ResultReuseByAgeConfiguration
  • s3_staging_dir
  • S3OutputEncOption
  • S3OutputLocation
  • Schema
  • user
  • UseResultsetStreaming
  • WorkGroup

תמיכה בתכונות

כדי ש-Looker יתמוך בתכונות מסוימות, הדיאלקט של מסד הנתונים שלכם צריך לתמוך בהן גם כן.

‫Amazon Athena תומך בתכונות הבאות החל מ-Looker 26.10:

תכונה האם יש תמיכה?
Looker (Google Cloud core)‎
צבירה סימטרית
טבלאות נגזרות
טבלאות נגזרות מתמידות שמבוססות על SQL
טבלאות נגזרות מתמידות מבוססות LookML
תצוגות יציבות
ביטול שאילתה
טבלאות ציר שמבוססות על SQL
אזורי זמן
SSL
סכומי ביניים
פרמטרים נוספים של JDBC
תלוי אותיות רישיות
סוג מיקום
סוג הרשימה
מאון
אחוזון נפרד
SQL Runner Show Processes
SQL Runner Describe Table
SQL Runner Show Indexes
SQL Runner Select 10
מספר הפעמים שהופעל SQL Runner
SQL Explain
פרטי כניסה של OAuth 2.0
תגובות להוספת הקשר
איגום חיבורים
רישומים מסוג HLL
מודעות מצטברת
המרות מצטברות של PDT
אלפיות שנייה
מיקרו-שניות
תצוגות מהותיות
מדדים של השוואה בין תקופות שונות
ספירה משוערת של ערכים ייחודיים
מודלים אנליטיים בתוך מסד הנתונים
יומנים בהתאמה אישית

השלבים הבאים

אחרי שמסיימים את הקישור למסד הנתונים, מגדירים את אפשרויות האימות.