המדריך הזה יעזור לכם להבין, לפרוס ולהשתמש בפתרון מחסן נתונים עם BigQuery של Jump Start. הפתרון הזה מדגים איך אפשר לבנות מחסן נתונים ב- Google Cloud באמצעות BigQuery כמחסן הנתונים, ו-Looker Studio ככלי ליצירת לוחות בקרה והמחשה ויזואלית. בפתרון נעשה שימוש גם ביכולות ה-AI הגנרטיבי של Vertex AI כדי ליצור טקסט שמסכם את הניתוח.
תרחישים נפוצים שבהם כדאי לבנות מחסן נתונים:
- צבירה ויצירה של מחסני נתונים לניתוח שוק כדי לשפר את ההכנסות או מדדים אחרים שקשורים ללקוחות.
- יצירת דוחות וניתוחים פיננסיים.
- יצירת מרכזי בקרה תפעוליים לשיפור הביצועים של החברה.
המסמך הזה מיועד למפתחים שיש להם רקע בניתוח נתונים והשתמשו במסד נתונים כדי לבצע ניתוח. ההנחה היא שאתם מכירים מושגי ענן בסיסיים, אבל לא בהכרח Google Cloud. ניסיון ב-Terraform מועיל אבל לא נדרש כדי לפרוס את הפתרון הזה דרך המסוף.
מטרות
- נלמד איך הנתונים זורמים למחסן נתונים בענן, ואיך אפשר לבצע טרנספורמציה של הנתונים באמצעות SQL.
- ליצור לוחות בקרה מהנתונים כדי לבצע ניתוח נתונים.
- מתזמנים הצהרות SQL לעדכון נתונים במחזוריות קבועה.
- יצירת מודל למידת מכונה לחיזוי ערכי נתונים לאורך זמן.
- משתמשים ב-AI גנרטיבי כדי לסכם את התוצאות של מודל למידת המכונה.
המוצרים שהשתמשו בהם
הפתרון מתבסס על המוצרים הבאים: Google Cloud
- BigQuery: מחסן נתונים (data warehouse) מנוהל עם יכולת התאמה רחבה במיוחד, שכולל יכולות מובנות של למידת מכונה.
- Cloud Storage: שירות מוכן לשימוש בארגונים שמספק אחסון אובייקטים ללא הגבלה בעלות נמוכה, עבור סוגים שונים של נתונים. הגישה לנתונים אפשרית מתוךGoogle Cloud ומחוצה לו, והם משוכפלים בצורה גיאוגרפית יתירה.
- Looker Studio: פלטפורמה לבינה עסקית בשירות עצמי, שעוזרת לכם ליצור ולשתף תובנות מנתונים.
- Vertex AI: פלטפורמה ללמידת מכונה (ML) שמאפשרת לאמן ולפרוס מודלים של ML ואפליקציות AI.
המוצרים הבאים Google Cloud משמשים להכנת נתונים בפתרון לשימוש ראשון:
- תהליכי עבודה: פלטפורמת תזמור מנוהלת במלואה שמבצעת שירותים בסדר מסוים כתהליך עבודה. בתהליכי עבודה אפשר לשלב שירותים, כולל שירותים בהתאמה אישית שמארחים ב-Cloud Run או בפונקציות Cloud Run,Google Cloud שירותים כמו BigQuery וכל API מבוסס-HTTP.
- פונקציות Cloud Run: סביבת הרצה ללא שרת (serverless) לפיתוח ולחיבור של שירותי ענן.
ארכיטקטורה
המחסן לדוגמה שמוטמע במסגרת הפתרון הזה מנתח נתוני מסחר אלקטרוני פיקטיביים מ-TheLook כדי להבין את ביצועי החברה לאורך זמן. בתרשים הבא מוצגת הארכיטקטורה של המשאבים שהפתרון פורס. Google Cloud

תהליך הפתרון
הארכיטקטורה מייצגת זרימת נתונים נפוצה לאכלוס נתונים ולשינוי שלהם במחסן נתונים:
- הנתונים נשלחים לקטגוריה של Cloud Storage.
- Workflows מאפשרת את העברת הנתונים.
- הנתונים נטענים ל-BigQuery כטבלת BigLake באמצעות פרוצדורה מאוחסנת של SQL.
- הנתונים עוברים טרנספורמציה ב-BigQuery באמצעות פרוצדורה מאוחסנת של SQL.
- מרכזי בקרה נוצרים מהנתונים כדי לבצע ניתוח נוסף באמצעות Looker Studio.
- הנתונים מנותחים באמצעות מודל k-means שנבנה באמצעות BigQuery ML. הניתוח מזהה דפוסים נפוצים, שמסוכמים באמצעות יכולות ה-AI הגנרטיבי מ-Vertex AI דרך BigQuery.
- פונקציות Cloud Run יוצרות מחברות Python עם תוכן למידה נוסף.
עלות
כדי לקבל הערכה של עלות המשאבים שבהם נעשה שימוש בפתרון מחסן הנתונים עם BigQuery, אפשר לעיין בהערכה שחושבה מראש בGoogle Cloud מחשבון עלויות. Google Cloud
אפשר להשתמש בהערכה כנקודת התחלה לחישוב העלות של הפריסה. אפשר לשנות את האומדן כדי לשקף שינויים בתצורה שמתכננים לבצע במשאבים שמשמשים בפתרון.
האומדן המחושב מראש מבוסס על הנחות לגבי גורמים מסוימים, כולל:
- המיקומים שבהם נפרסים המשאבים. Google Cloud
משך הזמן שבו נעשה שימוש במשאבים.
האזור הגיאוגרפי לאחסון נתונים שבו הנתונים הועברו לסביבת Staging.
לפני שמתחילים
כדי לפרוס את הפתרון הזה, קודם צריך פרויקט Google Cloud וכמה הרשאות IAM.
יצירה או בחירה של Google Cloud פרויקט
כשפורסים את הפתרון, בוחרים את Google Cloud הפרויקט שבו ייפרסו המשאבים. אפשר ליצור פרויקט חדש או להשתמש בפרויקט קיים לצורך הפריסה.
אם רוצים ליצור פרויקט חדש, צריך לעשות זאת לפני שמתחילים בפריסה. שימוש בפרויקט חדש יכול לעזור לכם להימנע מהתנגשויות עם משאבים שהוקצו בעבר, כמו משאבים שמשמשים לעומסי עבודה של ייצור.
כדי ליצור פרויקט, מבצעים את השלבים הבאים:
-
Ensure that you have the Project Creator IAM role
(
roles/resourcemanager.projectCreator). Learn how to grant roles. -
In the Google Cloud console, go to the project selector page.
-
Click Create project.
-
Name your project. Make a note of your generated project ID.
-
Edit the other fields as needed.
-
Click Create.
קבלת הרשאות ה-IAM הנדרשות
כדי להתחיל בתהליך הפריסה, אתם צריכים את ההרשאות של ניהול זהויות והרשאות גישה (IAM) שמפורטות בטבלה הבאה.
אם יצרתם פרויקט חדש בשביל הפתרון הזה, יש לכם roles/owner
תפקיד בסיסי בפרויקט הזה וכל ההרשאות הנדרשות. אם לא הוקצה לכם התפקיד roles/owner, אתם צריכים לבקש מהאדמין להקצות לכם את ההרשאות האלה (או את התפקידים שכוללים את ההרשאות האלה).
| נדרשת הרשאת IAM | תפקיד מוגדר מראש שכולל את ההרשאות הנדרשות |
|---|---|
|
אדמין בשימוש בשירות ( roles/serviceusage.serviceUsageAdmin) |
|
אדמין בחשבון שירות ( roles/iam.serviceAccountAdmin) |
|
אדמין IAM בפרויקט ( roles/resourcemanager.projectIamAdmin) |
config.deployments.createconfig.deployments.list |
אדמין של Cloud Infrastructure Manager ( roles/config.admin) |
iam.serviceAccount.actAs |
משתמש בחשבון שירות ( roles/iam.serviceAccountUser) |
מידע על הרשאות זמניות לחשבון שירות
אם מתחילים את תהליך הפריסה דרך המסוף, Google יוצרת חשבון שירות כדי לפרוס את הפתרון בשמכם (וכדי למחוק את הפריסה מאוחר יותר אם תבחרו לעשות זאת). לחשבון השירות הזה מוקצות הרשאות IAM מסוימות באופן זמני, כלומר ההרשאות מבוטלות באופן אוטומטי אחרי השלמת הפריסה של הפתרון ופעולות המחיקה. Google ממליצה למחוק את חשבון השירות אחרי שמוחקים את הפריסה, כמו שמתואר בהמשך המדריך הזה.
צפייה בתפקידים שהוקצו לחשבון השירות
התפקידים האלה מפורטים כאן למקרה שאדמין של פרויקט או ארגון ב-Google Cloud יזדקק למידע הזה.
roles/aiplatform.adminroles/bigquery.adminroles/cloudfunctions.adminroles/config.agentroles/datalineage.viewerroles/dataform.adminroles/iam.serviceAccountAdminroles/iam.serviceAccountUserroles/iam.serviceAccountTokenCreatorroles/logging.configWriterroles/resourcemanager.projectIamAdminroles/run.invokerroles/serviceusage.serviceUsageAdminroles/storage.adminroles/workflows.admin
פריסת הפתרון
כדי לעזור לכם לפרוס את הפתרון הזה במאמץ מינימלי, אנחנו מספקים הגדרת Terraform ב-GitHub. ההגדרות של Terraform מגדירות את כלGoogle Cloud המשאבים שנדרשים לפתרון.
אפשר לפרוס את הפתרון באחת מהשיטות הבאות:
דרך המסוף: כדאי להשתמש בשיטה הזו אם רוצים לנסות את הפתרון עם הגדרת ברירת המחדל ולראות איך הוא עובד. Cloud Build פורס את כל המשאבים שנדרשים לפתרון. אם כבר לא צריך את הפתרון שפרסתם, אפשר למחוק אותו דרך המסוף. יכול להיות שתצטרכו למחוק בנפרד משאבים שתיצרו אחרי שתפרסו את הפתרון.
כדי להשתמש בשיטת הפריסה הזו, פועלים לפי ההוראות במאמר פריסה דרך המסוף.
שימוש ב-Terraform CLI: כדאי להשתמש בשיטה הזו אם רוצים להתאים אישית את הפתרון או אם רוצים להפוך את הקצאת המשאבים והניהול שלהם לאוטומטיים באמצעות הגישה של תשתית כקוד (IaC). מורידים את ההגדרות של Terraform מ-GitHub, משנים את הקוד לפי הצורך ופורסים את הפתרון באמצעות Terraform CLI. אחרי פריסת הפתרון, אפשר להמשיך להשתמש ב-Terraform כדי לנהל אותו.
כדי להשתמש בשיטת הפריסה הזו, פועלים לפי ההוראות במאמר פריסה באמצעות Terraform CLI.
פריסה דרך המסוף
כדי לפרוס את הפתרון שהוגדר מראש:
בקטלוג Google Cloud Jump Start Solutions, עוברים לפתרון Data warehouse with BigQuery.
בודקים את המידע שמופיע בדף, כמו העלות המשוערת של הפתרון וזמן ההטמעה המשוער.
כדי להתחיל לפרוס את הפתרון, לוחצים על פריסה.
מוצגת חלונית הגדרה עם הוראות מפורטות.
משלימים את השלבים בחלונית ההגדרה.
שימו לב לשם שהזנתם לפריסה. השם הזה נדרש בהמשך כשמוחקים את הפריסה.
כשלוחצים על פריסה, מוצג הדף פריסות של פתרונות. בשדה סטטוס בדף הזה מופיע הערך בפריסה.
ממתינים עד שהפתרון יופעל.
אם הפריסה נכשלת, בשדה סטטוס מופיע הערך נכשל. אפשר להשתמש ביומן של Cloud Build כדי לאבחן את השגיאות. מידע נוסף זמין במאמר שגיאות שמתרחשות כשפורסים דרך המסוף.
אחרי שהפריסה מסתיימת, השדה סטטוס משתנה לנפרס.
כדי לאמת את המשאבים שנפרסו, לוחצים על תפריט Actions ואז על View resources.
הדף Asset Inventory במסוף Google Cloud נפתח בכרטיסייה חדשה בדפדפן. בדף מפורטים האובייקטים של BigQuery, פונקציית Cloud Run, תהליך העבודה של Workflows, הנושא של Pub/Sub והמשאבים של טריגר Eventarc שנפרסים על ידי הפתרון.
כדי להציג את הפרטים של כל משאב, לוחצים על שם המשאב בעמודה שם לתצוגה.
כדי לראות את הפתרון ולהשתמש בו, חוזרים לדף Solution deployments במסוף.
- לוחצים על תפריט פעולות.
- בוחרים באפשרות View Looker Studio Dashboard (הצגת מרכז הבקרה ב-Looker Studio) כדי לפתוח מרכז בקרה שמבוסס על נתוני הדוגמה שעברו טרנספורמציה באמצעות הפתרון.
- בוחרים באפשרות Open BigQuery Editor (פתיחת כלי העריכה של BigQuery) כדי להריץ שאילתות וליצור מודלים של למידת מכונה (ML) באמצעות נתוני הדוגמה בפתרון.
כשאין יותר צורך בפתרון, אפשר למחוק את הפריסה כדי להימנע מחיובים נוספים על Google Cloud המשאבים. מידע נוסף זמין במאמר בנושא מחיקת הפריסה.
פריסה באמצעות Terraform CLI
בקטע הזה מוסבר איך אפשר להתאים אישית את הפתרון או להפוך את ההקצאה והניהול של הפתרון לאוטומטיים באמצעות Terraform CLI. פתרונות שפורסים באמצעות Terraform CLI לא מוצגים בדף Solution deployments במסוף Google Cloud .
הגדרת לקוח Terraform
אפשר להריץ את Terraform ב-Cloud Shell או במארח המקומי. במדריך הזה מוסבר איך להריץ את Terraform ב-Cloud Shell, שבו Terraform מותקן מראש ומוגדר לאימות באמצעות Google Cloud.
קוד ה-Terraform של הפתרון הזה זמין במאגר GitHub.
משכפלים את מאגר GitHub ל-Cloud Shell.
תוצג בקשה לאישור ההורדה של מאגר GitHub אל Cloud Shell.
לוחצים על אישור.
Cloud Shell מופעל בכרטיסיית דפדפן נפרדת, והקוד של Terraform מורד לספרייה
$HOME/cloudshell_openשל סביבת Cloud Shell.ב-Cloud Shell, בודקים אם ספריית העבודה הנוכחית היא
$HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse. זו הספרייה שמכילה את קובצי ההגדרות של Terraform לפתרון. אם אתם צריכים לעבור לספרייה הזו, מריצים את הפקודה הבאה:cd $HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouseמפעילים את Terraform באמצעות הפקודה הבאה:
terraform initמחכים עד שמופיעה ההודעה הבאה:
Terraform has been successfully initialized!
הגדרת משתני Terraform
קוד ה-Terraform שהורדתם כולל משתנים שבהם אפשר להשתמש כדי להתאים אישית את הפריסה בהתאם לדרישות שלכם. לדוגמה, אפשר לציין את הפרויקט Google Cloud ואת האזור שבהם רוצים לפרוס את הפתרון.
מוודאים שספריית העבודה הנוכחית היא
$HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse. אם לא, עוברים לספרייה הזו.באותה ספרייה, יוצרים קובץ טקסט בשם
terraform.tfvars.בקובץ
terraform.tfvars, מעתיקים את קטע הקוד הבא ומגדירים ערכים למשתנים הנדרשים.- פועלים לפי ההוראות שמופיעות כהערות בקטע הקוד.
- קטע הקוד הזה כולל רק את המשתנים שחובה להגדיר להם ערכים. התצורה של Terraform כוללת משתנים אחרים עם ערכי ברירת מחדל. כדי לבדוק את כל המשתנים ואת ערכי ברירת המחדל, אפשר לעיין בקובץ
variables.tfשזמין בספרייה$HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse. - חשוב לוודא שכל ערך שמוגדר בקובץ
terraform.tfvarsתואם לסוג המשתנה שמוצהר בקובץvariables.tf. לדוגמה, אם הסוג שמוגדר למשתנה בקובץvariables.tfהואbool, צריך לצייןtrueאוfalseכערך של המשתנה הזה בקובץterraform.tfvars.
# This is an example of the terraform.tfvars file. # The values in this file must match the variable types declared in variables.tf. # The values in this file override any defaults in variables.tf. # ID of the project in which you want to deploy the solution project_id = "PROJECT_ID" # Google Cloud region where you want to deploy the solution # Example: us-central1 region = "REGION" # Whether or not to enable underlying apis in this solution. # Example: true enable_apis = true # Whether or not to protect BigQuery resources from deletion when solution is modified or changed. # Example: false force_destroy = false # Whether or not to protect Cloud Storage resources from deletion when solution is modified or changed. # Example: true deletion_protection = true # Name of the BigQuery ML GenAI remote model used for text generation # Example: "text_generate_model" text_generation_model_name = "text_generate_model"למידע על הערכים שאפשר להקצות למשתנים הנדרשים, אפשר לעיין במאמרים הבאים:
-
project_id: זיהוי פרויקטים -
region: אזורים ואזורים גיאוגרפיים זמינים
אימות ובדיקה של הגדרות Terraform
מוודאים שספריית העבודה הנוכחית היא
$HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse. אם לא, עוברים לספרייה הזו.מוודאים שאין שגיאות בהגדרות של Terraform:
terraform validateאם הפקודה מחזירה שגיאות, מבצעים את התיקונים הנדרשים בהגדרה ומריצים שוב את הפקודה
terraform validate. חוזרים על השלב הזה עד שהפקודה מחזירה את ההודעה הבאה:Success! The configuration is valid.בודקים את המשאבים שמוגדרים בהגדרה:
terraform planאם לא יצרתם את הקובץ
terraform.tfvarsכמו שמתואר למעלה, Terraform יבקש מכם להזין ערכים למשתנים שאין להם ערכי ברירת מחדל. מזינים את הערכים הנדרשים.הפלט של הפקודה
terraform planהוא רשימה של המשאבים ש-Terraform מקצה כשמחילים את ההגדרות.אם רוצים לבצע שינויים, עורכים את ההגדרה ומריצים שוב את הפקודות
terraform validateו-terraform plan.
הקצאת המשאבים
כשאין יותר שינויים שצריך לבצע בהגדרות של Terraform, פורסים את המשאבים.
מוודאים שספריית העבודה הנוכחית היא
$HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse. אם לא, עוברים לספרייה הזו.מחילים את ההגדרות של Terraform:
terraform applyאם לא יצרתם את הקובץ
terraform.tfvarsכמו שמתואר למעלה, Terraform יבקש מכם להזין ערכים למשתנים שאין להם ערכי ברירת מחדל. מזינים את הערכים הנדרשים.ב-Terraform מוצגת רשימה של המשאבים שייווצרו.
כשמופיעה בקשה לבצע את הפעולות, מזינים
yes.ב-Terraform מוצגות הודעות שמראות את התקדמות הפריסה.
אם אי אפשר להשלים את הפריסה, Terraform מציג את השגיאות שגרמו לכשל. בודקים את הודעות השגיאה ומעדכנים את ההגדרה כדי לתקן את השגיאות. ואז מריצים שוב את הפקודה
terraform apply. אם אתם צריכים עזרה בפתרון שגיאות ב-Terraform, תוכלו לקרוא את המאמר שגיאות בפריסת הפתרון באמצעות Terraform CLI.אחרי שכל המשאבים נוצרים, מוצגת ב-Terraform ההודעה הבאה:
Apply complete!בפלט של Terraform מופיעים גם הפרטים הנוספים הבאים שתצטרכו:
- כתובת ה-URL של מרכז הבקרה שנפרס ב-Looker Studio.
- הקישור לפתיחת העורך של BigQuery לכמה שאילתות לדוגמה.
בדוגמה הבאה אפשר לראות איך הפלט נראה:
lookerstudio_report_url = "https://lookerstudio.google.com/reporting/create?c.reportId=8a6517b8-8fcd-47a2-a953-9d4fb9ae4794&ds.ds_profit.datasourceName=lookerstudio_report_profit&ds.ds_profit.projectId=my-cloud-project&ds.ds_profit.type=TABLE&ds.ds_profit.datasetId=ds_edw&ds.ds_profit.tableId=lookerstudio_report_profit&ds.ds_dc.datasourceName=lookerstudio_report_distribution_centers&ds.ds_dc.projectId=my-cloud-project&ds.ds_dc.type=TABLE&ds.ds_dc.datasetId=ds_edw&ds.ds_dc.tableId=lookerstudio_report_distribution_centers" bigquery_editor_url = "https://console.cloud.google.com/bigquery?project=my-cloud-project&ws=!1m5!1m4!6m3!1smy-cloud-project!2sds_edw!3ssp_sample_queries"כדי להציג את לוח הבקרה ולהשתמש בו, ולהריץ שאילתות ב-BigQuery, מעתיקים את כתובות ה-URL של הפלט מהשלב הקודם ופותחים את כתובות ה-URL בכרטיסיות חדשות בדפדפן.
לוח הבקרה ועורך BigQuery מופיעים בכרטיסיות החדשות.
כדי לראות את כל Google Cloud המשאבים שנפרסו, אפשר לצפות בסיור אינטראקטיבי.
כשאין יותר צורך בפתרון, אפשר למחוק את הפריסה כדי להימנע מחיובים נוספים על Google Cloud המשאבים. מידע נוסף זמין במאמר בנושא מחיקת הפריסה.
התאמה אישית של הפתרון
בקטע הזה מפורט מידע שמפתחי Terraform יכולים להשתמש בו כדי לשנות את מחסן הנתונים באמצעות פתרון BigQuery, כך שיתאים לדרישות הטכניות והעסקיות שלהם. ההנחיות בקטע הזה רלוונטיות רק אם אתם פורסים את הפתרון באמצעות Terraform CLI.
אחרי שתראו איך הפתרון עובד עם נתוני הדוגמה, יכול להיות שתרצו לעבוד עם הנתונים שלכם. כדי להשתמש בנתונים שלכם, אתם צריכים להוסיף אותם לקטגוריה של Cloud Storage בשם edw-raw-hash. הגיבוב הוא קבוצה אקראית של 8 תווים שנוצרת במהלך הפריסה. אפשר לשנות את קוד Terraform באופנים הבאים:
- מזהה קבוצת הנתונים. משנים את קוד Terraform כך שכשהקוד יוצר את מערך הנתונים ב-BigQuery, הוא משתמש במזהה מערך הנתונים שרוצים להשתמש בו בשביל הנתונים.
- סכימה. משנים את קוד Terraform כך שייווצר מזהה טבלה ב-BigQuery שבו רוצים להשתמש לאחסון הנתונים. היא כוללת את סכימת הטבלה החיצונית, כדי ש-BigQuery יוכל לקרוא את הנתונים מ-Cloud Storage.
- שאילתות מתוזמנות. מוסיפים תהליכים מאוחסנים שמבצעים את הניתוח שמעניין אתכם.
- מרכזי בקרה ב-Looker. משנים את קוד Terraform שיוצר לוח בקרה של Looker כך שיוצגו בו הנתונים שבהם אתם משתמשים.
אלה אובייקטים נפוצים במחסן נתונים, עם קוד לדוגמה של Terraform ב-main.tf.
-
מערך נתונים ב-BigQuery: הסכימה שבה אובייקטים של מסד נתונים מקובצים ומאוחסנים.
resource "google_bigquery_dataset" "ds_edw" { project = module.project-services.project_id dataset_id = "DATASET_PHYSICAL_ID" friendly_name = "DATASET_LOGICAL_NAME" description = "DATASET_DESCRIPTION" location = "REGION" labels = var.labels delete_contents_on_destroy = var.force_destroy } -
טבלה ב-BigQuery: אובייקט מסד נתונים שמייצג נתונים שמאוחסנים ב-BigQuery או שמייצג סכימת נתונים שמאוחסנת ב-Cloud Storage.
resource "google_bigquery_table" "tbl_edw_inventory_items" { dataset_id = google_bigquery_dataset.ds_edw.dataset_id table_id = "TABLE_NAME" project = module.project-services.project_id deletion_protection = var.deletion_protection ... } -
פרוצדורה מאוחסנת ב-BigQuery: אובייקט מסד נתונים שמייצג הצהרת SQL אחת או יותר שיופעלו כשקוראים להן. לדוגמה, כדי להמיר נתונים מטבלה אחת לטבלה אחרת או כדי לטעון נתונים מטבלה חיצונית לטבלה רגילה.
resource "google_bigquery_routine" "sp_sample_translation_queries" { project = module.project-services.project_id dataset_id = google_bigquery_dataset.ds_edw.dataset_id routine_id = "sp_sample_translation_queries" routine_type = "PROCEDURE" language = "SQL" definition_body = templatefile("${path.module}/assets/sql/sp_sample_translation_queries.sql", { project_id = module.project-services.project_id }) } -
שאילתה מתוזמנת ב-BigQuery: כלי לתזמון של שאילתה או של פרוצדורה מאוחסנת להרצה בתדירות מוגדרת.
resource "google_bigquery_data_transfer_config" "dts_config" { display_name = "TRANSFER_NAME" project = module.project-services.project_id location = "REGION" data_source_id = "scheduled_query" schedule = "every day 00:00" params = { query = "CALL${module.project-services.project_id}.ds_edw.sp_lookerstudio_report()" } }
כדי להתאים אישית את הפתרון, מבצעים את השלבים הבאים ב-Cloud Shell:
מוודאים שספריית העבודה הנוכחית היא
$HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse. אם הוא לא נמצא שם, עוברים לספרייה הזו:cd $HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouseפותחים את
main.tfועורכים את השינויים הרצויים.מידע נוסף על ההשפעות של התאמה אישית כזו על מהימנות, אבטחה, ביצועים, עלות ותפעול זמין במאמר המלצות לתכנון.
המלצות לעיצוב
בקטע הזה מפורטות המלצות לשימוש במחסן הנתונים עם פתרון BigQuery כדי לפתח ארכיטקטורה שעונה על הדרישות שלכם מבחינת אבטחה, מהימנות, עלות וביצועים.
כשמתחילים להרחיב את השימוש ב-BigQuery, יש כמה דרכים לשפר את ביצועי השאילתות ולהקטין את ההוצאה הכוללת. השיטות האלה כוללות שינוי של אופן האחסון הפיזי של הנתונים, שינוי של שאילתות ה-SQL ושימוש בהזמנות של משבצות כדי להבטיח ביצועים טובים מבחינת עלות. מידע נוסף על דרכים להרחבה ולהפעלה של מחסן הנתונים זמין במאמר מבוא לאופטימיזציה של ביצועי שאילתות.
שימו לב לנקודות הבאות:
- לפני שמבצעים שינויים בעיצוב, חשוב להעריך את ההשפעה על העלויות ולשקול את הפשרות הפוטנציאליות עם תכונות אחרות. אפשר להשתמש בGoogle Cloud מחשבון עלויות כדי להעריך את ההשפעה של שינויים בעיצוב על העלויות.
- כדי להטמיע שינויים בעיצוב הפתרון, צריך מומחיות בקידוד ב-Terraform וידע מתקדם ב Google Cloud שירותים שמשמשים בפתרון.
- אם אתם משנים את ההגדרות של Terraform שסופקו על ידי Google ואז נתקלים בשגיאות, אתם יכולים ליצור בעיות ב-GitHub. אנחנו בודקים את הבעיות ב-GitHub כמיטב יכולתנו, והן לא מיועדות לשאלות כלליות על השימוש.
- מידע נוסף על תכנון והגדרה של סביבות ברמת ייצור ב- Google Cloudזמין במאמרים תכנון אזור נחיתה ב- Google Cloud ורשימת משימות להגדרה שלGoogle Cloud .
מחיקת הפריסה
כדי להימנע מחיובים נוספים על המשאבים שיצרתם, מומלץ למחוק את הפריסה כשאתם כבר לא צריכים אותה.
מחיקה דרך המסוף
משתמשים בהליך הזה אם פרסתם את הפתרון דרך המסוף.
נכנסים לדף Solution deployments במסוף Google Cloud .
בוחרים את הפרויקט שמכיל את הפריסה שרוצים למחוק.
מאתרים את הפריסה שרוצים למחוק.
בשורה של הפריסה, לוחצים על פעולות ואז על מחיקה.
יכול להיות שתצטרכו לגלול כדי לראות את הפעולות בשורה.
מזינים את שם הפריסה ולוחצים על אישור.
בשדה סטטוס מוצג הערך בתהליך מחיקה.
אם המחיקה נכשלת, אפשר להיעזר בהנחיות לפתרון בעיות במאמר שגיאה במחיקת פריסה.
אם כבר לא צריך את הפרויקט שבו השתמשתם לפתרון, אפשר למחוק אותו. Google Cloud מידע נוסף זמין במאמר אופציונלי: מחיקת הפרויקט.
מחיקה באמצעות Terraform CLI
משתמשים בהליך הזה אם פרסתם את הפתרון באמצעות Terraform CLI.
ב-Cloud Shell, מוודאים שספריית העבודה הנוכחית היא
$HOME/cloudshell_open/terraform-google-bigquery/modules/data_warehouse. אם לא, עוברים לספרייה הזו.מסירים את המשאבים שהוקצו על ידי Terraform:
terraform destroyב-Terraform מוצגת רשימה של המשאבים שיוסרו.
כשמופיעה בקשה לבצע את הפעולות, מזינים
yes.ב-Terraform מוצגות הודעות שמראות את ההתקדמות. אחרי שכל המשאבים נמחקים, Terraform מציגה את ההודעה הבאה:
Destroy complete!אם המחיקה נכשלת, אפשר להיעזר בהנחיות לפתרון בעיות במאמר שגיאה במחיקת פריסה.
אם כבר לא צריך את הפרויקט שבו השתמשתם לפתרון, אפשר למחוק אותו. Google Cloud מידע נוסף זמין במאמר אופציונלי: מחיקת הפרויקט.
אופציונלי: מחיקת הפרויקט
אם פרסתם את הפתרון בפרויקט חדש ב- Google Cloud ואתם כבר לא צריכים את הפרויקט, אתם יכולים למחוק אותו. כדי לעשות את זה, צריך לבצע את השלבים הבאים:
- נכנסים לדף Manage resources במסוף Google Cloud .
- ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על Delete.
- בהנחיה, מקלידים את מזהה הפרויקט ולוחצים על Shut down (סגירה).
אם מחליטים להשאיר את הפרויקט, צריך למחוק את חשבון השירות שנוצר עבור הפתרון הזה, כמו שמתואר בקטע הבא.
אופציונלי: מחיקה של חשבון השירות
אם מחקתם את הפרויקט שבו השתמשתם כדי להפעיל את הפתרון, אפשר לדלג על הקטע הזה.
כמו שצוין קודם במדריך הזה, כשפרסתם את הפתרון, נוצר בשבילכם חשבון שירות. לחשבון השירות הוקצו הרשאות IAM מסוימות באופן זמני. כלומר, ההרשאות בוטלו באופן אוטומטי אחרי השלמת הפריסה של הפתרון ופעולות המחיקה, אבל חשבון השירות לא נמחק. מומלץ למחוק את חשבון השירות הזה.
אם פרסתם את הפתרון דרך מסוף Google Cloud , עוברים לדף Solution deployments. (אם כבר נמצאים בדף הזה, צריך לרענן את הדפדפן). תהליך מחיקת חשבון השירות מופעל ברקע. אין צורך בפעולה נוספת.
אם פרסתם את הפתרון באמצעות Terraform CLI, מבצעים את השלבים הבאים:
נכנסים לדף Service accounts במסוף Google Cloud .
בוחרים את הפרויקט שבו השתמשתם כדי ליצור את הפתרון.
בוחרים את חשבון השירות שרוצים למחוק.
מזהה האימייל של חשבון השירות שנוצר עבור הפתרון הוא בפורמט הבא:
goog-sc-DEPLOYMENT_NAME-NNN@PROJECT_ID.iam.gserviceaccount.comמזהה האימייל מכיל את הערכים הבאים:
- DEPLOYMENT_NAME: שם הפריסה.
- NNN: מספר אקראי בן 3 ספרות.
- PROJECT_ID: מזהה הפרויקט שבו פרסתם את הפתרון.
לוחצים על Delete.
פתרון בעיות במקרה של שגיאות
הפעולות שאפשר לבצע כדי לאבחן ולפתור שגיאות תלויות בשיטת הפריסה ובמורכבות השגיאה.
שגיאות בהטמעה דרך המסוף
אם הפריסה נכשלת כשמשתמשים במסוף, צריך לבצע את הפעולות הבאות:
עוברים לדף פריסות של פתרונות.
אם הפריסה נכשלה, בשדה סטטוס יופיע הערך נכשל.
צופים בפרטי השגיאות שגרמו לכשל:
בשורה של הפריסה, לוחצים על פעולות.
יכול להיות שתצטרכו לגלול כדי לראות את הפעולות בשורה.
בוחרים באפשרות הצגת יומני Cloud Build.
בודקים את היומן של Cloud Build ופועלים בהתאם כדי לפתור את הבעיה שגרמה לכשל.
שגיאות בפריסה באמצעות Terraform CLI
אם הפריסה נכשלת כשמשתמשים ב-Terraform, הפלט של הפקודה terraform
apply כולל הודעות שגיאה שאפשר לבדוק כדי לאבחן את הבעיה.
בדוגמאות שבקטעים הבאים מוצגות שגיאות פריסה שעשויות להתרחש כשמשתמשים ב-Terraform.
שגיאה: ה-API לא מופעל
אם יוצרים פרויקט ואז מנסים מיד לפרוס את הפתרון בפרויקט החדש, יכול להיות שהפריסה תיכשל ותופיע שגיאה כמו:
Error: Error creating Network: googleapi: Error 403: Compute Engine API has not
been used in project PROJECT_ID before or it is disabled. Enable it by visiting
https://console.developers.google.com/apis/api/compute.googleapis.com/overview?project=PROJECT_ID
then retry. If you enabled this API recently, wait a few minutes for the action
to propagate to our systems and retry.
אם השגיאה הזו מופיעה, צריך לחכות כמה דקות ואז להריץ שוב את הפקודה terraform apply.
שגיאה: אי אפשר להקצות את הכתובת המבוקשת
כשמריצים את הפקודה terraform apply, יכול להיות שתופיע שגיאה cannot assign requested address עם הודעה כמו זו:
Error: Error creating service account:
Post "https://iam.googleapis.com/v1/projects/PROJECT_ID/serviceAccounts:
dial tcp [2001:db8:ffff:ffff::5f]:443:
connect: cannot assign requested address
אם השגיאה הזו מופיעה, מריצים שוב את הפקודה terraform apply.
שגיאות בגישה לנתונים ב-BigQuery או ב-Looker Studio
יש שלב הקצאת משאבים שמופעל אחרי שלבי הקצאת המשאבים של Terraform, והוא טוען נתונים לסביבה. אם מופיעה שגיאה בזמן טעינת הנתונים בלוח הבקרה של Looker Studio, או אם לא מופיעים אובייקטים כשמתחילים לבחון את BigQuery, צריך להמתין כמה דקות ולנסות שוב.
שגיאה במחיקת פריסה
במקרים מסוימים, יכול להיות שהניסיונות למחוק פריסה ייכשלו:
- אחרי שמפעילים פתרון דרך המסוף, אם משנים משאב כלשהו שהוקצה על ידי הפתרון, ואז מנסים למחוק את הפריסה, יכול להיות שהמחיקה תיכשל. בשדה סטטוס בדף פריסות של פתרונות מופיע הערך נכשל, ובלוג של Cloud Build מופיע הגורם לשגיאה.
- אחרי פריסת פתרון באמצעות Terraform CLI, אם משנים משאב כלשהו באמצעות ממשק שאינו Terraform (לדוגמה, המסוף), ואז מנסים למחוק את הפריסה, יכול להיות שהמחיקה תיכשל. ההודעות בפלט של הפקודה
terraform destroyמציגות את הסיבה לשגיאה.
בודקים את יומני השגיאות וההודעות, מזהים ומוחקים את המשאבים שגרמו לשגיאה, ואז מנסים למחוק שוב את הפריסה.
אם פריסה מבוססת-מסוף לא נמחקת ואם אי אפשר לאבחן את השגיאה באמצעות יומן Cloud Build, אפשר למחוק את הפריסה באמצעות Terraform CLI, כמו שמתואר בקטע הבא.
מחיקת פריסה שמבוססת על המסוף באמצעות Terraform CLI
בקטע הזה מוסבר איך למחוק פריסה שמבוססת על המסוף אם מתרחשות שגיאות כשמנסים למחוק אותה דרך המסוף. בגישה הזו, מורידים את ההגדרות של Terraform לפריסה שרוצים למחוק, ואז משתמשים ב-Terraform CLI כדי למחוק את הפריסה.
מזהים את האזור שבו מאוחסנים קוד ה-Terraform, היומנים ונתונים אחרים של הפריסה. יכול להיות שהאזור הזה יהיה שונה מהאזור שבחרתם כשפרסתם את הפתרון.
נכנסים לדף Solution deployments במסוף Google Cloud .
בוחרים את הפרויקט שמכיל את הפריסה שרוצים למחוק.
ברשימת הפריסות, מזהים את השורה של הפריסה שרוצים למחוק.
לוחצים על הצגת כל התוכן בשורה.
בעמודה מיקום, שימו לב למיקום השני, כפי שמודגש בדוגמה הבאה:
In the Google Cloud console, activate Cloud Shell.
At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
יוצרים משתני סביבה למזהה הפרויקט, לאזור ולשם של הפריסה שרוצים למחוק:
export REGION="REGION" export PROJECT_ID="PROJECT_ID" export DEPLOYMENT_NAME="DEPLOYMENT_NAME"בפקודות האלה, מחליפים את מה שכתוב בשדות הבאים:
- REGION: המיקום שציינתם קודם בהליך הזה.
- PROJECT_ID: מזהה הפרויקט שבו פרסתם את הפתרון.
- DEPLOYMENT_NAME: השם של הפריסה שרוצים למחוק.
מאתרים את המזהה של הגרסה האחרונה של הפריסה שרוצים למחוק:
export REVISION_ID=$(curl \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://config.googleapis.com/v1alpha2/projects/${PROJECT_ID}/locations/${REGION}/deployments/${DEPLOYMENT_NAME}" \ | jq .latestRevision -r) echo $REVISION_IDהפלט אמור להיראות כך:
projects/PROJECT_ID/locations/REGION/deployments/DEPLOYMENT_NAME/revisions/r-0מוצאים את המיקום ב-Cloud Storage של ההגדרות של Terraform לפריסה:
export CONTENT_PATH=$(curl \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://config.googleapis.com/v1alpha2/${REVISION_ID}" \ | jq .applyResults.content -r) echo $CONTENT_PATHהדוגמה הבאה היא של הפלט שמתקבל מהפקודה הזו:
gs://PROJECT_ID-REGION-blueprint-config/DEPLOYMENT_NAME/r-0/apply_results/contentמורידים את ההגדרות של Terraform מ-Cloud Storage אל Cloud Shell:
gcloud storage cp $CONTENT_PATH $HOME --recursive cd $HOME/content/modules/data_warehouseממתינים עד להצגת ההודעה
Operation completed, כמו שמוצג בדוגמה הבאה:Operation completed over 45 objects/268.5 KiBמאתחלים את Terraform:
terraform initמחכים עד שמופיעה ההודעה הבאה:
Terraform has been successfully initialized!מסירים את המשאבים שנפרסו:
terraform destroyב-Terraform מוצגת רשימה של המשאבים שיוסרו.
אם מוצגות אזהרות לגבי משתנים שלא הוגדרו, אפשר להתעלם מהן.
כשמופיעה בקשה לבצע את הפעולות, מזינים
yes.ב-Terraform מוצגות הודעות שמראות את ההתקדמות. אחרי שכל המשאבים נמחקים, Terraform מציג את ההודעה הבאה:
Destroy complete!מוחקים את פריט המידע שנוצר בתהליך פיתוח (Artifact) של הפריסה:
curl -X DELETE \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://config.googleapis.com/v1alpha2/projects/${PROJECT_ID}/locations/${REGION}/deployments/${DEPLOYMENT_NAME}?force=true&delete_policy=abandon"ממתינים כמה שניות ואז מוודאים שפריט הפריסה נמחק:
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://config.googleapis.com/v1alpha2/projects/${PROJECT_ID}/locations/${REGION}/deployments/${DEPLOYMENT_NAME}" \ | jq .error.messageאם הפלט מראה
null, מחכים כמה שניות ומריצים את הפקודה שוב.אחרי שמחיקת ארטיפקט הפריסה מסתיימת, מוצגת הודעה כמו בדוגמה הבאה:
Resource 'projects/PROJECT_ID/locations/REGION/deployments/DEPLOYMENT_NAME' was not found- כדי לשלוח משוב על מסמכי התיעוד, על מדריכים במסוף או על הפתרון, לוחצים על הלחצן שליחת משוב בדף.
- אם לא שיניתם את קוד Terraform, אתם יכולים ליצור בעיות במאגר GitHub. אנחנו בודקים את הבעיות ב-GitHub כמיטב יכולתנו, והן לא מיועדות לשאלות כלליות על השימוש.
- אם נתקלתם בבעיות במוצרים שבהם נעשה שימוש בפתרון, תוכלו לפנות אל Cloud Customer Care.
שליחת משוב
פתרונות התחלתיים מיועדים למטרות מידע בלבד, והם לא מוצרים שנתמכים באופן רשמי. Google עשויה לשנות או להסיר פתרונות ללא הודעה מוקדמת.
כדי לפתור שגיאות, בודקים את היומנים של Cloud Build ואת הפלט של Terraform.
כדי לשלוח משוב: