אפשר לעיין בתוצאות של שאילתות BigQuery באמצעות מחברות Colab Enterprise ב-BigQuery.
במדריך הזה תריצו שאילתות על נתונים ממערך נתונים ציבורי של BigQuery ותבדקו את תוצאות השאילתה במחברת.
מטרות
- יוצרים ומריצים שאילתה ב-BigQuery.
- עיון בתוצאות של שאילתה ב-notebook.
עלויות
במדריך הזה נעשה שימוש במערך נתונים שזמין דרך Google Cloud תוכנית מערכי הנתונים הציבוריים. Google משלמת על האחסון של מערכי הנתונים האלה ומספקת גישה ציבורית לנתונים. אתם מחויבים על השאילתות שאתם מריצים על הנתונים. כאן תוכלו לקרוא מידע נוסף על התמחור ב-BigQuery.
לפני שמתחילים
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.בפרויקטים חדשים, BigQuery מופעל באופן אוטומטי.
הגדרת אזור ברירת המחדל לנכסי קוד
אם זו הפעם הראשונה שאתם יוצרים נכס קוד, אתם צריכים להגדיר את אזור ברירת המחדל לנכסי קוד. אי אפשר לשנות את האזור של נכס קוד אחרי שהוא נוצר.
כל נכסי הקוד ב-BigQuery Studio משתמשים באותו אזור ברירת מחדל. כדי להגדיר את אזור ברירת המחדל לנכסי קוד:
עוברים לדף BigQuery.
בחלונית Explorer, מחפשים את הפרויקט שבו הפעלתם נכסי קוד.
לצד הפרויקט, לוחצים על View actions (הצגת פעולות) ואז על Change my default code region (שינוי אזור הקוד שמוגדר כברירת מחדל).
בקטע Region בוחרים את האזור שבו רוצים להשתמש בנכסי קוד.
לוחצים על בחירה.
רשימת האזורים הנתמכים מופיעה במאמר מיקומים ב-BigQuery Studio.
ההרשאות הנדרשות
כדי ליצור ולהריץ מחברות, אתם צריכים את התפקידים הבאים בניהול זהויות והרשאות גישה (IAM):
- BigQuery User (
roles/bigquery.user) - משתמש בהרצת מחברת (
roles/aiplatform.notebookRuntimeUser) - Code Creator (
roles/dataform.codeCreator)
פתיחת תוצאות של שאילתה ב-notebook
אפשר להריץ שאילתת SQL ואז להשתמש במחברת כדי לבדוק את הנתונים. הגישה הזו שימושית אם רוצים לשנות את הנתונים ב-BigQuery לפני שמתחילים לעבוד איתם, או אם צריך רק קבוצת משנה של השדות בטבלה.
במסוף Google Cloud , עוברים לדף BigQuery.
בשדה Type to search (הקלדה לחיפוש), מזינים
bigquery-public-data.אם הפרויקט לא מוצג, מזינים
bigqueryבשדה החיפוש ולוחצים על חיפוש בכל הפרויקטים כדי להתאים את מחרוזת החיפוש לפרויקטים הקיימים.בוחרים באפשרות bigquery-public-data > ml_datasets > penguins.
בטבלה penguins, לוחצים על View actions (הצגת פעולות) ואז על Query (שאילתה).
מוסיפים כוכבית (
*) לבחירת שדה לשאילתה שנוצרה, כך שהיא תיראה כמו בדוגמה הבאה:SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
לוחצים על הפעלה.
בקטע Query results (תוצאות של שאילתות), לוחצים על Open in (פתיחה ב) ואז על Notebook (מחברת).
הכנת המחברת לשימוש
מכינים את המחברת לשימוש על ידי חיבור לזמן ריצה והגדרת ערכי ברירת מחדל של האפליקציה.
- בכותרת של ה-Notebook, לוחצים על Connect (חיבור) כדי להתחבר לסביבת זמן הריצה שמוגדרת כברירת מחדל.
- בבלוק הקוד Setup, לוחצים על Run cell (הרצת התא).
עיון בנתונים
- כדי לטעון את נתוני הפינגווינים לתוך BigQuery DataFrame ולהציג את התוצאות, לוחצים על Run cell (הפעלת התא) בבלוק הקוד בקטע Result set loaded from BigQuery job as a DataFrame (קבוצת תוצאות שנטענה מעבודת BigQuery כ-DataFrame).
- כדי לקבל מדדים תיאוריים של הנתונים, לוחצים על הפעלת התא בבלוק הקוד בקטע הצגת נתונים סטטיסטיים תיאוריים באמצעות describe().
- אופציונלי: אפשר להשתמש בפונקציות או בחבילות אחרות של Python כדי לבדוק ולנתח את הנתונים.
בדוגמת הקוד הבאה מוצג שימוש ב-bigframes.pandas לניתוח נתונים, וב-bigframes.ml ליצירת מודל רגרסיה ליניארית מנתוני פינגווינים ב-DataFrame של BigQuery:
הסרת המשאבים
כדי לא לצבור חיובים לחשבון Google Cloud על המשאבים שבהם השתמשתם במדריך הזה, אתם יכולים למחוק את הפרויקט שמכיל את המשאבים או להשאיר את הפרויקט ולמחוק את המשאבים בנפרד.
הדרך הקלה ביותר לבטל את החיוב היא למחוק את Google Cloud הפרויקט שיצרתם בשביל המדריך הזה.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.