עיון בתוצאות של שאילתות ב-Notebooks

אפשר לעיין בתוצאות של שאילתות BigQuery באמצעות מחברות Colab Enterprise ב-BigQuery.

במדריך הזה תריצו שאילתות על נתונים ממערך נתונים ציבורי של BigQuery ותבדקו את תוצאות השאילתה במחברת.

מטרות

  • יוצרים ומריצים שאילתה ב-BigQuery.
  • עיון בתוצאות של שאילתה ב-notebook.

עלויות

במדריך הזה נעשה שימוש במערך נתונים שזמין דרך Google Cloud תוכנית מערכי הנתונים הציבוריים. ‫Google משלמת על האחסון של מערכי הנתונים האלה ומספקת גישה ציבורית לנתונים. אתם מחויבים על השאילתות שאתם מריצים על הנתונים. כאן תוכלו לקרוא מידע נוסף על התמחור ב-BigQuery.

לפני שמתחילים

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  2. Verify that billing is enabled for your Google Cloud project.

  3. Enable the BigQuery API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

    בפרויקטים חדשים, BigQuery מופעל באופן אוטומטי.

הגדרת אזור ברירת המחדל לנכסי קוד

אם זו הפעם הראשונה שאתם יוצרים נכס קוד, אתם צריכים להגדיר את אזור ברירת המחדל לנכסי קוד. אי אפשר לשנות את האזור של נכס קוד אחרי שהוא נוצר.

כל נכסי הקוד ב-BigQuery Studio משתמשים באותו אזור ברירת מחדל. כדי להגדיר את אזור ברירת המחדל לנכסי קוד:

  1. עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית Explorer, מחפשים את הפרויקט שבו הפעלתם נכסי קוד.

  3. לצד הפרויקט, לוחצים על View actions (הצגת פעולות) ואז על Change my default code region (שינוי אזור הקוד שמוגדר כברירת מחדל).

  4. בקטע Region בוחרים את האזור שבו רוצים להשתמש בנכסי קוד.

  5. לוחצים על בחירה.

רשימת האזורים הנתמכים מופיעה במאמר מיקומים ב-BigQuery Studio.

ההרשאות הנדרשות

כדי ליצור ולהריץ מחברות, אתם צריכים את התפקידים הבאים בניהול זהויות והרשאות גישה (IAM):

פתיחת תוצאות של שאילתה ב-notebook

אפשר להריץ שאילתת SQL ואז להשתמש במחברת כדי לבדוק את הנתונים. הגישה הזו שימושית אם רוצים לשנות את הנתונים ב-BigQuery לפני שמתחילים לעבוד איתם, או אם צריך רק קבוצת משנה של השדות בטבלה.

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בשדה Type to search (הקלדה לחיפוש), מזינים bigquery-public-data.

    אם הפרויקט לא מוצג, מזינים bigquery בשדה החיפוש ולוחצים על חיפוש בכל הפרויקטים כדי להתאים את מחרוזת החיפוש לפרויקטים הקיימים.

  3. בוחרים באפשרות bigquery-public-data > ml_datasets > penguins.

  4. בטבלה penguins, לוחצים על View actions (הצגת פעולות) ואז על Query (שאילתה).

  5. מוסיפים כוכבית (*) לבחירת שדה לשאילתה שנוצרה, כך שהיא תיראה כמו בדוגמה הבאה:

    SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
  6. לוחצים על הפעלה.

  7. בקטע Query results (תוצאות של שאילתות), לוחצים על Open in (פתיחה ב) ואז על Notebook (מחברת).

הכנת המחברת לשימוש

מכינים את המחברת לשימוש על ידי חיבור לזמן ריצה והגדרת ערכי ברירת מחדל של האפליקציה.

  1. בכותרת של ה-Notebook, לוחצים על Connect (חיבור) כדי להתחבר לסביבת זמן הריצה שמוגדרת כברירת מחדל.
  2. בבלוק הקוד Setup, לוחצים על Run cell (הרצת התא).

עיון בנתונים

  1. כדי לטעון את נתוני הפינגווינים לתוך BigQuery DataFrame ולהציג את התוצאות, לוחצים על Run cell (הפעלת התא) בבלוק הקוד בקטע Result set loaded from BigQuery job as a DataFrame (קבוצת תוצאות שנטענה מעבודת BigQuery כ-DataFrame).
  2. כדי לקבל מדדים תיאוריים של הנתונים, לוחצים על הפעלת התא בבלוק הקוד בקטע הצגת נתונים סטטיסטיים תיאוריים באמצעות describe()‎.
  3. אופציונלי: אפשר להשתמש בפונקציות או בחבילות אחרות של Python כדי לבדוק ולנתח את הנתונים.

בדוגמת הקוד הבאה מוצג שימוש ב-bigframes.pandas לניתוח נתונים, וב-bigframes.ml ליצירת מודל רגרסיה ליניארית מנתוני פינגווינים ב-DataFrame של BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

הסרת המשאבים

כדי לא לצבור חיובים לחשבון Google Cloud על המשאבים שבהם השתמשתם במדריך הזה, אתם יכולים למחוק את הפרויקט שמכיל את המשאבים או להשאיר את הפרויקט ולמחוק את המשאבים בנפרד.

הדרך הקלה ביותר לבטל את החיוב היא למחוק את Google Cloud הפרויקט שיצרתם בשביל המדריך הזה.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

המאמרים הבאים