שימוש בתוסף BigQuery JupyterLab

כדי לבקש משוב או תמיכה בנוגע לתכונה הזו, אפשר לשלוח אימייל לכתובת bigquery-ide-plugin@google.com.

במאמר הזה מוסבר איך להתקין את הפלאגין BigQuery JupyterLab ולהשתמש בו כדי לבצע את הפעולות הבאות:

  • לסקור את הנתונים ב-BigQuery.
  • משתמשים ב-BigQuery DataFrames API.
  • פריסת מחברת BigQuery DataFrames ב-Cloud Composer.

התוסף BigQuery JupyterLab כולל את כל הפונקציונליות של התוסף Dataproc JupyterLab, כמו יצירת תבנית של זמן ריצה ב-Dataproc Serverless, הפעלה וניהול של מחברות, פיתוח באמצעות Apache Spark, פריסת הקוד וניהול המשאבים.

התקנת הפלאגין BigQuery JupyterLab

כדי להתקין את הפלאגין BigQuery JupyterLab ולהשתמש בו:

  1. בטרמינל המקומי, בודקים שגרסה Python 3.8 ואילך מותקנת במערכת:

    python3 --version
    
  2. מתקינים את ה-CLI של gcloud.

  3. בטרמינל המקומי, מאתחלים את ה-CLI של gcloud:

    gcloud init
    
  4. מתקינים את Pipenv, כלי לסביבה וירטואלית של Python:

    pip3 install pipenv
    
  5. יוצרים סביבה וירטואלית חדשה:

    pipenv shell
    
  6. מתקינים את JupyterLab בסביבה הווירטואלית החדשה:

    pipenv install jupyterlab
    
  7. מתקינים את הפלאגין BigQuery JupyterLab:

    pipenv install bigquery-jupyter-plugin
    
  8. אם הגרסה המותקנת של JupyterLab קודמת לגרסה 4.0.0, צריך להפעיל את תוסף הפלאגין:

    jupyter server extension enable bigquery_jupyter_plugin
    
  9. מפעילים את JupyterLab:

    jupyter lab
    

    ‫JupyterLab ייפתח בדפדפן.

עדכון ההגדרות של הפרויקט והאזור

כברירת מחדל, הסשן פועל בפרויקט ובאזור שהגדרתם כשביצעתם את הפקודה gcloud init. כדי לשנות את הגדרות הפרויקט והאזור של הסשן:

  • בתפריט של JupyterLab, לוחצים על Settings > Google BigQuery Settings.

כדי שהשינויים ייכנסו לתוקף, צריך להפעיל מחדש את הפלאגין.

עיון בנתונים

כדי לעבוד עם נתוני BigQuery ב-JupyterLab:

  1. בסרגל הצד של JupyterLab, פותחים את החלונית Dataset Explorer (סייר מערכי הנתונים): לוחצים על הסמל של מערכי הנתונים סמל של סייר קבוצות נתונים..
  2. כדי להרחיב פרויקט, בחלונית Dataset Explorer, לוחצים על החץ להרחבה לצד שם הפרויקט.

    בחלונית Dataset Explorer מוצג פרויקט מורחב ורשימה של מערכי נתונים.

    בחלונית Dataset Explorer מוצגים כל מערכי הנתונים בפרויקט שנמצאים באזור BigQuery שהגדרתם לסשן. יש כמה דרכים שבהן אפשר לבצע אינטראקציה עם פרויקט ועם מערך נתונים:

    • כדי לראות מידע על מערך נתונים, לוחצים על השם של מערך הנתונים.
    • כדי להציג את כל הטבלאות במערך נתונים, לוחצים על החץ להרחבה לצד מערך הנתונים.
    • כדי לראות מידע על טבלה, לוחצים על שם הטבלה.
    • כדי לשנות את הפרויקט או את האזור ב-BigQuery, צריך לעדכן את ההגדרות.

הרצת מחברות

כדי להריץ שאילתות על נתוני BigQuery מ-JupyterLab:

  1. כדי לפתוח את דף מרכז האפליקציות, לוחצים על קובץ > מרכז אפליקציות חדש.
  2. בקטע BigQuery Notebooks (מחברות BigQuery), לוחצים על הכרטיס BigQuery DataFrames (מסגרות נתונים של BigQuery). מחברת חדשה תיפתח ותראה לכם איך להתחיל לעבוד עם BigQuery DataFrames.

מחברות BigQuery DataFrames תומכות בפיתוח Python בגרעין Python מקומי. פעולות של BigQuery DataFrames מבוצעות מרחוק ב-BigQuery, אבל שאר הקוד מבוצע באופן מקומי במחשב שלכם. כשמבצעים פעולה ב-BigQuery, מזהה של משימת שאילתה וקישור למשימה מופיעים מתחת לתא הקוד.

  • כדי לראות את העבודה במסוף Google Cloud , לוחצים על Open Job (פתיחת העבודה).

פריסת מחברת BigQuery DataFrames

אפשר לפרוס מחברת BigQuery DataFrames ב-Cloud Composer באמצעות תבנית זמן ריצה של Dataproc Serverless. חייבים להשתמש בגרסה 2.1 ואילך של זמן הריצה.

  1. ב-notebook של JupyterLab, לוחצים על calendar_monthJob Scheduler.
  2. בשדה Job name (שם המשימה), מזינים שם ייחודי למשימה.
  3. בקטע Environment (סביבה), מזינים את השם של סביבת Cloud Composer שבה רוצים לפרוס את העבודה.
  4. אם הפנקס שלכם כולל פרמטרים, מוסיפים פרמטרים.
  5. מזינים את השם של תבנית זמן הריצה ללא שרת.
  6. כדי לטפל בכשלים בהרצת מחברת, מזינים מספר שלם בשדה Retry count (מספר הניסיונות החוזרים) וערך (בדקות) בשדה Retry delay (השהיה בין ניסיונות חוזרים).
  7. בוחרים אילו התראות על הפעלה לשלוח, ואז מזינים את הנמענים.

    ההתראות נשלחות באמצעות הגדרת ה-SMTP של Airflow.

  8. בוחרים לוח זמנים למחברת.

  9. לוחצים על יצירה.

אחרי שתתזמנו את המחברת, היא תופיע ברשימת המשימות המתוזמנות בסביבת Cloud Composer שבחרתם.

המאמרים הבאים