טרנספורמציה של נתונים

התוסף Google Cloud Data Agent Kit ל-Antigravity IDE מאפשר להשתמש במחברות לניקוי נתונים, להנדסת תכונות ולניתוח מעמיק.יש שלושה סוגים של מחברות שאפשר לבחור מתוכן.

  • מחברות BigQuery DataFrames. אלה מחברות Python שמאפשרות לכם לעבד מערכי נתונים גדולים ב-BigQuery באמצעות ממשקי API מוכרים של pandas ו-scikit-learn. הם תומכים בכתיבת קוד ב-GoogleSQL ל-BigQuery בנוסף ל-Python.
  • מחברות Apache Spark מנוהלות עם ליבת מקומית. אלה מחברות (notebooks) של Python שמאפשרות ליצור ולהריץ משימות ב-Managed Service for Apache Spark באמצעות ספריית Spark Connect שלו.

  • מחברות Apache Spark מנוהלות עם ליבת הפעלה מרוחקת. המחברות האלה מאפשרות להריץ את המחברת בגרעין מרוחק שפועל כולו ב-Managed Service for Apache Spark. אף חלק מהקוד לא מורץ באופן מקומי במחשב. בנוסף ל-PySpark, אפשר לכתוב את הקוד ב-Spark SQL בעזרת %%sparksql cell magic.

לפני שמתחילים

במחברות BigQuery, צריך להתקין את הספרייה bigframes באותה סביבה וירטואלית של Python שבה מריצים את המחברת. כשיוצרים מחברת חדשה, תא האתחול מכיל את השורה הבאה, שמופיעה כהערה:

#%pip install --upgrade bigframes
  1. אופציונלי: אם ספריית bigframes לא מותקנת בסביבה הווירטואלית של Python, מסירים את ההערה.

  2. אופציונלי: אם אתם מתכננים לכתוב קוד SQL במחברת, צריך להתקין את bigquery-magics:

pip install --upgrade bigquery-magics

התפקידים הנדרשים

כדי לקבל את ההרשאות שנדרשות להרצת מחברות BigQuery, צריך לבקש מהאדמין להעניק לכם את התפקיד BigQuery Studio User (roles/bigquery.studioUser) בפרויקט שבחרתם בתוסף.

כדי לקבל את ההרשאות שנדרשות לניהול מחברות (notebooks) של Managed Service for Apache Spark, צריך לבקש מהאדמין להקצות לכם את התפקידים הבאים בפרויקט:

מידע נוסף על הקצאת תפקידים מופיע במאמר ניהול הגישה לפרויקטים, לתיקיות ולארגונים. יכול להיות שתוכלו לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

טרנספורמציה של הנתונים

לנתונים בטבלה של BigLake או BigQuery, התוסף מספק תבניות של מחברות כדי לעזור לכם להתחיל.

עוברים לטבלת BigQuery או BigLake:

  1. פותחים את לוח הפקודות באמצעות Ctrl/Cmd-Shift-P.
  2. מרחיבים את סייר הקטלוג ומחפשים את BigQuery או BigLake.
  3. לוחצים לחיצה ימנית על מזהה הטבלה.
  4. בתפריט הצף, בוחרים באפשרות טעינה ב-Spark DataFrame או באפשרות טעינה ב-BigQuery DataFrame. עורך חדש מציג מידע על הטבלה.

    אפשר גם למצוא את הטבלה באמצעות חיפוש אוניברסלי. לוחצים על מזהה הטבלה כדי לפתוח עורך חדש, לוחצים על הכרטיסייה Data (נתונים) ואז בוחרים באפשרות Load in Spark DataFrame (טעינה ב-Spark DataFrame) או Load in BigQuery DataFrame (טעינה ב-BigQuery DataFrame).

איך מאתחלים מחברת

אחרי טעינת הטבלה, ייפתח מחברת Jupyter חדשה בכרטיסיית עריכה עם הקוד הדרוש לטעינת הטבלה בסוג מסגרת הנתונים שבחרתם.

  1. אם הספרייה הנדרשת לא מותקנת בסביבה הווירטואלית של Python, מבטלים את ההערה בשורה של pip install.

  2. לוחצים על Select Kernel (בחירת ליבה) ובוחרים ליבת Python.

    במחברות Spark מנוהלות עם ליבות מרוחקות, צריך לבחור ליבת Spark מרוחקת.

  3. מריצים את התא על ידי לחיצה על ▷ Run All (הפעלה של הכול) או על Shift+Enter בחלק התחתון של התא.

  4. אם מופיעה בקשה להתקין תוכנה חסרה, לוחצים על התקנה.

התא יוצר מסגרת נתונים שמכילה את הנתונים בטבלה שנבחרה.

החלת טרנספורמציות נתונים על DataFrame

מוסיפים תאים נוספים למחברת וכותבים את הקוד להמרת הנתונים. ב-BigQuery DataFrames, אפשר להשתמש ב-API שתואם ל-pandas ומסופק על ידי BigQuery DataFrames כדי לבצע טרנספורמציה ב-DataFrame.

לחלופין, BigQuery DataFrames מספק פקודת magics שאפשר להשתמש בה כדי לבצע טרנספורמציה של DataFrame באמצעות SQL במחברת Jupyter. כדי לבצע טרנספורמציה של הנתונים באמצעות SQL, פועלים לפי השלבים הבאים:

  1. יוצרים ומריצים תא כדי להפעיל את פקודות הקסם של Jupyter.

    %load_ext bigframes

  2. יוצרים תא SQL באמצעות פקודות ה-%%bqsql magics.

שמירת התוצאות

משתמשים באחת משיטות הפלט הרבות שסוג ה-DataFrame מספק כדי לשמור את הנתונים שעברו טרנספורמציה ב-BigQuery או ב-Cloud Storage. ב-BigQuery DataFrames, שיטות הפלט כוללות את האפשרויות הבאות:

אם מדובר בנתונים קטנים, אפשר לייצא אותם ל-Arrow או ל-Pandas כדי לבצע בהם מניפולציות מקומיות נוספות ולהציג אותם.

הסרת המשאבים

כדי להימנע מחיובים בחשבון Google Cloud , צריך למחוק את כל המשאבים שיצרתם אבל כבר לא נחוצים לכם.

המאמרים הבאים