Google Cloud Serverless for Apache Spark מאפשר להריץ עומסי עבודה של Spark בלי שתצטרכו להקצות ולנהל אשכול Dataproc משלכם. יש שתי דרכים להריץ עומסי עבודה (workloads) של Serverless ל-Apache Spark: עומסי עבודה של אצווה (batch) וסשנים אינטראקטיביים.
עומסי עבודה באצווה
שולחים עומס עבודה של אצווה לשירות Serverless for Apache Spark באמצעותGoogle Cloud המסוף, Google Cloud CLI או Dataproc API. השירות מריץ את עומס העבודה בתשתית מחשוב מנוהלת, ומשנה את גודל המשאבים באופן אוטומטי לפי הצורך. חיובים על Serverless for Apache Spark חלים רק על הזמן שבו עומס העבודה מופעל.
יכולות של עומסי עבודה באצווה
אפשר להריץ את סוגי עומסי העבודה הבאים של Serverless for Apache Spark:
- PySpark
- Spark SQL
- Spark R
- Spark (Java או Scala)
אפשר לציין מאפייני Spark כששולחים עומס עבודה של אצווה ב-Serverless for Apache Spark.
תזמון עומסי עבודה של אצווה
אתם יכולים לתזמן עומס עבודה של Spark batch כחלק מתהליך עבודה של Airflow או Cloud Composer באמצעות Airflow batch operator. מידע נוסף זמין במאמר בנושא הפעלת עומסי עבודה של Serverless for Apache Spark באמצעות Cloud Composer.
קדימה, מתחילים
כדי להתחיל, אפשר לעיין במאמר בנושא הפעלת עומס עבודה של אצווה ב-Apache Spark.
סשנים אינטראקטיביים
כתיבה והרצה של קוד ב-notebooks של Jupyter במהלך סשן אינטראקטיבי של Serverless for Apache Spark. יש כמה דרכים ליצור סשן במחברת:
הרצת קוד PySpark במחברות של BigQuery Studio. פותחים מחברת BigQuery Python כדי ליצור סשן אינטראקטיבי של Serverless for Apache Spark מבוסס Spark Connect. לכל מחברת BigQuery יכול להיות משויך רק סשן פעיל אחד של Serverless for Apache Spark.
שימוש בתוסף Dataproc JupyterLab כדי ליצור כמה סשנים של מחברות Jupyter מתבניות שיוצרים ומנהלים. כשמתקינים את הפלאגין במכונה מקומית או במכונה וירטואלית של Compute Engine, מופיעים כרטיסים שונים שמתאימים להגדרות שונות של ליבת Spark בדף ההפעלה של JupyterLab. לוחצים על כרטיס כדי ליצור סשן של מחברת Serverless for Apache Spark, ואז מתחילים לכתוב ולבדוק את הקוד במחברת.
התוסף Dataproc JupyterLab מאפשר גם להשתמש בדף ההפעלה של JupyterLab כדי לבצע את הפעולות הבאות:
- יצירת אשכולות של Dataproc ב-Compute Engine.
- שליחת משימות לאשכולות Dataproc ב-Compute Engine.
- צפייה ביומנים של Google Cloud ושל Spark.
תאימות לאבטחה
Serverless (בלי שרת) ל-Apache Spark עומד בכל הדרישות בנושא מיקום לאחסון נתונים, CMEK, VPC-SC ודרישות אבטחה אחרות שתואמות ל-Dataproc.