סקירה כללית של Managed Service for Apache Spark serverless

‫Managed Service for Apache Spark serverless מאפשר להריץ עומסי עבודה של Spark בלי שתצטרכו להקצות ולנהל אשכול משלכם. יש שתי דרכים להריץ עומסי עבודה של Managed Service for Apache Spark: עומסי עבודה ברצף (batch) וסשנים אינטראקטיביים.

עומסי עבודה באצווה

שולחים עומס עבודה של אצווה באמצעות מסוףGoogle Cloud , Google Cloud CLI או API בארכיטקטורת REST. ‫Managed Service for Apache Spark מריץ את עומס העבודה בתשתית מחשוב מנוהלת, ומשנה את קנה המידה של המשאבים באופן אוטומטי לפי הצורך. החיובים חלים רק על הזמן שבו עומס העבודה פועל.

יכולות של עומסי עבודה באצווה

אפשר להריץ את סוגי עומסי העבודה הבאים של אצווה:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java או Scala)

אפשר לציין מאפייני Spark כששולחים עומס עבודה של אצווה.

תזמון של עומסי עבודה באצווה

אתם יכולים לתזמן עומס עבודה של Spark batch כחלק מתהליך עבודה של Airflow או של Managed Service for Apache Airflow באמצעות Airflow batch operator. מידע נוסף זמין במאמר הפעלת עומסי עבודה של Managed Service for Apache Spark serverless באמצעות Managed Airflow.

קדימה, מתחילים

כדי להתחיל, אפשר לעיין במאמר בנושא הפעלת עומס עבודה של אצווה ב-Apache Spark.

סשנים אינטראקטיביים

לכתוב ולהריץ קוד במחברות Jupyter במהלך סשן אינטראקטיבי. יש כמה דרכים ליצור סשן של מחברת:

  • הרצת קוד PySpark במחברות של BigQuery Studio. פותחים מחברת BigQuery Python כדי ליצור סשן אינטראקטיבי מבוסס Spark Connect. לכל מחברת BigQuery יכול להיות רק סשן פעיל אחד שמשויך אליה.

  • שימוש בתוסף JupyterLab כדי ליצור כמה סשנים של מחברות Jupyter מתבניות שיוצרים ומנהלים. כשמתקינים את הפלאגין במכונה מקומית או במכונה וירטואלית של Compute Engine, מופיעים כרטיסים שונים שמתאימים להגדרות שונות של ליבת Spark בדף ההפעלה של JupyterLab. לוחצים על כרטיס כדי ליצור סשן של מחברת Managed Service for Apache Spark, ואז מתחילים לכתוב ולבדוק את הקוד במחברת.

    התוסף JupyterLab מאפשר גם להשתמש בדף ההפעלה של JupyterLab כדי לבצע את הפעולות הבאות:

    • יצירת אשכולות של Managed Service for Apache Spark.
    • שליחת עבודות לאשכולות.
    • צפייה ביומנים של Google Cloud ושל Spark.

תאימות לאבטחה

‫Managed Service for Apache Spark עומד בכל הדרישות בנושא מיקום לאחסון נתונים,‏ CMEK,‏ VPC-SC ודרישות אבטחה אחרות שתואמות ל-Managed Service for Apache Spark.