"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

שאלות נפוצות בנושא Managed Service for Apache Spark serverless

בדף הזה מפורטות תשובות לשאלות נפוצות בנושא פריסה בלי שרת (serverless) של Managed Service for Apache Spark. אלא אם צוין אחרת, המידע הזה רלוונטי רק ל-Managed Service for Apache Spark serverless, ולא לפריסות של אשכולות.

מתי כדאי להשתמש בפריסה של Managed Service for Apache Spark serverless במקום בפריסה של אשכול Managed Service for Apache Spark?

פריסה של Managed Service for Apache Spark ללא שרתים:
- תמיכה בעומסי עבודה (workloads) של Spark batch ובסשנים אינטראקטיביים ב-PySpark kernel Jupyter notebooks.
- יוצרת ומנהלת את עומס העבודה ואת תשתית הסשן האינטראקטיבי.
פריסת אשכולות של Managed Service for Apache Spark:
- תומך בשליחה של סוגים שונים של משימות Spark, ומשימות שמבוססות על רכיבים אחרים בקוד פתוח, כמו Flink,‏ Hadoop,‏ Hive,‏ Pig,‏ Presto ועוד.
- לא יוצרת ומנהלת תשתית. אתם יוצרים ומנהלים את האשכולות של Managed Service for Apache Spark.

מה אפשר לעשות עם פריסה של Managed Service for Apache Spark serverless?

הפעלת משימות באצווה.
שימוש בתוסף Managed Service for Apache Spark JupyterLab להפעלת סשנים אינטראקטיביים של מחברות ועיבוד ברצף (batch processing) ללא שרתים.
הפעלת משימות סטרימינג באמצעות ספריות סטרימינג של Spark. הערה: סטרימינג הוא לא שירות מנוהל, ולכן אתם צריכים לנהל את יצירת נקודות הבדיקה וההפעלה מחדש.
אימון מודלים באמצעות Spark MLlib.
שימוש במחברות SQL אינטראקטיביות לניתוח נתונים, גרפים, סדרות זמן ונתונים גיאוגרפיים.
תזמור עומסי עבודה של Managed Service for Apache Spark באמצעות Managed Service for Apache Airflow, שירות מנוהל של Apache Airflow.

איך כדאי להגדיר תוכנית להפעלת עומס עבודה?

אפשר להריץ עומסי עבודה במקביל או ברצף. תוכנית הביצוע משפיעה על מכסת המשאבים שלכם ב- Google Cloud . אתם יכולים להריץ כמה עומסי עבודה במקביל, בהתאם למכסות של משאבי ה-Batch.

האם אפשר להשתמש בתמונה בהתאמה אישית עם פריסה ללא שרת של Managed Service for Apache Spark?

כן. אתם יכולים להשתמש באימג' מותאם אישית של קונטיינר במקום באימג' ברירת המחדל של קונטיינר. איך משתמשים בקונטיינרים בהתאמה אישית עם Managed Service for Apache Spark

האם אפשר לציין משאבי זיכרון ודיסק לעומסי עבודה של Managed Service for Apache Spark?

כן. אתם יכולים לציין רמות פרימיום של מנהל ביצוע ושל מחשוב ודיסקים של דרייברים, ואת כמות משאבי המחשוב והדיסקים של הדרייברים ומנהלי הביצוע שיוקצו כששולחים עומס עבודה (ראו מאפיינים של הקצאת משאבים).

איך אפשר לציין את טווח כתובות ה-IP לרשת ה-VPC של Managed Service for Apache Spark?

עומסי העבודה של Managed Service for Apache Spark פועלים בסביבה שלכם. כל מנהל התקן (driver) וכל רכיב executor של Spark בעומס עבודה של Serverless Spark צורכים כתובת IP פנימית אחת ברשת ה-VPC של Managed Service for Apache Spark. ‫/16 הוא טווח כתובות CIDR טיפוסי שמוגדר על ידי המשתמש עבור רשת VPC של Managed Service for Apache Spark. אתם יכולים להגביל את טווח כתובות ה-IP של הרשת בהתאם למספר עומסי העבודה המקבילים שאתם מתכננים להריץ.

האם Managed Service for Apache Spark תומך במיקום נתונים?

כן. אתם מציינים את האזור שבו עומס העבודה יעובד. מאתרים את מערכי הקלט והפלט באזור שצוין.

איך Managed Service for Apache Spark בוחר אזור בתוך האזור שציינתם להרצת עומס העבודה?

‫Managed Service for Apache Spark בוחר את האזור ב-Compute Engine שבו יופעל עומס העבודה על סמך הקיבולת והזמינות. אם אזור מסוים לא זמין אחרי שעומס עבודה מתחיל, עומס העבודה נכשל וצריך לשלוח אותו מחדש.

איך עומסי עבודה של Managed Service for Apache Spark משתמשים במשאבי מחשוב?

כל עומס עבודה מופעל במשאבי מחשוב משלו. הגשות מרובות של קובצי באצ' לא משתפות או עושות שימוש חוזר במשאבי מחשוב.

שיטות מומלצות:

כדאי לבצע אופטימיזציה של עומס העבודה למשימות שרצות לזמן בינוני, ולא למשימות שרצות לזמן קצר.
שמירת נתונים שניגשים אליהם בכמה עומסי עבודה ב-Cloud Storage.

איפה אפשר למצוא מידע על הודעות, תכונות, תיקוני באגים, בעיות ידועות והוצאות משימוש של Managed Service for Apache Spark?

הערות המוצר של Managed Service for Apache Spark

האם עומסי עבודה מקבילים מתחרים על משאבים?

עומסי עבודה של Managed Service for Apache Spark מתחרים על משאבים רק אם מכסת המשאבים לא מספיקה להרצת כל עומסי העבודה שפועלים בו-זמנית. אחרת, עומסי העבודה מבודדים לחלוטין זה מזה.

איך מוקצה מכסת Managed Service for Apache Spark?

עיבוד ברצף (batch processing) ב-Managed Service for Apache Spark צורך Google Cloud משאבים. מידע נוסף זמין במאמר בנושא מכסות של Dataproc Serverless.

האם צריך להגדיר שרת היסטוריה מתמשך של Managed Service for Apache Spark?

הגדרה של שרת היסטוריה מתמשך (PHS) לשימוש עם Managed Service for Apache Spark היא אופציונלית.אפשר להשתמש ב-PHS כדי להציג אירועים של Spark ויומנים אחרים בקטגוריה ספציפית של Cloud Storage, עד לתקופה של 90 יום אחרי תקופת השמירה (TTL) של קטגוריית הביניים והקטגוריה הזמנית של Managed Service for Apache Spark.

אילו יומנים זמינים ב-Managed Service for Apache Spark?

יומני מנהלי ההפעלה והדרייברים של Spark זמינים ב-Cloud Logging במהלך ההפעלה של עומס העבודה של Spark ואחריה. בנוסף, אפליקציות Spark מוצגות בממשק האינטרנט של Persistent History Server (PHS) בזמן שהעומס פועל (בוחרים באפשרות PHS > Incomplete Applications בממשק המשתמש של PHS).

אם מגדירים Managed Service for Apache Spark PHS, מקבלים גישה מתמשכת ליומני אירועים של Spark שנשמרים ב-Cloud Storage. היומנים האלה מספקים תובנות לגבי הביצוע של אפליקציית Spark, כמו אירועים של DAG ושל executor.

האם אפשר להגדיר את מספר תהליכי הביצוע של עומס העבודה ב-Spark?

כן. אפשר להגדיר את מספר תהליכי הביצוע של עומס עבודה ב-Spark באמצעות המאפיין spark.executor.instances. עם זאת, המספר הכולל של הליבות שעומדות לרשות עומס העבודה חשוב יותר ממספר תהליכי הביצוע, כי Spark מריץ משימה אחת לכל ליבה. לדוגמה, אם לעומס עבודה יש ארבעה מפעילים עם שתי ליבות כל אחד, הוא יפעיל 4 * 2 = 8 משימות בו-זמנית. בנוסף, הוא יפעיל את אותו מספר משימות עבור עומס עבודה שיש לו שני מפעילים עם ארבע ליבות כל אחד. מכיוון שמספר ליבות המעבד לכל עומס עבודה זהה, הן יפעילו את אותו מספר משימות. אפשר להשתמש במאפיין spark.executor.cores כדי להגדיר את מספר ליבות המעבד לכל תהליך של ביצוע קוד בעומס העבודה של Managed Service for Apache Spark.

באילו מדדי Spark משתמש Managed Service for Apache Spark לצורך שינוי גודל אוטומטי?

‫Managed Service for Apache Spark בודק את המדדים של maximum-needed ושל running ההקצאה הדינמית של Spark כדי לקבוע אם להגדיל או להקטין את קנה המידה. מידע נוסף על שינוי גודל אוטומטי בשירות המנוהל ל-Apache Spark

האם אפשר להגדיר את ההתנהגות של שינוי הגודל האוטומטי ב-Managed Service for Apache Spark באמצעות מאפייני Spark?

כן. השינוי האוטומטי של קנה המידה ב-Managed Service for Apache Spark מבוסס על הקצאה דינמית של Spark ומופעל כברירת מחדל. אפשר לשנות את מאפייני Spark ומאפייני הקצאה דינמית של Spark הבאים:

spark.executor.instances
spark.dynamicAllocation.initialExecutors
spark.dynamicAllocation.minExecutors
spark.dynamicAllocation.maxExecutors

למה צריך לארוז את הקוד בקובץ JAR כדי לשלוח את עומס העבודה של Spark?

‫Spark כתוב ב-Scala, מה שאומר שתהליכי ה-driver וה-worker פועלים כתהליכי JVM. בשפות JVM, קובץ ה-JAR הוא הדרך העיקרית לארוז קוד. מעבירים את קובץ ה-JAR אל Managed Service for Apache Spark כששולחים עומס עבודה.

שאלות נפוצות בנושא Managed Service for Apache Spark serverless קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

מתי כדאי להשתמש בפריסה של Managed Service for Apache Spark serverless במקום בפריסה של אשכול Managed Service for Apache Spark?

מה אפשר לעשות עם פריסה של Managed Service for Apache Spark serverless?

איך כדאי להגדיר תוכנית להפעלת עומס עבודה?

האם אפשר להשתמש בתמונה בהתאמה אישית עם פריסה ללא שרת של Managed Service for Apache Spark?

האם אפשר לציין משאבי זיכרון ודיסק לעומסי עבודה של Managed Service for Apache Spark?

איך אפשר לציין את טווח כתובות ה-IP לרשת ה-VPC של Managed Service for Apache Spark?

האם Managed Service for Apache Spark תומך במיקום נתונים?

איך Managed Service for Apache Spark בוחר אזור בתוך האזור שציינתם להרצת עומס העבודה?

איך עומסי עבודה של Managed Service for Apache Spark משתמשים במשאבי מחשוב?

איפה אפשר למצוא מידע על הודעות, תכונות, תיקוני באגים, בעיות ידועות והוצאות משימוש של Managed Service for Apache Spark?

האם עומסי עבודה מקבילים מתחרים על משאבים?

איך מוקצה מכסת Managed Service for Apache Spark?

האם צריך להגדיר שרת היסטוריה מתמשך של Managed Service for Apache Spark?

אילו יומנים זמינים ב-Managed Service for Apache Spark?

האם אפשר להגדיר את מספר תהליכי הביצוע של עומס העבודה ב-Spark?

באילו מדדי Spark משתמש Managed Service for Apache Spark לצורך שינוי גודל אוטומטי?

האם אפשר להגדיר את ההתנהגות של שינוי הגודל האוטומטי ב-Managed Service for Apache Spark באמצעות מאפייני Spark?

למה צריך לארוז את הקוד בקובץ JAR כדי לשלוח את עומס העבודה של Spark?

שאלות נפוצות בנושא Managed Service for Apache Spark serverless