שאלות נפוצות בנושא Managed Service for Apache Spark באשכולות

כללי

מהו Managed Service for Apache Spark?

‫Managed Service for Apache Spark הוא שירות מנוהל במלואו, מהיר, קל לשימוש וזול, שמאפשר להפעיל את המערכת האקולוגית של Apache Spark ו-Apache Hadoop ב-Google Cloud Platform. השירות המנוהל ל-Apache Spark מספק במהירות אשכולות גדולים או קטנים, תומך בסוגים רבים של משימות פופולריות ומשולב עם שירותים אחרים של Google Cloud Platform, כמו Cloud Storage ו-Cloud Logging, וכך עוזר לכם לצמצם את עלות הבעלות הכוללת (TCO).

מה ההבדל בין Managed Service for Apache Spark לבין אשכולות Hadoop מסורתיים?

‫Managed Service for Apache Spark הוא שירות מנוהל של Spark/Hadoop שמטרתו להפוך את Spark ו-Hadoop לקלים, מהירים ועוצמתיים. בפריסת Hadoop רגילה, גם אם היא מבוססת-ענן, צריך להתקין, להגדיר, לנהל ולתזמן עבודה באשכול. לעומת זאת, Managed Service for Apache Spark מטפל בשבילכם ביצירת אשכולות, בניהול, בניטור ובתזמור של משימות.

איך אפשר להשתמש ב-Managed Service for Apache Spark?

יש כמה דרכים להשתמש באשכול Managed Service for Apache Spark, בהתאם לצרכים וליכולות שלכם. אפשר להשתמש ב-Google Cloud console שמבוסס על דפדפן כדי ליצור אינטראקציה עם Managed Service for Apache Spark. לחלופין, אפשר להשתמש ב-Google Cloud CLI כי Managed Service for Apache Spark משולב עם Google Cloud CLI. כדי לגשת לאשכולות באופן פרוגרמטי, משתמשים ב-API בארכיטקטורת REST של Managed Service for Apache Spark. אפשר גם ליצור חיבורי SSH לצמתי מאסטר או לצמתי עובד באשכול.

איך Managed Service for Apache Spark עובד?

Managed Service for Apache Spark הוא מסגרת מנוהלת שפועלת ב-Google Cloud Platform ומאגדת כמה כלים פופולריים לעיבוד נתונים, כולל Apache Hadoop,‏ Spark,‏ Hive ו-Pig. ל-Managed Service for Apache Spark יש קבוצה של מנגנוני בקרה ושילוב שמתאמים את מחזור החיים, הניהול והתיאום של אשכולות. ‫Managed Service for Apache Spark משולב עם מנהל האפליקציות YARN כדי להקל על הניהול והשימוש באשכולות.

אילו סוגי משרות אפשר להריץ?

‫Managed Service for Apache Spark מספק תמיכה מקיפה ומוכנה לשימוש עבור הרבה מסוגי המשימות הפופולריים ביותר, כולל משימות Spark,‏ Spark SQL,‏ PySpark,‏ MapReduce,‏ Hive ו-Pig.

איזה מנהל אשכולות משמש את Managed Service for Apache Spark עם Spark?

‫Managed Service for Apache Spark מריץ Spark on YARN.

באיזו תדירות מתעדכנים הרכיבים ב-Managed Service for Apache Spark?

השירות Managed Service for Apache Spark מתעדכן כשמתרחשות מהדורות משמעותיות ברכיבים הבסיסיים (Hadoop, ‏ Spark, ‏ Hive, ‏ Pig). כל מהדורה מרכזית של Managed Service for Apache Spark תומכת בגרסאות ספציפיות של כל רכיב (ראו גרסאות נתמכות של Managed Service for Apache Spark).

האם Managed Service for Apache Spark משולב עם מוצרים אחרים של Google Cloud Platform?

כן, ל-Managed Service for Apache Spark יש שילובים מקוריים ואוטומטיים עם Compute Engine,‏ Cloud Storage,‏ Bigtable,‏ BigQuery,‏ Logging ו-Cloud Monitoring. בנוסף, Managed Service for Apache Spark משולב בכלים שיוצרים אינטראקציה עם Cloud Platform, כולל ה-CLI של gcloud ו- Google Cloud console.

האם אפשר להפעיל אשכול קבוע?

אחרי שמפעילים אשכולות של Managed Service for Apache Spark, הם ממשיכים לפעול עד שמכבים אותם. אתם יכולים להפעיל אשכול של Managed Service for Apache Spark למשך הזמן שאתם צריכים.

ניהול אשכולות

האם אפשר להריץ יותר מאשכול אחד בו-זמנית?

כן, אפשר להפעיל בו-זמנית יותר מאשכול אחד של Managed Service for Apache Spark בכל פרויקט. כברירת מחדל, כל הפרויקטים כפופים למכסות המשאבים של Google Cloud. אתם יכולים לבדוק בקלות את ניצול המכסה ולבקש להגדיל את המכסה. מידע נוסף זמין במאמר בנושא מכסות משאבים ב-Managed Service for Apache Spark.

איך יוצרים או משמידים אשכול?

יש כמה דרכים ליצור אשכולות ולמחוק אותם. הקטעים בנושא Managed Service for Apache Spark ב Google Cloud console מאפשרים לכם לנהל בקלות אשכולות מהדפדפן. אפשר גם לנהל את האשכולות דרך שורת הפקודה באמצעות ה-CLI של gcloud. לתרחישי שימוש מורכבים או מתקדמים יותר, אפשר להשתמש ב-API בארכיטקטורת REST של Cloud Managed Service for Apache Spark כדי לנהל אשכולות באופן פרוגרמטי.

האם אפשר להחיל הגדרות מותאמות אישית כשיוצרים אשכול?

‫Managed Service for Apache Spark תומך בפעולות הפעלה שמופעלות כשיוצרים אשכול. פעולות ההפעלה האלה יכולות להיות סקריפטים או קבצים הפעלה ש-Managed Service for Apache Spark יפעיל בזמן הקצאת האשכול כדי להתאים אישית את ההגדרות, להתקין אפליקציות או לבצע שינויים אחרים באשכול.

איך קובעים את הגודל של אשכול בהתאם לצרכים שלי?

ההחלטות לגבי גודל האשכול מושפעות מכמה גורמים, כולל סוג העבודה שצריך לבצע, מגבלות עלויות, דרישות מהירות ומכסת המשאבים שלכם. אפשר לפרוס את Managed Service for Apache Spark במגוון סוגי מכונות, כך שיש לכם גמישות לבחור את המשאבים שאתם צריכים, כשאתם צריכים אותם.

האם אפשר לשנות את הגודל של האשכול?

כן, אפשר לשנות את הגודל של האשכול בקלות, גם במהלך עיבוד המשימה. אפשר לשנות את הגודל של האשכול דרך Google Cloud console או דרך שורת הפקודה. שינוי הגודל יכול להגדיל או להקטין את מספר העובדים באשכול. ה-workers שיתווספו לאשכול יהיו מאותו סוג ובאותו גודל כמו ה-workers הקיימים. שינוי הגודל של אשכולות הוא מקובל ונתמך, למעט במקרים מיוחדים, כמו צמצום מספר העובדים לאחד או צמצום קיבולת ה-HDFS מתחת לכמות הנדרשת להשלמת העבודה.

ניהול עבודות ותהליכי עבודה

איך שולחים משרות לאשכול?

יש כמה דרכים לשלוח משימות באשכול Managed Service for Apache Spark. הדרך הכי קלה היא להשתמש בדף Submit a job (שליחת משימה) בשירות המנוהל של Apache Spark במסוף Google Cloud או בפקודה gcloud dataproc jobs submit ב-CLI של gcloud. למידע על שליחת עבודות באופן פרוגרמטי, אפשר לעיין בהפניית Dataproc API.

האם אפשר להריץ יותר מעבודה אחת בכל פעם?

כן, אפשר להריץ יותר מעבודה אחת בכל פעם באשכול Managed Service for Apache Spark. ‫Cloud Managed Service for Apache Spark משתמש במנהל משאבים (YARN) ובהגדרות ספציפיות לאפליקציה, כמו שינוי גודל עם Spark, כדי לייעל את השימוש במשאבים באשכול. ביצועי העבודה ישתנו בהתאם לגודל האשכול ולמספר המשימות הפעילות.

האם אפשר לבטל משימות באשכול?

בהחלט. אפשר לבטל משימות דרך Google Cloud consoleממשק האינטרנט או שורת הפקודה. ‫Managed Service for Apache Spark משתמש בביטול של אפליקציות YARN כדי להפסיק משימות לפי בקשה.

האם אפשר להגדיר אוטומציה של משימות באשכול?

אפשר להגדיר משימות להרצה אוטומטית באשכולות באמצעות כמה מנגנונים. אפשר להשתמש ב-ה-CLI של gcloud או בממשקי ה-API של REST של Managed Service for Apache Spark כדי להפוך את הניהול ואת תהליך העבודה של אשכולות ועבודות לאוטומטיים.

פיתוח

אילו שפות פיתוח נתמכות?

אפשר להשתמש בשפות שנתמכות על ידי הסביבה של Spark/Hadoop, כולל Java,‏ Scala,‏ Python ו-R.

האם ל-Managed Service for Apache Spark יש API?

כן, ל-Managed Service for Apache Spark יש קבוצה של ממשקי API ל-REST שמאפשרים אינטראקציה פרוגרמטית עם אשכולות ומשימות.

האם אפשר להתחבר ל-SSH באשכול?

כן, אפשר להשתמש ב-SSH בכל מכונה (צומת ראשי או צומת עובד) בתוך אשכול. אפשר להשתמש ב-SSH מדפדפן או משורת הפקודה.

האם יש לי גישה לממשקי המשתמש באינטרנט של Spark או Hadoop?

כן, ממשקי המשתמש של Hadoop ו-Spark (ממשקי המשתמש של Spark,‏ Hadoop ו-YARN) נגישים בתוך אשכול. במקום לפתוח יציאות לממשקי המשתמש, מומלץ להשתמש במנהרת SSH, שתעביר באופן מאובטח תנועה מאשכולות דרך חיבור ה-SSH.

האם אפשר להתקין או לנהל תוכנה באשכול?

כן, כמו באשכול או בשרת Hadoop, אפשר להתקין ולנהל תוכנה באשכול Managed Service for Apache Spark.

מהו גורם השכפול שמוגדר כברירת מחדל?

משיקולי ביצועים וגם בגלל המהימנות הגבוהה של האחסון שמצורף לאשכולות של Managed Service for Apache Spark, גורם השכפול שמוגדר כברירת מחדל הוא 2.

באיזו מערכת הפעלה (OS) נעשה שימוש ב-Managed Service for Apache Spark?

‫Managed Service for Apache Spark מבוסס על Debian ו-Ubuntu. התמונות העדכניות מבוססות על Debian 10 Buster ו-Ubuntu 18.04 LTS.

איפה אפשר לקבל מידע על Hadoop streaming?

אפשר לעיין בתיעוד של פרויקט Apache.

איך מתקינים את הפקודה gcloud dataproc?

כשמתקינים את ה-CLI של gcloud, מותקן כלי שורת הפקודה הרגיל gcloud, כולל פקודות gcloud dataproc.

גישה לנתונים וזמינות

איך אפשר להכניס נתונים לאשכול ולהוציא נתונים ממנו?

‫Managed Service for Apache Spark משתמש ב-Hadoop Distributed File System‏ (HDFS) לאחסון. בנוסף, Managed Service for Apache Spark מתקין באופן אוטומטי את המחבר של Google Cloud Storage שתואם ל-HDFS, ומאפשר להשתמש ב-Cloud Storage במקביל ל-HDFS. אפשר להעביר נתונים אל אשכול וממנו באמצעות העלאה/הורדה ל-HDFS או ל-Cloud Storage.

האם אפשר להשתמש ב-Cloud Storage עם Dataproc?

כן, באשכולות של Managed Service for Apache Spark מותקן באופן אוטומטי מחבר Cloud Storage. יש כמה יתרונות לשימוש ב-Cloud Storage במקום ב-HDFS המסורתי, כולל עמידות הנתונים, אמינות וביצועים.

האם אפשר לקבל תמיכה ב-Cloud Storage Connector?

כן, כשמשתמשים במחבר Cloud Storage עם Managed Service for Apache Spark, הוא נתמך באותה רמה כמו Managed Service for Apache Spark (ראו קבלת תמיכה). כל המשתמשים במחבר יכולים להשתמש בתג google-cloud-dataproc ב-Stack Overflow כדי לשאול שאלות ולקבל תשובות בנושא המחבר.

מה גודל הקובץ האידיאלי למערכי נתונים ב-HDFS וב-Cloud Storage?

כדי לשפר את הביצועים, כדאי לאחסן נתונים בקבצים גדולים יותר, למשל קבצים בגודל של 256MB עד 512MB.

עד כמה שירות Managed Service for Apache Spark אמין?

השירות המנוהל ל-Apache Spark מבוסס על טכנולוגיות אמינות ומוכחות של Google Cloud Platform, כולל Compute Engine,‏ Cloud Storage ו-Monitoring, ולכן הוא מתוכנן לזמינות ואמינות גבוהות. כמוצר שזמין לכולם, אפשר לעיין בהסכם רמת השירות (SLA) של Managed Service for Apache Spark.

מה קורה לנתונים שלי כשסוגרים אשכול?

כל הנתונים ב-Cloud Storage נשמרים גם אחרי שהאשכול מושבת. זו אחת הסיבות לבחור ב-Cloud Storage במקום ב-HDFS, כי נתוני HDFS מוסרים כשסוגרים אשכול (אלא אם הם מועברים למיקום קבוע לפני הסגירה).

רישום ביומן, מעקב וניפוי באגים

איזה סוג של רישום ביומן ומעקב זמינים?

כברירת מחדל, אשכולות של Managed Service for Apache Spark משולבים עם Monitoring ו-Logging. בעזרת ניטור ורישום ביומן אפשר לקבל בקלות מידע מפורט על התקינות, הביצועים והסטטוס של אשכולות Managed Service for Apache Spark. יומני המערכת והאפליקציות (YARN,‏ Spark וכו') מועברים אל Logging.

איך אפשר לראות יומנים מ-Managed Service for Apache Spark?

יש כמה דרכים להציג יומנים מ-Managed Service for Apache Spark. אפשר להיכנס ל-Logging כדי לראות את היומנים המצטברים של האשכול בדפדפן אינטרנט. בנוסף, אפשר להשתמש בשורת הפקודה (SSH) כדי להציג יומנים באופן ידני או לעקוב אחרי פלט של אפליקציות. בנוסף, פרטים זמינים גם דרך ממשקי האינטרנט של אפליקציית Hadoop, כמו ממשק האינטרנט של YARN.

איך אפשר לעקוב אחרי אשכולות?

אפשר לעקוב בקלות אחרי אשכולות באמצעות Monitoring או הקטע Cloud Managed Service for Apache Spark ב- Google Cloud console. אפשר גם לעקוב אחרי האשכולות באמצעות גישה לשורת הפקודה (SSH) או באמצעות ממשקי האינטרנט של האפליקציה (Spark,‏ YARN וכו').

אבטחה וגישה

איך הנתונים שלי מאובטחים?

ב-Google Cloud Platform יש מודל אבטחה מקיף, שחל גם על Cloud Managed Service for Apache Spark. ‫Managed Service for Apache Spark מספק מנגנוני אימות, הרשאה והצפנה, כמו SSL, כדי לאבטח את הנתונים. הנתונים יכולים להיות מוצפנים על ידי המשתמש בזמן ההעברה אל אשכול וממנו, בזמן יצירת האשכול או שליחת העבודה.

איך אפשר לשלוט בגישה לאשכול Managed Service for Apache Spark?

פלטפורמת Google Cloud מציעה מנגנוני אימות שאפשר להשתמש בהם עם Managed Service for Apache Spark. אפשר להעניק למשתמשים גישה למשימות ולאשכולות של Managed Service for Apache Spark ברמת הפרויקט.

חיוב

איך מתבצע החיוב על Managed Service for Apache Spark?

החיוב על Managed Service for Apache Spark הוא לפי שנייה, והוא מבוסס על גודל האשכול ומשך הזמן שהאשכול פועל. בחישוב רכיב האשכול של העמלה, Managed Service for Apache Spark מחייב עמלה קבועה על סמך מספר המעבדים הווירטואליים (vCPU) באשכול. התשלום הקבוע הזה לא משתנה בהתאם לסוג המכונה או לגודל המשאבים ב-Compute Engine שבהם נעשה שימוש.

האם אחויב על משאבים אחרים ב-Google Cloud?

כן, הפעלת אשכול של Managed Service for Apache Spark כרוכה בחיובים על משאבים אחרים של Google Cloud שנעשה בהם שימוש באשכול, כמו Compute Engine ו-Cloud Storage. כל פריט מופיע בנפרד בחשבון, כך שאתם יודעים בדיוק איך העלויות מחושבות ומוקצות.

האם יש זמן מינימלי או מקסימלי לחיוב?

החיובים ב-Google Cloud מחושבים לפי שנייה, ולא לפי שעה. נכון לעכשיו, ב-Compute Engine יש תוספת מינימלית לחיוב של דקה אחת. לכן, גם ל-Managed Service for Apache Spark יש תוספת חיוב מינימלית של דקה אחת.

זמינות

מי יכול ליצור אשכול Managed Service for Apache Spark?

השירות Managed Service for Apache Spark זמין לכולם, כלומר כל הלקוחות של Google Cloud Platform יכולים להשתמש בו.

באילו אזורים זמין Managed Service for Apache Spark?

‫Managed Service for Apache Spark זמין בכל האזורים והתחומים (zones) של פלטפורמת Google Cloud.