שאלות נפוצות בנושא Dataproc

כללי

מהו Dataproc?

‫Dataproc הוא שירות שמנוהל במלואו, מהיר, קל לשימוש וזול שמאפשר להריץ את המערכת האקולוגית של Apache Spark ו-Apache Hadoop ב-Google Cloud Platform. ‫Dataproc מאפשר הקצאה מהירה של אשכולות גדולים או קטנים, תומך בסוגים רבים של משימות פופולריות ומשולב עם שירותים אחרים של Google Cloud Platform, כמו Cloud Storage ו-Cloud Logging, וכך עוזר להפחית את העלות הכוללת של הבעלות (TCO).

מה ההבדל בין Dataproc לבין אשכולות Hadoop מסורתיים?

‫Dataproc הוא שירות מנוהל של Spark/Hadoop שמטרתו להפוך את Spark ו-Hadoop לקלים, מהירים ועוצמתיים. בפריסת Hadoop מסורתית, גם אם היא מבוססת-ענן, צריך להתקין, להגדיר, לנהל ולתזמן עבודה באשכול. לעומת זאת, Dataproc מטפל ביצירה, בניהול ובמעקב של אשכולות, וגם בתזמור של משימות.

איך אפשר להשתמש ב-Dataproc?

יש כמה דרכים להשתמש באשכול Dataproc, בהתאם לצרכים וליכולות שלכם. אפשר להשתמש ב-Google Cloud console שמבוסס על דפדפן כדי לבצע פעולות ב-Dataproc. לחלופין, אפשר להשתמש ב-Google Cloud CLI כי Dataproc משולב עם Google Cloud CLI. כדי לגשת לאשכולות באופן פרוגרמטי, משתמשים ב-Dataproc API בארכיטקטורת REST. אפשר גם ליצור חיבורי SSH לצמתי מאסטר או לצמתי עובד באשכול.

איך Dataproc עובד?

‫Dataproc הוא מסגרת מנוהלת שפועלת ב-Google Cloud Platform ומאגדת כמה כלים פופולריים לעיבוד נתונים, כולל Apache Hadoop,‏ Spark,‏ Hive ו-Pig. ל-Dataproc יש קבוצה של מנגנוני בקרה ושילוב שמתאמים את מחזור החיים, הניהול והתיאום של אשכולות. ‫Dataproc משולב עם מנהל האפליקציות YARN כדי להקל על ניהול האשכולות והשימוש בהם.

אילו סוגי עבודות אפשר להריץ?

‫Dataproc מספק תמיכה מקיפה ומוכנה לשימוש עבור רבים מסוגי המשימות הפופולריים ביותר, כולל משימות Spark,‏ Spark SQL,‏ PySpark,‏ MapReduce,‏ Hive ו-Pig.

באיזה Cluster Manager משתמש Dataproc עם Spark?

‫Dataproc מריץ Spark ב-YARN.

באיזו תדירות הרכיבים ב-Dataproc מתעדכנים?

מערכת Dataproc מתעדכנת כשמתרחשים עדכונים משמעותיים ברכיבים הבסיסיים (Hadoop, ‏ Spark, ‏ Hive, ‏ Pig). כל מהדורה ראשית של Dataproc תומכת בגרסאות ספציפיות של כל רכיב (ראו גרסאות Dataproc נתמכות).

האם Dataproc משולב עם מוצרים אחרים של Google Cloud Platform?

כן, ל-Dataproc יש שילובים מובנים ואוטומטיים עם Compute Engine,‏ Cloud Storage,‏ Bigtable,‏ BigQuery,‏ Logging ו-Cloud Monitoring. בנוסף, Dataproc משולב בכלים שמתקשרים עם Cloud Platform, כולל gcloud CLI ו- Google Cloud console.

האם אפשר להפעיל אשכול קבוע?

אחרי שמפעילים אשכולות Dataproc, הם ממשיכים לפעול עד שמכבים אותם. אתם יכולים להפעיל אשכול Dataproc למשך הזמן שאתם צריכים.

ניהול אשכולות

האם אפשר להריץ יותר מקלאסטר אחד בו-זמנית?

כן, אפשר להריץ כמה אשכולות של Dataproc בו-זמנית בכל פרויקט. כברירת מחדל, כל הפרויקטים כפופים למכסות המשאבים של Google Cloud. אתם יכולים לבדוק בקלות את ניצול המכסה ולבקש להגדיל את המכסה. מידע נוסף זמין במאמר מכסות משאבים ב-Dataproc.

איך יוצרים או משמידים אשכול?

יש כמה דרכים ליצור אשכולות ולמחוק אותם. הקטעים של Dataproc ב- Google Cloud console מאפשרים לנהל בקלות אשכולות מהדפדפן. אפשר גם לנהל את האשכולות דרך שורת הפקודה באמצעות ה-CLI של gcloud. בתרחישי שימוש מורכבים או מתקדמים יותר, אפשר להשתמש ב-Cloud Dataproc API בארכיטקטורת REST כדי לנהל אשכולות באופן פרוגרמטי.

האם אפשר להחיל הגדרות מותאמות אישית כשיוצרים אשכול?

‫Dataproc תומך בפעולות אתחול שמופעלות כשנוצר אשכול. פעולות האתחול האלה יכולות להיות סקריפטים או קבצים הפעלה ש-Dataproc יפעיל בזמן הקצאת האשכול כדי להתאים אישית את ההגדרות, להתקין אפליקציות או לבצע שינויים אחרים באשכול.

איך קובעים את הגודל של אשכול בהתאם לצרכים שלי?

ההחלטות לגבי גודל האשכול מושפעות מכמה גורמים, כולל סוג העבודה שצריך לבצע, מגבלות עלויות, דרישות מהירות ומכסת המשאבים שלכם. אפשר לפרוס את Dataproc במגוון סוגי מכונות, כך שאתם יכולים לבחור את המשאבים שאתם צריכים, מתי שאתם צריכים אותם.

האם אפשר לשנות את הגודל של האשכול?

כן, אפשר לשנות את הגודל של האשכול בקלות, גם במהלך עיבוד המשימה. אפשר לשנות את הגודל של האשכול דרך Google Cloud console או דרך שורת הפקודה. שינוי הגודל יכול להגדיל או להקטין את מספר העובדים באשכול. העובדים שנוספים לאשכול יהיו מאותו סוג ובאותו גודל כמו העובדים הקיימים. שינוי הגודל של אשכולות הוא מקובל ונתמך, למעט במקרים מיוחדים, כמו צמצום מספר העובדים לאחד או צמצום הקיבולת של HDFS מתחת לכמות הנדרשת להשלמת העבודה.

ניהול משרות ותהליכי עבודה

איך שולחים משרות לאשכול?

יש כמה דרכים לשלוח משימות באשכול Dataproc. הדרך הכי קלה היא להשתמש בדף Submit a job (שליחת משימה) ב-Dataproc במסוף Google Cloud או בפקודה gcloud dataproc jobs submit ב-CLI של gcloud. לשליחת משימות באופן פרוגרמטי, ראו הפניית Dataproc API.

האם אפשר להריץ יותר מעבודה אחת בכל פעם?

כן, אפשר להריץ יותר ממשימה אחת בו-זמנית באשכול Dataproc. ‫Cloud Dataproc משתמש במנהל משאבים (YARN) ובהגדרות ספציפיות לאפליקציות, כמו שינוי גודל עם Spark, כדי לייעל את השימוש במשאבים באשכול. ביצועי העבודה ישתנו בהתאם לגודל האשכול ולמספר העבודות הפעילות.

אפשר לבטל משימות באשכול?

בהחלט. אפשר לבטל את העבודות דרך Google Cloud console ממשק האינטרנט או שורת הפקודה. ‫Dataproc משתמש בביטול של אפליקציות YARN כדי להפסיק משימות לפי בקשה.

האם אפשר להגדיר אוטומציה של משימות באשכול?

אפשר להגדיר משימות להרצה אוטומטית באשכולות באמצעות כמה מנגנונים. אפשר להשתמש ב-ה-CLI של gcloud או בממשקי ה-API של Dataproc REST כדי להפוך את הניהול ותהליך העבודה של אשכולות ועבודות לאוטומטיים.

פיתוח

אילו שפות פיתוח נתמכות?

אפשר להשתמש בשפות שנתמכות על ידי הסביבה של Spark/Hadoop, כולל Java,‏ Scala,‏ Python ו-R.

האם ל-Dataproc יש API?

כן, ל-Dataproc יש קבוצה של ממשקי API מסוג RESTful שמאפשרים לכם ליצור אינטראקציה פרוגרמטית עם אשכולות ומשימות.

האם אפשר להתחבר ל-SSH באשכול?

כן, אפשר להתחבר לכל מכונה (צומת ראשי או צומת עובד) באשכול באמצעות SSH. אפשר להשתמש ב-SSH מדפדפן או משורת הפקודה.

האם יש לי גישה לממשקי המשתמש באינטרנט של Spark או Hadoop?

כן, אפשר לגשת לממשקי המשתמש של Hadoop ו-Spark (ממשקי המשתמש של Spark,‏ Hadoop ו-YARN) בתוך אשכול. במקום לפתוח יציאות לממשקי המשתמש, מומלץ להשתמש במנהרת SSH, שתעביר באופן מאובטח תנועה מאשכולות דרך חיבור ה-SSH.

האם אפשר להתקין או לנהל תוכנה באשכול?

כן, כמו באשכול או בשרת Hadoop, אפשר להתקין ולנהל תוכנה באשכול Dataproc.

מהו גורם השכפול שמוגדר כברירת מחדל?

משיקולי ביצועים וגם בגלל האמינות הגבוהה של האחסון שמצורף לאשכולות Dataproc, גורם השכפול מוגדר כברירת מחדל ל-2.

באיזו מערכת הפעלה (OS) משתמשים ב-Dataproc?

‫Dataproc מבוסס על Debian ו-Ubuntu. התמונות העדכניות ביותר מבוססות על Debian 10 Buster ו-Ubuntu 18.04 LTS.

איפה אפשר לקבל מידע על Hadoop streaming?

אפשר לעיין בתיעוד של פרויקט Apache.

איך מתקינים את הפקודה gcloud dataproc?

כשמתקינים את ה-CLI של gcloud, מותקן כלי שורת הפקודה הרגיל gcloud, כולל פקודות gcloud dataproc.

גישה לנתונים וזמינות

איך אפשר להכניס נתונים לאשכול ולהוציא נתונים ממנו?

‫Dataproc משתמש במערכת הקבצים המבוזרת של Hadoop ‏ (HDFS) לאחסון. בנוסף, Dataproc מתקין באופן אוטומטי את המחבר של Google Cloud Storage שתואם ל-HDFS, שמאפשר שימוש ב-Cloud Storage במקביל ל-HDFS. אפשר להעביר נתונים אל אשכול וממנו באמצעות העלאה/הורדה אל HDFS או אל Cloud Storage.

האם אפשר להשתמש ב-Cloud Storage עם Dataproc?

כן, באשכולות Dataproc מותקן באופן אוטומטי מחבר Cloud Storage. יש כמה יתרונות לבחירה ב-Cloud Storage על פני HDFS מסורתי, כולל עמידות הנתונים, אמינות וביצועים.

האם אפשר לקבל תמיכה ב-Cloud Storage Connector?

כן, כשמשתמשים ב-Dataproc, המחבר של Cloud Storage נתמך באותה רמה כמו Dataproc (ראו קבלת תמיכה). כל המשתמשים במחבר יכולים להשתמש בתג google-cloud-dataproc ב-Stack Overflow כדי לשאול שאלות ולקבל תשובות בנושא המחבר.

מה גודל הקובץ האידיאלי למערכי נתונים ב-HDFS וב-Cloud Storage?

כדי לשפר את הביצועים, כדאי לאחסן נתונים בקבצים גדולים יותר, למשל קבצים בגודל של 256MB עד 512MB.

עד כמה Dataproc אמין?

‫Dataproc מבוסס על טכנולוגיות אמינות ומוכחות של Google Cloud Platform, כולל Compute Engine,‏ Cloud Storage ו-Monitoring, ולכן הוא מתוכנן לזמינות ואמינות גבוהות. כמוצר שזמין לכולם, אפשר לעיין בהסכם רמת השירות (SLA) של Dataproc.

מה קורה לנתונים שלי כשסוגרים אשכול?

כל הנתונים ב-Cloud Storage נשמרים גם אחרי שהאשכול מושבת. זו אחת הסיבות לבחור ב-Cloud Storage במקום ב-HDFS, כי נתוני HDFS מוסרים כשסוגרים אשכול (אלא אם הם מועברים למיקום קבוע לפני הסגירה).

רישום ביומן, מעקב וניפוי באגים

איזה סוג של רישום ביומן ומעקב זמינים?

כברירת מחדל, אשכולות Dataproc משולבים עם Monitoring ו-Logging. התכונות 'מעקב' ו'רישום ביומן' מאפשרות לקבל בקלות מידע מפורט על התקינות, הביצועים והסטטוס של אשכולות Dataproc. יומני המערכת והאפליקציות (YARN,‏ Spark וכו') מועברים ל-Logging.

איך אפשר לראות יומנים מ-Dataproc?

יש כמה דרכים לצפייה ביומנים מ-Dataproc. אפשר להיכנס ל-Logging כדי לראות את היומנים המצטברים של האשכול בדפדפן אינטרנט. בנוסף, אפשר להשתמש בשורת הפקודה (SSH) כדי להציג יומנים באופן ידני או לעקוב אחרי פלט של אפליקציות. לבסוף, פרטים זמינים גם דרך ממשקי המשתמש באינטרנט של אפליקציית Hadoop, כמו ממשק האינטרנט של YARN.

איך אפשר לעקוב אחרי אשכולות?

אפשר לעקוב בקלות אחרי אשכולות באמצעות Monitoring או הקטע Cloud Dataproc ב- Google Cloud console. אפשר גם לעקוב אחרי האשכולות באמצעות גישה לשורת הפקודה (SSH) או ממשקי האינטרנט של האפליקציה (Spark,‏ YARN וכו').

אבטחה וגישה

איך הנתונים שלי מאובטחים?

ב-Google Cloud Platform יש מודל אבטחה מקיף, שחל גם על Cloud Dataproc. ‫Dataproc מספק מנגנוני אימות, הרשאה והצפנה, כמו SSL, כדי לאבטח את הנתונים. הנתונים יכולים להיות מוצפנים על ידי המשתמש בזמן ההעברה אל אשכול וממנו, בזמן יצירת האשכול או שליחת העבודה.

איך אפשר לשלוט בגישה לאשכול Dataproc?

ב-Google Cloud Platform יש מנגנוני אימות שאפשר להשתמש בהם עם Dataproc. אפשר להעניק למשתמשים גישה לאשכולות ולמשימות של Dataproc ברמת הפרויקט.

חיוב

איך מתבצע החיוב ב-Dataproc?

החיוב ב-Dataproc הוא לפי שנייה, והוא מבוסס על גודל האשכול ומשך הזמן שהאשכול פועל. בחישוב רכיב האשכול של העמלה, Dataproc מחייב עמלה קבועה על סמך מספר המעבדים הווירטואליים (vCPU) באשכול. התשלום הקבוע הזה לא משתנה בהתאם לסוג המכונה או לגודל המשאבים של Compute Engine שבהם נעשה שימוש.

האם אחויב על משאבים אחרים ב-Google Cloud?

כן, הפעלת אשכול Dataproc כרוכה בחיוב על משאבים אחרים ב-Google Cloud שנעשה בהם שימוש באשכול, כמו Compute Engine ו-Cloud Storage. כל פריט מופיע בנפרד בחשבון, כך שאתם יודעים בדיוק איך העלויות מחושבות ומוקצות.

האם יש זמן מינימלי או מקסימלי לחיוב?

החיובים ב-Google Cloud מחושבים לפי שנייה, ולא לפי שעה. כרגע, ב-Compute Engine יש תוספת מינימלית לחיוב של דקה אחת. לכן, גם ב-Dataproc יש תוספת חיוב מינימלית של דקה אחת.

זמינות

מי יכול ליצור אשכול Dataproc?

השירות Dataproc זמין לכל הלקוחות של Google Cloud Platform.

באילו אזורים אפשר להשתמש ב-Dataproc?

‫Dataproc זמין בכל האזורים והתחומים (zones) של פלטפורמת Google Cloud.