שירותי Dataproc

בדף הזה מפורטים השירותים שגרסאות התמונות של Dataproc פועלות עליהם בצמתי אשכול Dataproc.

כל הצמתים

השירותים הבאים פועלים בכל הצמתים באשכול.

סוג הצומת שירות גרסאות של תמונות תיאור
כל הצמתים google-dataproc-agent all מקבל משימות מ-Dataproc ומפעיל את מנהלי המשימות
google-fluentd all איסוף יומנים ושליחתם ל-Logging

אשכולות רגילים

השירותים הבאים פועלים באשכולות רגילים.

סוג הצומת שירות גרסאות של תמונות תיאור
מאסטר hadoop-hdfs-namenode all ניהול מערכת הקבצים HDFS
hadoop-hdfs-secondarynamenode all נקודות ביקורת של NameNode
hadoop-mapreduce-historyserver all הצגת מידע על היסטוריית אפליקציות של MapReduce
hadoop-yarn-resourcemanager all תזמון וניהול של אפליקציות YARN
hadoop-yarn-timelineserver ‫1.3 ומעלה השירות מספק מידע על היסטוריית האפליקציות של YARN
hive-metastore all ניהול מטא-נתונים של טבלאות Hive. כברירת מחדל, משתמש במסד הנתונים המקומי mariadb (גרסאות תמונה < 1.5) או mysql (גרסאות תמונה 1.5 ומעלה) בצומת הראשי כמאגר מטא-נתונים של טבלת Hive. לא מומלץ להשתמש במסד הנתונים שמוגדר כברירת מחדל כי מסדי הנתונים האלה קשורים למחזור החיים של האשכול. במקום זאת, אפשר להשתמש באחת מהאפשרויות הבאות כמסד הנתונים של Hive metastore (לפי סדר ההמלצות):
  1. Dataproc Metastore
  2. מופע Cloud SQL
hive-server2 all משרת שאילתות שהתקבלו מלקוחות (בעיקר שאילתות של מעטפת beeline) מול Hive
mariadb פחות מ-1.5 מסד נתונים רלציוני שמשמש כמסד הנתונים הבסיסי שמוגדר כברירת מחדל ל-metastore של Hive בתמונות של Dataproc בגרסה 1.5 ומטה
mysql ‫1.5 ומעלה מסד נתונים רלציוני שמשמש כמסד הנתונים הבסיסי שמוגדר כברירת מחדל ל-Hive metastore בתמונות של Dataproc מגרסה 1.5 ואילך
nfs-kernel-server ‫< 1.3 ‫NFS היא מערכת הקבצים ברשת.
spark-history-server all הצגת מידע על היסטוריית האפליקציות של Spark
כל העובדים hadoop-yarn-nodemanager all הפעלה וניהול של קונטיינרים של YARN
עובדים ראשיים בלבד hadoop-hdfs-datanode all מאחסן בלוקים של HDFS

אשכולות HA

ב-Dataproc, שירותים שונים מופעלים בצמתים ראשיים שונים באשכולות עם זמינות גבוהה (HA), כמו שמוצג בהמשך. השירותים של צומתי העובדים באשכול HA זהים לאלה שמפורטים באשכולות רגילים.

סוג הצומת שירות גרסאות של תמונות תיאור
כל המאסטרים hadoop-hdfs-journalnode all קוורום של צמתי יומן מתחזק יומן עריכה של שינויים במרחב השמות של HDFS. אם מתרחש יתירות כשל, Standby NameNode קורא את יומן העריכה ומקבל שליטה מ-Active NameNode.
hadoop-yarn-resourcemanager all תזמון וניהול של אפליקציות YARN
hive-metastore all ניהול מטא-נתונים של טבלאות Hive. כברירת מחדל, משתמש במסד הנתונים המקומי mariadb (גרסאות תמונה < 1.5) או mysql (גרסאות תמונה 1.5 ומעלה) בצומת הראשי כמאגר מטא-נתונים של טבלת Hive. לא מומלץ להשתמש במסד הנתונים שמוגדר כברירת מחדל כי מסדי הנתונים האלה קשורים למחזור החיים של האשכול. במקום זאת, אפשר להשתמש באחת מהאפשרויות הבאות כמסד הנתונים של Hive metastore (לפי סדר ההמלצות):
  1. Dataproc Metastore
  2. מופע Cloud SQL
hive-server2 all משרת שאילתות שהתקבלו מלקוחות (בעיקר שאילתות של מעטפת beeline) מול Hive
zookeeper-server all נעשה שימוש בקוורום של ZooKeeper לתיאום מבוזר. באשכולות של זמינות גבוהה (HA), נעשה שימוש ב-ZooKeeper כדי לבחור את ה-leader של HDFS NameNodes ושל YARN resource managers.
‫Masters 0 ו-1 בלבד hadoop-hdfs-namenode all ניהול מערכת הקבצים HDFS
hadoop-hdfs-zkfc all ‫ZKFC הוא התהליך ZKFailoverController, שפועל עם HDFS NameNode. הוא עוקב אחרי הבריאות של NameNode ומנהל את בחירת הלידר באמצעות ZooKeeper במקרה של מעבר לגיבוי.
רק מאסטר 0 hadoop-mapreduce-historyserver all הצגת מידע על היסטוריית אפליקציות של MapReduce
hadoop-yarn-timelineserver ‫1.3 ומעלה השירות מספק מידע על היסטוריית האפליקציות של YARN
mariadb פחות מ-1.5 מסד נתונים רלציוני שמשמש כמסד הנתונים הבסיסי שמוגדר כברירת מחדל ל-metastore של Hive בתמונות של Dataproc בגרסה 1.5 ומטה
mysql ‫1.5 ומעלה מסד נתונים רלציוני שמשמש כמסד הנתונים הבסיסי שמוגדר כברירת מחדל ל-Hive metastore בתמונות של Dataproc מגרסה 1.5 ואילך
nfs-kernel-server ‫< 1.3 ‫NFS היא מערכת הקבצים ברשת.
spark-history-server all הצגת מידע על היסטוריית האפליקציות של Spark