מאפיינים שקשורים ל-Apache Hadoop YARN, HDFS ו-Spark
רכיבי הקוד הפתוח שמותקנים באשכולות של Managed Service for Apache Spark מכילים קובצי הגדרות רבים. לדוגמה, ל-Apache Spark ול-Apache Hadoop יש כמה קובצי הגדרה בפורמט XML ובפורמט טקסט פשוט. אפשר להשתמש בדגל ‑‑properties של הפקודה gcloud dataproc clusters create כדי לשנות הרבה קובצי הגדרה נפוצים כשיוצרים אשכול.
עיצוב
הדגל gcloud dataproc clusters create --properties מקבל את פורמט המחרוזת הבא:
file_prefix1:property1=value1,file_prefix2:property2=value2,...
הפרמטר file_prefix ממופה לקובץ תצורה מוגדר מראש, כמו שמוצג בטבלה שלמטה, והפרמטר property ממופה למאפיין בתוך הקובץ.
תו מפריד ברירת המחדל שמשמש להפרדה בין כמה מאפייני אשכול הוא פסיק (,). עם זאת, אם ערך מאפיין כולל פסיק, צריך לשנות את התו המפריד על ידי ציון '^delimiter^' בתחילת רשימת המאפיינים (מידע נוסף זמין במאמר בנושא gcloud topic escaping).
- דוגמה לשימוש בתו # כתו מפריד:
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
- דוגמה לשימוש בתו # כתו מפריד:
דוגמאות
מסוףGoogle Cloud
כדי לשנות את ההגדרה spark.master בקובץ spark-defaults.conf:
- במסוף Google Cloud , פותחים את הדף Create cluster.
- לוחצים על הגדרה נוספת כדי להרחיב את הקטע.
- עורכים את התאמה אישית ואחר.
- בחלונית שנפתחת, בקטע מאפייני האשכול, לוחצים על + הוספת מאפיינים.
- ברשימה Prefix בוחרים באפשרות spark.
- בשדה מפתח, מזינים
spark.master. - בשדה ערך, מזינים את ההגדרה.
- לוחצים על Save.
CLI של gcloud
כדי לשנות את ההגדרה spark.master בקובץ spark-defaults.conf, מוסיפים את הדגל gcloud dataproc clusters create --properties הבא:
--properties 'spark:spark.master=spark://example.com'
אפשר לשנות כמה מאפיינים בבת אחת, בקובץ הגדרה אחד או יותר, באמצעות פסיק להפרדה. כל מאפיין צריך להיות מוגדר בפורמט המלא file_prefix:property=value. לדוגמה, כדי לשנות את ההגדרה spark.master בקובץ spark-defaults.conf ואת ההגדרה dfs.hosts בקובץ hdfs-site.xml, משתמשים בדגל --properties הבא כשיוצרים אשכול:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
API בארכיטקטורת REST
כדי להגדיר את spark.executor.memory ל-10g, מוסיפים את ההגדרה properties הבאה לקטע SoftwareConfig בבקשת clusters.create:
"properties": {
"spark:spark.executor.memory": "10g"
}
דרך קלה לראות איך ליצור את גוף ה-JSON של בקשת REST של Dataproc API clusters היא להפעיל את הפקודה המקבילה gcloud באמצעות הדגל --log-http.
בדוגמה הבאה מוצגת פקודת gcloud dataproc clusters create שקובעת את מאפייני האשכול באמצעות הדגל --properties spark:spark.executor.memory=10g.
יומן stdout מציג את גוף בקשת ה-REST שנוצרה (קטע הקוד properties
מוצג בהמשך):
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
פלט:
...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
...
== body end ==
...
חשוב לבטל את הפקודה אחרי שתוכן ה-JSON מופיע בפלט, אם לא רוצים שהפקודה תיכנס לתוקף.
מאפייני אשכול לעומת מאפייני משימה
המאפיינים של Apache Hadoop YARN, HDFS, Spark ומאפיינים אחרים שמתחילים ב-file מוחלים ברמת האשכול כשיוצרים אשכול. אי אפשר להחיל את הנכסים האלה על אשכול אחרי יצירת האשכול. עם זאת, אפשר להחיל רבים מהמאפיינים האלה גם על משרות ספציפיות. כשמחילים מאפיין על משימה, הקידומת של הקובץ לא נמצאת בשימוש.
בדוגמה הבאה, הזיכרון של Spark executor מוגדר ל-4g עבור עבודת Spark (הקידומת spark: הושמטה).
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
אפשר לשלוח מאפייני עבודה בקובץ באמצעות הדגל gcloud dataproc jobs submit job-type --properties-file (לדוגמה, אפשר לעיין בתיאור של --properties-file לשליחת עבודה ב-Hadoop).
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
PROPERTIES_FILE הוא קבוצה של צמדי key=value שמופרדים בשורות. המאפיין שצריך להגדיר הוא key, והערך שצריך להגדיר למאפיין הוא value. תיאור מפורט של פורמט קובץ המאפיינים מופיע במאמר בנושא המחלקה java.util.Properties.
הדוגמה הבאה היא של קובץ מאפיינים שאפשר להעביר לדגל --properties-file כששולחים משימה של Managed Service for Apache Spark.
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
טבלת מאפיינים עם קידומת של קובץ
| קידומת של קובץ | קובץ | מטרת הקובץ |
|---|---|---|
| capacity-scheduler | capacity-scheduler.xml | הגדרת Hadoop YARN Capacity Scheduler |
| core | core-site.xml | הגדרה כללית של Hadoop |
| distcp | distcp-default.xml | הגדרות של Hadoop Distributed Copy |
| flink | flink-conf.yaml | הגדרת Flink |
| flink-log4j | log4j.properties | קובץ ההגדרות של Log4j |
| hadoop-env | hadoop-env.sh | משתני סביבה ספציפיים ל-Hadoop |
| hadoop-log4j | log4j.properties | קובץ ההגדרות של Log4j |
| hbase | hbase-site.xml | הגדרת HBase |
| hbase-log4j | log4j.properties | קובץ ההגדרות של Log4j |
| hdfs | hdfs-site.xml | הגדרת Hadoop HDFS |
| כוורת | hive-site.xml | הגדרת כוורת |
| hive-log4j2 | hive-log4j2.properties | קובץ ההגדרות של Log4j |
| hudi | hudi-default.conf | הגדרות של Hudi |
| mapred | mapred-site.xml | הגדרות של Hadoop MapReduce |
| mapred-env | mapred-env.sh | משתני סביבה ספציפיים ל-Hadoop MapReduce |
| חזיר | pig.properties | הגדרת Pig |
| pig-log4j | log4j.properties | קובץ ההגדרות של Log4j |
| פרסטו | config.properties | הגדרת Presto |
| presto-jvm | jvm.config | הגדרת JVM ספציפית ל-Presto |
| ניצוץ | spark-defaults.conf | הגדרת Spark |
| spark-env | spark-env.sh | משתני סביבה ספציפיים ל-Spark |
| spark-log4j | log4j.properties | קובץ ההגדרות של Log4j |
| tez | tez-site.xml | הגדרת Tez |
| webcat-log4j | webhcat-log4j2.properties | קובץ ההגדרות של Log4j |
| חוטי סריגה | yarn-site.xml | הגדרה של Hadoop YARN |
| yarn-env | yarn-env.sh | משתני סביבה ספציפיים ל-Hadoop YARN |
| zeppelin | zeppelin-site.xml | הגדרות של Zeppelin |
| zeppelin-env | zeppelin-env.sh | משתני סביבה ספציפיים ל-Zeppelin (רכיב אופציונלי בלבד) |
| zeppelin-log4j | log4j.properties | קובץ ההגדרות של Log4j |
| מטפל בבעלי חיים | zoo.cfg | הגדרות של Zookeeper |
| zookeeper-log4j | log4j.properties | קובץ ההגדרות של Log4j |
הערות
- חלק מהמאפיינים שמורים ואי אפשר לשנות אותם כי הם משפיעים על הפונקציונליות של אשכול Managed Service for Apache Spark. אם תנסו לשנות מאפיין שמור, תקבלו הודעת שגיאה כשתיצרו את האשכול.
- אפשר לציין כמה שינויים ולהפריד ביניהם באמצעות פסיקים.
- אי אפשר להשתמש בדגל
--propertiesכדי לשנות קובצי הגדרה שלא מופיעים למעלה. - השינויים בנכסים יחולו לפני שהדמונים באשכול יתחילו לפעול.
- אם הנכס שצוין קיים, הוא יעודכן. אם המאפיין שצוין לא קיים, הוא יתווסף לקובץ ההגדרות.
מאפיינים של Managed Service for Apache Spark
המאפיינים שמפורטים בקטע הזה ספציפיים ל-Managed Service for Apache Spark. אפשר להשתמש במאפיינים האלה כדי להגדיר עוד את הפונקציונליות של אשכול Managed Service for Apache Spark.
עיצוב
הדגל gcloud dataproc clusters create --properties מקבל את פורמט המחרוזת הבא:
property_prefix1:property1=value1,property_prefix2:property2=value2,...
תו המפריד שמשמש כברירת מחדל להפרדה בין כמה מאפייני אשכול הוא הפסיק (,). עם זאת, אם פסיק נכלל בערך של מאפיין, צריך לשנות את תו המפריד על ידי ציון '^delimiter^' בתחילת רשימת המאפיינים (מידע נוסף זמין במאמר בנושא gcloud topic escaping).
- דוגמה לשימוש בתו # כתו מפריד:
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
- דוגמה לשימוש בתו # כתו מפריד:
לדוגמה:
יוצרים אשכול ומגדירים את מצב הגמישות המשופר לערבוב של עובד ראשי ב-Spark.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
טבלת מאפיינים של Managed Service for Apache Spark
| קידומת לנכס | מאפיין (property) | ערכים | תיאור |
|---|---|---|---|
| dataproc | agent.process.threads.job.min | number |
Managed Service for Apache Spark מריץ את מנהלי המשימות של המשתמשים במקביל במאגר שרשורים. המאפיין הזה קובע את המספר המינימלי של השרשורים במאגר השרשורים להפעלה מהירה גם כשלא מורצות משימות (ברירת מחדל: 10). |
| dataproc | agent.process.threads.job.max | number |
Managed Service for Apache Spark מריץ את מנהלי המשימות של המשתמשים במקביל במאגר שרשורים. המאפיין הזה קובע את המספר המקסימלי של השרשורים במאגר השרשורים, ולכן מגביל את מספר המשימות המקסימלי של המשתמשים שיכולות לפעול בו-זמנית. כדי להגדיל את מספר הפעולות המקבילות (ברירת מחדל: 100), צריך להגדיל את הערך הזה. |
| dataproc | am.primary_only | true או false |
מגדירים את המאפיין הזה לערך true כדי למנוע מהאפליקציה הראשית לפעול על עובדים שניתן לקטוע את הפעולה שלהם באשכול Managed Service for Apache Spark. הערה: התכונה הזו זמינה רק ב-Managed Service for Apache Spark מגרסה 1.2 ואילך. ערך ברירת המחדל הוא false. |
| dataproc | conda.env.config.uri | gs://<path> |
המיקום ב-Cloud Storage של קובץ ההגדרות של סביבת Conda. סביבת Conda חדשה תיצור ותופעל על סמך הקובץ הזה. מידע נוסף זמין במאמר בנושא שימוש במאפייני אשכול שקשורים ל-Conda. (ברירת מחדל: empty). |
| dataproc | conda.packages | חבילות של Conda | המאפיין הזה מקבל רשימה של חבילות Conda מופרדות בפסיקים עם גרסאות ספציפיות להתקנה בסביבת base Conda. מידע נוסף זמין במאמר בנושא שימוש במאפייני אשכול שקשורים ל-Conda. (ברירת מחדל: empty). |
| dataproc | dataproc.allow.zero.workers | true או false |
מגדירים את המאפיין SoftwareConfig לערך true בבקשת API של clusters.create כדי ליצור אשכול עם צומת יחיד. כך משנים את מספר העובדים שמוגדר כברירת מחדל מ-2 ל-0, וממקמים את רכיבי העובדים במארח הראשי. אפשר גם ליצור אשכול עם צומת יחיד דרך מסוף Google Cloud או באמצעות Google Cloud CLI, על ידי הגדרת מספר העובדים ל-0. |
| dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | הגדרת ערך יוצרת מאסטר של Managed Service for Apache Spark עם זיכרון קבוע של Intel Optane DC. הערה: אפשר ליצור מכונות וירטואליות של Optane רק באזורי us-central1-f, רק עם סוג המכונה n1-highmem-96-aep ורק בפרויקטים שנכללים ברשימת ההיתרים. |
| dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | הגדרת ערך יוצרת עובד של Managed Service for Apache Spark עם זיכרון מתמשך של Intel Optane DC. הערה: אפשר ליצור מכונות וירטואליות של Optane רק באזורי us-central1-f, רק עם סוג המכונה n1-highmem-96-aep ורק בפרויקטים שנכללים ברשימת ההיתרים. |
| dataproc: | dataproc.await-new-workers-service-registration | true או false |
המאפיין הזה זמין בתמונות 2.0.49 ומעלה. ערך ברירת המחדל הוא false. מגדירים את המאפיין הזה לערך true כדי להמתין לעובדים ראשיים חדשים שירשמו מובילי שירותים, כמו HDFS NameNode ו-YARN ResourceManager, במהלך יצירת האשכול או הגדלת האשכול (רק שירותי HDFS ו-YARN נמצאים במעקב). אם המצב מוגדר כ-true ועובד חדש לא מצליח להירשם לשירות, העובד מקבל את הסטטוס FAILED. אם מתרחב האשכול, עובד שנכשל מוסר. אם האשכול נוצר, עובד שנכשל יוסר אם הדגל gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE או השדה actionOnFailedPrimaryWorkers=DELETE ב-API צוינו כחלק מהפקודה gcloud או מבקשת יצירת האשכול ב-API. |
| dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings |
המאפיין הזה מקבל רשימה של מיפויים בין משתמשים לחשבונות שירות. משתמשים ממופים יכולים לשלוח עומסי עבודה אינטראקטיביים לאשכול עם זהויות משתמש מבודדות (ראו ניהול מאובטח של ריבוי דיירים שמבוסס על חשבון שירות ב-Managed Service for Apache Spark). |
| dataproc: | dataproc.cluster.caching.enabled | true או false |
כשהאפשרות 'שמירת נתונים במטמון של האשכול' מופעלת, האשכול שומר במטמון נתונים מ-Cloud Storage שניגשים אליהם באמצעות משימות Spark, וכך משפר את ביצועי המשימות בלי לפגוע בעקביות. (ברירת מחדל: false). |
| dataproc | dataproc.cluster-ttl.consider-yarn-activity | true או false |
אם ההגדרה היא true, Cluster Scheduled Deletion (השמדה מתוזמנת של אשכול) לוקחת בחשבון את הפעילות של YARN ושל Jobs API כשמחשבת את זמן ההמתנה של האשכול. אם הערך הוא false, נלקחת בחשבון רק הפעילות ב-Jobs API. (ברירת מחדל: true). מידע נוסף זמין במאמר חישוב זמן ההמתנה של אשכול. |
| dataproc | dataproc.conscrypt.provider.enable | true או false |
הגדרה של Conscrypt כספק האבטחה הראשי של Java (true) או השבתה שלו (false). הערה: Conscrypt מופעל כברירת מחדל ב-Managed Service for Apache Spark מגרסה 1.2 ואילך, אבל מושבת בגרסאות 1.0 ו-1.1. |
| dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings |
המאפיין הזה מקבל רשימה של מיפויים בין משתמשים לחשבונות שירות, שמופרדים באמצעות פסיקים. אם יוצרים אשכול עם ההגדרה הזו, כשמשתמש שולח עבודה, האשכול ינסה להתחזות לחשבון השירות המתאים כשהוא ניגש ל-Cloud Storage דרך מחבר Cloud Storage. כדי להשתמש בתכונה הזו, צריך מחבר Cloud Storage בגרסה 2.1.4 ומעלה. מידע נוסף זמין במאמר בנושא שיתוף משאבים בין דיירים ב-Managed Service for Apache Spark. (ברירת מחדל: empty). |
| dataproc | dataproc.control.max.assigned.job.tasks | 100 |
המאפיין הזה מגביל את מספר המשימות שיכולות לפעול בו-זמנית בצומת הראשי של אשכול. אם מספר המשימות הפעילות חורג ממגבלת המשימות, משימות חדשות מתווספות לתור עד שמשימות שפועלות מסתיימות ומשאבים מתפנים כדי לאפשר תזמון של משימות חדשות. הערה: לא מומלץ להגדיר מגבלת משימות שחורגת מ-100 (ברירת המחדל), כי זה עלול לגרום למצב של חוסר זיכרון בצומת הראשי. |
| dataproc | dataproc:hudi.version | גרסת Hudi | הגדרת גרסת Hudi שמשמשת עם רכיב Hudi אופציונלי של Managed Service for Apache Spark. הערה: הגרסה הזו מוגדרת על ידי Managed Service for Apache Spark כדי שתהיה תואמת לגרסת תמונת האשכול. אם המשתמש מגדיר את הגרסה, יכול להיות שיצירת האשכול תיכשל אם הגרסה שצוינה לא תואמת לתמונת האשכול. |
| dataproc | dataproc.lineage.enabled | true |
האפשרות הזו מפעילה מעקב אחר מקורות נתונים באשכול Managed Service for Apache Spark למשימות Spark. |
| dataproc | dataproc.localssd.mount.enable | true או false |
האם לטעון כונני SSD מקומיים כספריות זמניות של Hadoop/Spark וכספריות נתונים של HDFS (ברירת מחדל: true). |
| dataproc | dataproc.logging.extended.enabled | true או false |
האפשרות הזו מפעילה (true) או משביתה (false) יומנים ב-Cloud Logging עבור האפשרויות הבאות: knox, zeppelin, ranger-usersync, jupyter_notebook, jupyter_kernel_gateway ו-spark-history-server (ברירת מחדל: true). מידע נוסף זמין במאמר יומנים של אשכולות Managed Service for Apache Spark ב-Logging. |
| dataproc | dataproc.logging.stackdriver.enable | true או false |
מפעיל (true) או משבית (false) את Cloud Logging (ברירת מחדל: true). למידע על החיובים המשויכים, ראו תמחור של Cloud Logging. |
| dataproc | dataproc.logging.stackdriver.job.driver.enable | true או false |
ההגדרה הזו מאפשרת (true) או משביתה (false) יומנים של מנהלי משימות ב-Managed Service for Apache Spark ב-Cloud Logging. מידע נוסף זמין במאמר פלט ויומנים של משימות ב-Managed Service for Apache Spark (ברירת מחדל: false). |
| dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | true או false |
הגדרה שמאפשרת (true) או משביתה (false) את יומני המאגר של YARN ב-Cloud Logging. אפשרויות הפלט של משימות Spark (ברירת מחדל: false). |
| dataproc | dataproc.logging.syslog.enabled | true או false |
הגדרה להפעלה (true) או להשבתה (false) של יומני מערכת של מכונות וירטואליות ב-Cloud Logging (ברירת מחדל: true). |
| dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICES או RUN_AFTER_SERVICES |
בגרסאות 2.0 ומעלה של אשכולות תמונות, אם הערך שמוגדר הוא RUN_AFTER_SERVICES, פעולות האתחול בשרת הראשי יפעלו אחרי האתחול של HDFS ושל כל השירותים שתלויים ב-HDFS. דוגמאות לשירותים שתלויים ב-HDFS: HBase, Hive Server2, Ranger, Solr ושרתי ההיסטוריה של Spark ו-MapReduce. (ברירת מחדל: RUN_BEFORE_SERVICES). |
| dataproc | dataproc.monitoring.stackdriver.enable | true או false |
הגדרה שמאפשרת (true) או משביתה (false) את הסוכן של Monitoring (ברירת מחדל: false). המאפיין הזה יצא משימוש. במאמר הפעלת איסוף מדדים מותאמים אישית מוסבר איך להפעיל את איסוף המדדים של Managed Service for Apache Spark OSS ב-Monitoring. |
| dataproc | dataproc.scheduler.driver-size-mb | number |
הזיכרון שבשימוש הממוצע של מנהל התקן, שקובע את המספר המקסימלי של משימות מקבילות שירוצו באשכול. ערך ברירת המחדל הוא 1GB. ערך קטן יותר, כמו 256, עשוי להתאים לעבודות Spark. |
| dataproc | dataproc.scheduler.job-submission-rate | number |
אם חורגים מהקצב הזה, המשימות מוגבלות. שיעור ברירת המחדל הוא 1.0 QPS. |
| dataproc | dataproc.scheduler.max-concurrent-jobs | number |
המספר המקסימלי של משימות בו-זמניות. אם הערך הזה לא מוגדר כשיוצרים את האשכול, הגבול העליון של העבודות המקבילות מחושב כ-max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5). masterMemoryMb נקבע לפי סוג המכונה של ה-VM הראשי. הערך של masterMemoryMbPerJob הוא 1024 כברירת מחדל, אבל אפשר להגדיר אותו כשיוצרים את האשכול באמצעות מאפיין האשכול dataproc:dataproc.scheduler.driver-size-mb. |
| dataproc | dataproc.scheduler.max-memory-used | number |
הכמות המקסימלית של זיכרון ה-RAM שאפשר להשתמש בה. אם השימוש הנוכחי גבוה מהסף הזה, אי אפשר לתזמן משימות חדשות. ערך ברירת המחדל הוא 0.9 (90%). אם המדיניות מוגדרת ל-1.0, ויסות הנתונים (throttle) של עבודות שקשורות לניצול הזיכרון הראשי מושבת. |
| dataproc | dataproc.scheduler.min-free-memory.mb | number |
כמות הזיכרון הפנוי המינימלית במגה-בייט שנדרשת למנהל המשימות של Managed Service for Apache Spark כדי לתזמן משימה נוספת באשכול. ערך ברירת המחדל הוא 256MB. |
| dataproc | dataproc.snap.enabled | true או false |
הפעלה או השבתה של Ubuntu Snap daemon. ערך ברירת המחדל הוא true. אם ההגדרה היאfalse, חבילות Snap שמותקנות מראש בתמונה לא מושפעות, אבל הרענון האוטומטי מושבת. ההגדרה חלה על תמונות של Ubuntu מגרסה 1.4.71, 1.5.46, 2.0.20 ואילך. |
| dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES |
באשכולות תמונות מגרסה מוקדמת מ-2.0, המשתנה RUN_BEFORE_SERVICES לא מוגדר, אבל המשתמש יכול להגדיר אותו כשהוא יוצר את האשכול. באשכולות תמונות מגרסה 2.0 ואילך, המאפיין RUN_BEFORE_SERVICES מוגדר, ואי אפשר להעביר את המאפיין לאשכול (המשתמש לא יכול לשנות אותו). מידע על ההשפעה של ההגדרה הזו זמין במאמר שיקולים חשובים והנחיות – עיבוד אתחול. |
| dataproc | dataproc.yarn.orphaned-app-termination.enable | true או false |
ערך ברירת המחדל הוא true. ההגדרה false מונעת מ-Managed Service for Apache Spark להפסיק אפליקציות YARN 'יתומות'. ב-Managed Service for Apache Spark, אפליקציית YARN נחשבת ליתומה אם מנהל המשימות (driver) ששלח את אפליקציית YARN יצא. אזהרה: אם אתם משתמשים במצב Spark cluster (spark.submit.deployMode=cluster) ומגדירים את spark.yarn.submit.waitAppCompletion=false, מנהל ההתקנים של Spark יוצא בלי לחכות לסיום האפליקציות של YARN. במקרה כזה, צריך להגדיר את dataproc:dataproc.yarn.orphaned-app-termination.enable=false. צריך להגדיר את המאפיין הזה גם לערך false אם שולחים משימות Hive. |
| dataproc | diagnostic.capture.enabled | true או false |
הגדרה שמאפשרת איסוף של נתוני אבחון של נקודות ביקורת (checkpoint) באשכול. (ברירת מחדל: true). |
| dataproc | diagnostic.capture.access | GOOGLE_DATAPROC_DIAGNOSE |
אם הערך מוגדר ל-GOOGLE_DATAPROC_DIAGNOSE, נתוני אבחון של נקודות ביקורת באשכול, שנשמרים ב-Cloud Storage, משותפים עם התמיכה של Managed Service for Apache Spark. (ברירת מחדל: לא מוגדר). |
| dataproc | efm.spark.shuffle | primary-worker |
אם הערך הוא primary-worker, נתוני Spark shuffle נכתבים לעובדים הראשיים". מידע נוסף זמין במאמר בנושא מצב גמישות משופר של Managed Service for Apache Spark. |
| dataproc | job.history.to-gcs.enabled | true או false |
ההגדרה מאפשרת לשמור קבצים של היסטוריית MapReduce ו-Spark בדלי הזמני של Managed Service for Apache Spark (ברירת המחדל: true לגרסאות תמונה 1.5 ואילך). המשתמשים יכולים לשנות את המיקומים של קבצים של היסטוריית עבודות באמצעות המאפיינים הבאים: mapreduce.jobhistory.done-dir, mapreduce.jobhistory.intermediate-done-dir, spark.eventLog.dir ו-spark.history.fs.logDirectory. מידע על המאפיינים האלה ועל מאפיינים אחרים של אשכולות שמשויכים להיסטוריית המשימות ולקובצי האירועים של Managed Service for Apache Spark זמין במאמר בנושא Managed Service for Apache Spark Persistent History Server . |
| dataproc | jobs.file-backed-output.enable | true או false |
ההגדרה הזו קובעת שמשימות של Managed Service for Apache Spark יעבירו את הפלט שלהן לקבצים זמניים בספרייה /var/log/google-dataproc-job. הערך חייב להיות true כדי להפעיל רישום ביומן של מנהל המשימות ב-Cloud Logging (ברירת מחדל: true). |
| dataproc | jupyter.listen.all.interfaces | true או false |
כדי להקטין את הסיכון להרצת קוד מרחוק דרך ממשקי API לא מאובטחים של שרת מחברות, הגדרת ברירת המחדל לגרסאות תמונות 1.3 ומעלה היא false, שמגבילה את החיבורים ל-localhost (127.0.0.1) כשמופעל Component Gateway (הפעלת Component Gateway לא נדרשת לתמונות בגרסה 2.0 ומעלה). אפשר לשנות את הגדרת ברירת המחדל הזו על ידי הגדרת המאפיין הזה לערך true כדי לאפשר את כל החיבורים. |
| dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> |
המיקום ב-Cloud Storage לשמירת מחברות Jupyter. |
| dataproc | kerberos.beta.automatic-config.enable | true או false |
אם ההגדרה היא true, המשתמשים לא צריכים לציין את הסיסמה של חשבון ה-root ב-Kerberos באמצעות הדגלים --kerberos-root-principal-password ו---kerberos-kms-key-uri (ברירת מחדל: false). מידע נוסף זמין במאמר בנושא הפעלת מצב מאובטח של Hadoop באמצעות Kerberos. |
| dataproc | kerberos.cross-realm-trust.admin-server | hostname/address |
שם המארח או הכתובת של שרת הניהול המרוחק (לרוב זהה לשרת KDC). |
| dataproc | kerberos.cross-realm-trust.kdc | hostname/address |
שם המארח או הכתובת של שרת ה-KDC המרוחק. |
| dataproc | kerberos.cross-realm-trust.realm | realm name |
שמות של תחומים יכולים לכלול כל מחרוזת ASCII באותיות רישיות. בדרך כלל, שם התחום זהה לשם דומיין ה-DNS (באותיות רישיות). לדוגמה: אם שם המחשב הוא machine-id.example.west-coast.mycompany.com, התחום המשויך יכול להיות EXAMPLE.WEST-COAST.MYCOMPANY.COM. |
| dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> |
המיקום ב-Cloud Storage של הסיסמה המשותפת שמוצפנת באמצעות KMS. |
| dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> |
המיקום ב-Cloud Storage של הקובץ המוצפן ב-KMS שמכיל את מפתח המאסטר של מסד הנתונים של KDC. |
| dataproc | kerberos.key.password.uri | gs://<dir-path> |
המיקום ב-Cloud Storage של הקובץ המוצפן באמצעות KMS שמכיל את הסיסמה של המפתח בקובץ של מאגר המפתחות. |
| dataproc | kerberos.keystore.password.uri | gs://<dir-path> |
המיקום ב-Cloud Storage של הקובץ המוצפן ב-KMS שמכיל את הסיסמה של Keystore. |
| dataproc | kerberos.keystore.uri1 | gs://<dir-path> |
המיקום ב-Cloud Storage של קובץ מאגר המפתחות שמכיל את תעודת wildcard ואת המפתח הפרטי שמשמש את צמתי האשכול. |
| dataproc | kerberos.kms.key.uri | KMS key URI |
כתובת ה-URI של מפתח ה-KMS שמשמש לפענוח סיסמת הבסיס, לדוגמה projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (ראו מזהה משאב המפתח). |
| dataproc | kerberos.root.principal.password.uri | gs://<dir-path> |
המיקום ב-Cloud Storage של הסיסמה שמוצפנת ב-KMS עבור המשתמש הראשי ב-Kerberos. |
| dataproc | kerberos.tgt.lifetime.hours | hours |
משך החיים המקסימלי של כרטיס הגישה. |
| dataproc | kerberos.truststore.password.uri | gs://<dir-path> |
המיקום ב-Cloud Storage של הקובץ המוצפן ב-KMS שמכיל את הסיסמה לקובץ truststore. |
| dataproc | kerberos.truststore.uri2 | gs://<dir-path> |
המיקום ב-Cloud Storage של קובץ מאגר האישורים המוצפן ב-KMS שמכיל אישורים מהימנים. |
| dataproc | pip.packages | חבילות Pip | המאפיין הזה מקבל רשימה של חבילות Pip מופרדות בפסיקים עם גרסאות ספציפיות, שיוגדרו להתקנה בסביבת base Conda. מידע נוסף זמין במאמר מאפייני אשכול שקשורים ל-Conda. (ברירת מחדל: empty). |
| dataproc | ranger.kms.key.uri | KMS key URI |
כתובת ה-URI של מפתח ה-KMS שמשמש לפענוח הסיסמה של משתמש האדמין ב-Ranger, לדוגמה projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (ראו מזהה משאב המפתח). |
| dataproc | ranger.admin.password.uri | gs://<dir-path> |
המיקום ב-Cloud Storage של הסיסמה המוצפנת ב-KMS של משתמש האדמין ב-Ranger. |
| dataproc | ranger.db.admin.password.uri | gs://<dir-path> |
המיקום ב-Cloud Storage של הסיסמה המוצפנת ב-KMS של משתמש האדמין במסד הנתונים של Ranger. |
| dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name |
שם החיבור של מכונת Cloud SQL, לדוגמה project-id:region:name. |
| dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> |
המיקום ב-Cloud Storage של הסיסמה המוצפנת ב-KMS של משתמש Root במכונת Cloud SQL. |
| dataproc | ranger.cloud-sql.use-private-ip | true או false |
האם התקשורת בין מופעי האשכול לבין מופע Cloud SQL צריכה להתבצע באמצעות כתובת IP פרטית (ערך ברירת המחדל הוא false). |
| dataproc | solr.gcs.path | gs://<dir-path> |
נתיב Cloud Storage שישמש כספריית הבית של Solr. |
| dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds |
משך הזמן שסקריפט לטעינה בזמן ההפעלה של Managed Service for Apache Spark ימתין עד ש-hadoop-hdfs-namenode ייקשר ליציאות, לפני שיקבע שההפעלה שלו הצליחה. הערך המקסימלי שניתן לזיהוי הוא 1,800 שניות (30 דקות). |
| dataproc | startup.component.service-binding-timeout.hive-metastore | seconds |
כמות הזמן שסקריפט לטעינה בזמן ההפעלה של Managed Service for Apache Spark ימתין עד ששירות hive-metastore ייקשר ליציאות, לפני שיחליט שההפעלה שלו הצליחה. הערך המקסימלי שניתן לזיהוי הוא 1,800 שניות (30 דקות). |
| dataproc | startup.component.service-binding-timeout.hive-server2 | seconds |
פרק הזמן שבו סקריפט לטעינה בזמן ההפעלה של Managed Service for Apache Spark ימתין עד ש-hive-server2 יקשר ליציאות, לפני שיקבע שההפעלה שלו הצליחה. הערך המקסימלי שניתן לזיהוי הוא 1,800 שניות (30 דקות). |
| dataproc | user-attribution.enabled | true או false |
מגדירים את המאפיין הזה לערך true כדי לשייך משימה של Managed Service for Apache Spark לזהות של המשתמש ששלח אותה (ערך ברירת המחדל הוא false). |
| dataproc | yarn.docker.enable | true או false |
מגדירים את הערך true כדי להפעיל את התכונה Managed Service for Apache Spark Docker on YARN (ערך ברירת המחדל הוא false). |
| dataproc | yarn.docker.image | docker image |
כשמפעילים את התכונה Managed Service for Apache Spark Docker on YARN (dataproc:yarn.docker.enable=true), אפשר להשתמש במאפיין האופציונלי הזה כדי לציין את תמונת ה-Docker (לדוגמה, dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1). אם מציינים תמונה, היא מורדת ונשמרת במטמון בכל הצמתים של האשכול במהלך יצירת האשכול. |
| dataproc | yarn.log-aggregation.enabled | true או false |
מאפשר (true) להפעיל את צבירת היומנים של YARN ב-temp bucket של האשכול. שם הקטגוריה הוא מהצורה הבאה: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>. (ברירת מחדל: true לגרסאות תמונה 1.5 ומעלה). הערה: מאגר הזמני של האשכול לא נמחק כשהאשכול נמחק. המשתמשים יכולים גם להגדיר את המיקום של יומני YARN מצטברים על ידי החלפת המאפיין yarn.nodemanager.remote-app-log-dir של YARN. |
| knox | gateway.host | ip address |
כדי להפחית את הסיכון להרצת קוד מרחוק דרך ממשקי API לא מאובטחים של שרת מחברות, הגדרת ברירת המחדל לגרסאות תמונה 1.3 ומעלה היא 127.0.0.1, שמגבילה את החיבורים ל-localhost כש-Component Gateway מופעל. אפשר לשנות את הגדרת ברירת המחדל. לדוגמה, אפשר להגדיר את הנכס הזה לערך 0.0.0.0 כדי לאפשר את כל החיבורים. |
| zeppelin | zeppelin.notebook.gcs.dir | gs://<dir-path> |
המיקום ב-Cloud Storage שבו יישמרו מחברות Zeppelin. |
| zeppelin | zeppelin.server.addr | ip address |
כדי להפחית את הסיכון להרצת קוד מרחוק דרך ממשקי API לא מאובטחים של שרת מחברות, הגדרת ברירת המחדל לגרסאות תמונה 1.3 ומעלה היא 127.0.0.1, שמגבילה את החיבורים ל-localhost כש-Component Gateway מופעל. אפשר לשנות את הגדרת ברירת המחדל הזו, למשל על ידי הגדרת הנכס הזה ל-0.0.0.0 כדי לאפשר את כל החיבורים. |
1 קובץ מאגר מפתחות: קובץ מאגר המפתחות מכיל את אישור ה-SSL. הוא צריך להיות בפורמט Java KeyStore (JKS). כשמעתיקים אותו למכונות וירטואליות, השם שלו משתנה ל-keystore.jks.
אישור ה-SSL צריך להיות תעודת wildcard שחלה על כל צומת באשכול.
2 קובץ truststore: קובץ ה-truststore צריך להיות בפורמט Java KeyStore (JKS). כשמעתיקים אותו למכונות וירטואליות, השם שלו משתנה ל-truststore.jks.