מאפייני האשכול

מאפיינים שקשורים ל-Apache Hadoop YARN,‏ HDFS,‏ Spark

הרכיבים בקוד פתוח שמותקנים באשכולות Dataproc מכילים קובצי תצורה רבים. לדוגמה, ל-Apache Spark ול-Apache Hadoop יש כמה קובצי הגדרה בפורמט XML ובפורמט טקסט פשוט. אפשר להשתמש בדגל ‑‑properties של הפקודה gcloud dataproc clusters create כדי לשנות הרבה קובצי הגדרה נפוצים כשיוצרים אשכול.

עיצוב

הדגל gcloud dataproc clusters create --properties מקבל את פורמט המחרוזת הבא:

file_prefix1:property1=value1,file_prefix2:property2=value2,...

הפרמטר file_prefix ממופה לקובץ תצורה מוגדר מראש, כמו שמוצג בטבלה שלמטה, והפרמטר property ממופה למאפיין בתוך הקובץ.
התו המפריד שמוגדר כברירת מחדל להפרדה בין כמה מאפייני אשכול הוא פסיק (,). עם זאת, אם ערך מאפיין כולל פסיק, צריך לשנות את התו המפריד על ידי ציון '^delimiter^' בתחילת רשימת המאפיינים (מידע נוסף זמין במאמר בנושא gcloud topic escaping).
- דוגמה לשימוש בתו המפריד '#':
```
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
```

דוגמאות

פקודת gcloud

כדי לשנות את ההגדרה spark.master בקובץ spark-defaults.conf, מוסיפים את הדגל gcloud dataproc clusters create --properties הבא:

--properties 'spark:spark.master=spark://example.com'

אפשר לשנות כמה מאפיינים בבת אחת, בקובץ הגדרה אחד או יותר, באמצעות פסיק להפרדה. כל מאפיין צריך להיות מוגדר בפורמט המלא file_prefix:property=value. לדוגמה, כדי לשנות את ההגדרה spark.master בקובץ spark-defaults.conf ואת ההגדרה dfs.hosts בקובץ hdfs-site.xml, משתמשים בדגל --properties הבא כשיוצרים אשכול:

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

API ל-REST

כדי להגדיר את spark.executor.memory ל-10g, מוסיפים את ההגדרה properties הבאה לקטע SoftwareConfig בבקשת clusters.create:

"properties": {
  "spark:spark.executor.memory": "10g"
}

דרך קלה לראות איך ליצור את גוף ה-JSON של בקשת REST של אשכולות Dataproc API היא להפעיל את הפקודה המקבילה gcloud באמצעות הדגל --log-http. הנה דוגמה לפקודה gcloud dataproc clusters create, שקובעת את מאפייני האשכול באמצעות הדגל --properties spark:spark.executor.memory=10g. ביומן stdout מוצג גוף בקשת ה-REST שנוצר (קטע הקוד properties מוצג בהמשך):

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

פלט:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

...
== body end ==
...

חשוב לבטל את הפקודה אחרי שתוכן ה-JSON מופיע בפלט, אם לא רוצים שהפקודה תיכנס לתוקף.

המסוף

כדי לשנות את ההגדרה spark.master בקובץ spark-defaults.conf:

במסוף Google Cloud , פותחים את הדף Dataproc Create a cluster. לוחצים על החלונית 'התאמה אישית של האשכול' וגוללים לקטע 'מאפייני האשכול'.
לוחצים על + הוספת מאפיינים. בוחרים באפשרות spark ברשימת הקידומות, ואז מוסיפים את הערך spark.master בשדה Key ואת ההגדרה בשדה Value.

מאפייני אשכול לעומת מאפייני משימה

המאפיינים של Apache Hadoop YARN,‏ HDFS,‏ Spark ומאפיינים אחרים עם קידומת של קובץ מוחלים ברמת האשכול כשיוצרים אשכול. אי אפשר להחיל את הנכסים האלה על אשכול אחרי יצירת האשכול. עם זאת, אפשר להחיל רבים מהמאפיינים האלה גם על משרות ספציפיות. כשמחילים מאפיין על עבודה, הקידומת של הקובץ לא נמצאת בשימוש.

בדוגמה הבאה, הזיכרון של Spark executor מוגדר ל-4g עבור עבודת Spark (הקידומת spark: הושמטה).

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

אפשר לשלוח מאפייני עבודה בקובץ באמצעות הדגל gcloud dataproc jobs submit job-type --properties-file (לדוגמה, אפשר לעיין בתיאור של --properties-file לשליחת עבודה ב-Hadoop).

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

‫PROPERTIES_FILE הוא קבוצה של זוגות key=value שמופרדים בשורות. הנכס שצריך להגדיר הוא key, והערך שצריך להגדיר לנכס הוא value. תיאור מפורט של פורמט קובץ המאפיינים מופיע במאמר בנושא המחלקה java.util.Properties.

הדוגמה הבאה היא של קובץ מאפיינים שאפשר להעביר לדגל --properties-file כששולחים משימת Dataproc.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

טבלת מאפיינים עם קידומת של קובץ

קידומת של קובץ	קובץ	מטרת הקובץ
capacity-scheduler	capacity-scheduler.xml	הגדרת הכלי לתזמון קיבולת של Hadoop YARN
core	core-site.xml	הגדרה כללית של Hadoop
distcp	distcp-default.xml	הגדרות של Hadoop Distributed Copy
flink	flink-conf.yaml	הגדרת Flink
flink-log4j	log4j.properties	קובץ ההגדרות של Log4j
hadoop-env	hadoop-env.sh	משתני סביבה ספציפיים ל-Hadoop
hadoop-log4j	log4j.properties	קובץ ההגדרות של Log4j
hbase	hbase-site.xml	הגדרת HBase
hbase-log4j	log4j.properties	קובץ ההגדרות של Log4j
hdfs	hdfs-site.xml	הגדרת Hadoop HDFS
כוורת	hive-site.xml	הגדרת כוורת
hive-log4j2	hive-log4j2.properties	קובץ ההגדרות של Log4j
hudi	hudi-default.conf	הגדרות של Hudi
mapred	mapred-site.xml	הגדרות של Hadoop MapReduce
mapred-env	mapred-env.sh	משתני סביבה ספציפיים ל-Hadoop MapReduce
חזיר	pig.properties	הגדרת Pig
pig-log4j	log4j.properties	קובץ ההגדרות של Log4j
פרסטו	config.properties	הגדרת Presto
presto-jvm	jvm.config	הגדרות JVM ספציפיות ל-Presto
ניצוץ	spark-defaults.conf	הגדרת Spark
spark-env	spark-env.sh	משתני סביבה ספציפיים ל-Spark
spark-log4j	log4j.properties	קובץ ההגדרות של Log4j
tez	tez-site.xml	הגדרת Tez
webcat-log4j	webhcat-log4j2.properties	קובץ ההגדרות של Log4j
חוט	yarn-site.xml	הגדרה של Hadoop YARN
yarn-env	yarn-env.sh	משתני סביבה ספציפיים ל-Hadoop YARN
צפלין	zeppelin-site.xml	הגדרת Zeppelin
zeppelin-env	zeppelin-env.sh	משתני סביבה ספציפיים ל-Zeppelin (רכיב אופציונלי בלבד)
zeppelin-log4j	log4j.properties	קובץ ההגדרות של Log4j
מטפל בבעלי חיים	zoo.cfg	הגדרות של Zookeeper
zookeeper-log4j	log4j.properties	קובץ ההגדרות של Log4j

Notes

חלק מהמאפיינים שמורים ואי אפשר לשנות אותם כי הם משפיעים על הפונקציונליות של אשכול Dataproc. אם תנסו לשנות מאפיין שמור, תקבלו הודעת שגיאה כשתיצרו את האשכול.
אפשר לציין כמה שינויים ולהפריד ביניהם באמצעות פסיקים.
אי אפשר להשתמש בדגל --properties כדי לשנות קובצי הגדרה שלא מופיעים למעלה.
השינויים בנכסים יחולו לפני שהדמונים באשכול יתחילו לפעול.
אם הנכס שצוין קיים, הוא יעודכן. אם המאפיין שצוין לא קיים, הוא יתווסף לקובץ התצורה.

מאפייני שירות Dataproc

המאפיינים שמפורטים בקטע הזה הם ספציפיים ל-Dataproc. אפשר להשתמש במאפיינים האלה כדי להגדיר עוד את הפונקציונליות של אשכול Dataproc.

עיצוב

הדגל gcloud dataproc clusters create --properties מקבל את פורמט המחרוזת הבא:

property_prefix1:property1=value1,property_prefix2:property2=value2,...

תו מפריד ברירת המחדל שמשמש להפרדה בין כמה מאפייני אשכול הוא פסיק (,). עם זאת, אם פסיק נכלל בערך של מאפיין, צריך לשנות את תו המפריד על ידי ציון '^delimiter^' בתחילת רשימת המאפיינים (מידע נוסף זמין במאמר בנושא gcloud topic escaping).
- דוגמה לשימוש בתו המפריד '#':
```
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
```

לדוגמה:

יוצרים אשכול ומגדירים את מצב הגמישות המשופר לערבוב של עובד ראשי ב-Spark.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

טבלת מאפייני שירות Dataproc

קידומת לנכס	מאפיין (property)	ערכים	תיאור
dataproc	agent.process.threads.job.min	`number`	‫Dataproc מפעיל במקביל מנהלי משימות של משתמשים במאגר שרשורים. המאפיין הזה קובע את המספר המינימלי של השרשורים במאגר השרשורים להפעלה מהירה, גם כשלא מופעלות משימות (ברירת מחדל: 10).
dataproc	agent.process.threads.job.max	`number`	‫Dataproc מפעיל במקביל מנהלי משימות של משתמשים במאגר שרשורים. המאפיין הזה קובע את המספר המקסימלי של השרשורים במאגר השרשורים, ולכן מגביל את מספר המשימות המקסימלי של המשתמשים שיכולות לפעול בו-זמנית. כדי להגדיל את מספר הפעולות המקבילות (ברירת מחדל: 100), צריך להגדיל את הערך הזה.
dataproc	am.primary_only	`true` או `false`	מגדירים את המאפיין הזה לערך `true` כדי למנוע הפעלה של האפליקציה הראשית בעובדים שניתן להפסיק את הפעולה שלהם באשכול Dataproc. הערה: התכונה הזו זמינה רק ב-Dataproc מגרסה 1.2 ואילך. ערך ברירת המחדל הוא `false`.
dataproc	conda.env.config.uri	`gs://<path>`	המיקום ב-Cloud Storage של קובץ התצורה של סביבת Conda. סביבת Conda חדשה תיצור ותופעל על סמך הקובץ הזה. מידע נוסף זמין במאמר בנושא שימוש במאפייני אשכול שקשורים ל-Conda. (ברירת מחדל: `empty`).
dataproc	conda.packages	חבילות Conda	המאפיין הזה מקבל רשימה של חבילות Conda מופרדות בפסיקים עם גרסאות ספציפיות להתקנה בסביבת `base` Conda. מידע נוסף זמין במאמר בנושא שימוש במאפייני אשכול שקשורים ל-Conda. (ברירת מחדל: `empty`).
dataproc	dataproc.allow.zero.workers	`true` או `false`	מגדירים את המאפיין SoftwareConfig לערך `true` בבקשת Dataproc `clusters.create` API כדי ליצור אשכול עם צומת יחיד. כך משנים את מספר העובדים שמוגדר כברירת מחדל מ-2 ל-0, וממקמים את רכיבי העובדים במארח הראשי. אפשר גם ליצור אשכול עם צומת יחיד דרך מסוף Google Cloud או באמצעות Google Cloud CLI, על ידי הגדרת מספר העובדים ל-`0`.
dataproc	dataproc.alpha.master.nvdimm.size.gb	1500-6500	הגדרת ערך יוצרת Dataproc master עם Intel Optane DC Persistent memory. הערה: אפשר ליצור מכונות וירטואליות של Optane רק באזורי `us-central1-f`, רק עם סוג המכונה `n1-highmem-96-aep` ורק בפרויקטים שנכללים ברשימת ההיתרים.
dataproc:	dataproc.alpha.worker.nvdimm.size.gb	1500-6500	הגדרת ערך יוצרת Dataproc worker עם זיכרון מתמשך של Intel Optane DC. הערה: אפשר ליצור מכונות וירטואליות של Optane רק באזורי `us-central1-f`, רק עם סוג המכונה `n1-highmem-96-aep` ורק בפרויקטים שנכללים ברשימת ההיתרים.
dataproc:	dataproc.await-new-workers-service-registration	`true` או `false`	המאפיין הזה זמין בתמונות 2.0.49 ומעלה. ערך ברירת המחדל הוא `false`. מגדירים את המאפיין הזה לערך `true` כדי להמתין לעובדים ראשיים חדשים שירשמו מובילי שירותים, כמו HDFS NameNode ו-YARN ResourceManager, במהלך יצירת האשכול או הגדלת האשכול (רק שירותי HDFS ו-YARN נמצאים במעקב). אם הערך מוגדר כ-`true`, ועובד חדש לא מצליח להירשם לשירות, העובד מקבל את הסטטוס `FAILED`. אם מתרחב מספר הצמתים בקלאסטר, עובד שנכשל מוסר. אם האשכול נוצר, עובד שנכשל יוסר אם הדגל `gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE` או השדה `actionOnFailedPrimaryWorkers=DELETE` ב-API צוינו כחלק מהפקודה `gcloud` או מבקשת יצירת האשכול ב-API.
dataproc:	dataproc.beta.secure.multi-tenancy.user.mapping	`user-to-service account mappings`	המאפיין הזה מקבל רשימה של מיפויים בין משתמשים לחשבונות שירות. משתמשים ממופים יכולים לשלוח עומסי עבודה אינטראקטיביים לאשכול עם זהויות משתמש מבודדות (ראו Dataproc Service Account Based Secure Multi-tenancy).
dataproc:	dataproc.cluster.caching.enabled	`true` או `false`	כשהאפשרות 'שמירת נתונים במטמון של האשכול' מופעלת, האשכול שומר במטמון נתונים של Cloud Storage שניגשים אליהם באמצעות משימות Spark, וכך משפר את ביצועי המשימות בלי לפגוע בעקביות. (ברירת מחדל: `false`).
dataproc	dataproc.cluster-ttl.consider-yarn-activity	`true` או `false`	אם ההגדרה היא `true`, Cluster Scheduled Deletion לוקח בחשבון את הפעילות של YARN ושל Dataproc Jobs API כשמחשב את זמן ה'בלי פעילות' של האשכול. אם ההגדרה היא `false`, נלקחת בחשבון רק הפעילות של Dataproc Jobs API. (ברירת מחדל: `true`). מידע נוסף זמין במאמר חישוב זמן ההמתנה של אשכול.
dataproc	dataproc.conscrypt.provider.enable	`true` או `false`	הגדרה של Conscrypt כספק האבטחה הראשי של Java. האפשרויות הן הפעלה (`true`) או השבתה (`false`). הערה: Conscrypt מופעל כברירת מחדל ב-Dataproc מגרסה 1.2 ואילך, אבל מושבת בגרסאות 1.0 ו-1.1.
dataproc	dataproc.cooperative.multi-tenancy.user.mapping	`user-to-service account mappings`	המאפיין הזה מקבל רשימה של מיפויים בין משתמשים לחשבונות שירות, שמופרדים באמצעות פסיקים. אם יוצרים אשכול עם ההגדרה הזו, כשמשתמש שולח משימה, האשכול ינסה להתחזות לחשבון השירות המתאים כשהוא ניגש ל-Cloud Storage דרך המחבר של Cloud Storage. כדי להשתמש בתכונה הזו, צריך מחבר Cloud Storage בגרסה `2.1.4` ואילך. מידע נוסף זמין במאמר Dataproc cooperative multi-tenancy. (ברירת מחדל: `empty`).
dataproc	dataproc.control.max.assigned.job.tasks	`100`	המאפיין הזה מגביל את מספר המשימות שיכולות לפעול בו-זמנית בצומת הראשי של אשכול. אם מספר המשימות הפעילות חורג ממגבלת המשימות, משימות חדשות יתווספו לתור עד שהמשימות הפועלות יסתיימו והמשאבים יתפנו כדי לאפשר תזמון של משימות חדשות. הערה: לא מומלץ להגדיר מגבלת משימות שחורגת מ-`100` (ברירת המחדל), כי זה עלול לגרום למצב של חוסר זיכרון בצומת הראשי.
dataproc	dataproc:hudi.version	גרסת Hudi	מגדיר את גרסת Hudi שבה נעשה שימוש עם רכיב Dataproc Hudi האופציונלי. הערה: הגרסה הזו מוגדרת על ידי Dataproc כך שתהיה תואמת לגרסת תמונת האשכול. אם המשתמש מגדיר את הגרסה, יכול להיות שיצירת האשכול תיכשל אם הגרסה שצוינה לא תהיה תואמת לתמונת האשכול.
dataproc	dataproc.lineage.enabled	`true`	מאפשר שקיפות של מקורות הנתונים באשכול Dataproc למשימות Spark.
dataproc	dataproc.localssd.mount.enable	`true` או `false`	האם לטעון כונני SSD מקומיים כספריות זמניות של Hadoop/Spark וכספריות נתונים של HDFS (ברירת מחדל: `true`).
dataproc	dataproc.logging.extended.enabled	`true` או `false`	האפשרות הזו מאפשרת (`true`) או משביתה (`false`) יומנים ב-Cloud Logging עבור הפריטים הבאים: `knox`,‏ `zeppelin`,‏ `ranger-usersync`,‏ `jupyter_notebook`,‏ `jupyter_kernel_gateway` ו-`spark-history-server` (ברירת מחדל: `true`). מידע נוסף זמין במאמר יומני אשכול Dataproc ב-Logging.
dataproc	dataproc.logging.stackdriver.enable	`true` או `false`	מפעיל (`true`) או משבית (`false`) את Cloud Logging (ברירת מחדל: `true`). למידע על החיובים המשויכים, ראו תמחור של Cloud Logging.
dataproc	dataproc.logging.stackdriver.job.driver.enable	`true` או `false`	הפעלה (`true`) או השבתה (`false`) של יומני מנהלי משימות ב-Dataproc ב-Cloud Logging. מידע נוסף זמין במאמר פלט ויומנים של משימות ב-Dataproc (ברירת מחדל: `false`).
dataproc	dataproc.logging.stackdriver.job.yarn.container.enable	`true` או `false`	הגדרה שמאפשרת (`true`) או משביתה (`false`) את יומני המאגר של YARN ב-Cloud Logging. אפשרויות הפלט של משימת Spark (ברירת מחדל: `false`).
dataproc	dataproc.logging.syslog.enabled	`true` או `false`	הגדרה להפעלה (`true`) או להשבתה (`false`) של יומני מערכת של מכונות וירטואליות ב-Cloud Logging (ברירת מחדל: `true`).
dataproc	dataproc.master.custom.init.actions.mode	`RUN_BEFORE_SERVICES` או `RUN_AFTER_SERVICES`	במקרים של אשכולות תמונות בגרסה 2.0 ומעלה, אם הערך שמוגדר הוא `RUN_AFTER_SERVICES`, פעולות ההפעלה בשרת הראשי יפעלו אחרי ההפעלה של HDFS ושל כל השירותים שתלויים ב-HDFS. דוגמאות לשירותים שתלויים ב-HDFS: ‏ HBase,‏ Hive Server2,‏ Ranger,‏ Solr ושרתי ההיסטוריה של Spark ו-MapReduce. (ברירת מחדל: `RUN_BEFORE_SERVICES`).
dataproc	dataproc.monitoring.stackdriver.enable	`true` או `false`	הפעלה (`true`) או השבתה (`false`) של סוכן הניטור (ברירת מחדל: `false`). המאפיין הזה יצא משימוש. במאמר הפעלת איסוף של מדדים מותאמים אישית מוסבר איך להפעיל את איסוף המדדים של Dataproc OSS ב-Monitoring.
dataproc	dataproc.scheduler.driver-size-mb	`number`	הזיכרון שבשימוש הממוצע של מנהל ההתקן, שקובע את המספר המקסימלי של משימות מקבילות שירוצו באשכול. ערך ברירת המחדל הוא `1`GB. ערך קטן יותר, כמו `256`, עשוי להתאים לעבודות Spark.
dataproc	dataproc.scheduler.job-submission-rate	`number`	אם חורגים מהקצב הזה, המשימות מוגבלות. שיעור ברירת המחדל הוא `1.0` QPS.
dataproc	dataproc.scheduler.max-concurrent-jobs	`number`	המספר המקסימלי של משימות בו-זמניות. אם הערך הזה לא מוגדר כשיוצרים את האשכול, הגבול העליון של העבודות המקבילות מחושב כ-`max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)`. ‫`masterMemoryMb` נקבע לפי סוג המכונה של ה-VM הראשי. הערך של `masterMemoryMbPerJob` הוא `1024` כברירת מחדל, אבל אפשר להגדיר אותו כשיוצרים את האשכול באמצעות מאפיין האשכול `dataproc:dataproc.scheduler.driver-size-mb`.
dataproc	dataproc.scheduler.max-memory-used	`number`	הכמות המקסימלית של ה-RAM שאפשר להשתמש בה. אם השימוש הנוכחי גבוה מהסף הזה, אי אפשר לתזמן משימות חדשות. ערך ברירת המחדל הוא `0.9` (90%). אם המדיניות מוגדרת לערך `1.0`, ויסות הנתונים (throttle) של השימוש בזיכרון הראשי מושבת.
dataproc	dataproc.scheduler.min-free-memory.mb	`number`	כמות הזיכרון הפנוי המינימלית במגה-בייט שנדרשת למנהל של משימת Dataproc כדי לתזמן משימה נוספת באשכול. ערך ברירת המחדל הוא `256`MB.
dataproc	dataproc.snap.enabled	`true` או `false`	הגדרה להפעלה או להשבתה של Ubuntu Snap daemon. ערך ברירת המחדל הוא `true`. אם ההגדרה היא`false`, חבילות Snap שמותקנות מראש בתמונה לא מושפעות, אבל הרענון האוטומטי מושבת. ההגדרה חלה על תמונות של Ubuntu בגרסאות 1.4.71, ‏ 1.5.46, ‏ 2.0.20 ומעלה.
dataproc	dataproc.worker.custom.init.actions.mode	`RUN_BEFORE_SERVICES`	באשכולות תמונות מגרסה מוקדמת מ-2.0, המשתנה RUN_BEFORE_SERVICES לא מוגדר, אבל המשתמש יכול להגדיר אותו כשהוא יוצר את האשכול. באשכולות תמונות מגרסה 2.0 ומעלה, המאפיין RUN_BEFORE_SERVICES מוגדר, ואי אפשר להעביר את המאפיין לאשכול (המשתמש לא יכול לשנות אותו). מידע על ההשפעה של ההגדרה הזו זמין במאמר שיקולים חשובים והנחיות – עיבוד אתחול.
dataproc	dataproc.yarn.orphaned-app-termination.enable	`true` או `false`	ערך ברירת המחדל הוא `true`. הערך שמוגדר הוא `false` כדי למנוע מ-Dataproc להפסיק אפליקציות YARN 'יתומות'. מערכת Dataproc מחשיבה אפליקציית YARN כיתומה אם מנהל המשימות (job driver) ששלח את אפליקציית YARN יצא. אזהרה: אם אתם משתמשים במצב Spark cluster (`spark.submit.deployMode=cluster`) ומגדירים את `spark.yarn.submit.waitAppCompletion=false`, מנהל ההתקנים של Spark יוצא בלי לחכות לסיום האפליקציות של YARN. במקרה כזה, צריך להגדיר את `dataproc:dataproc.yarn.orphaned-app-termination.enable=false`. צריך להגדיר את המאפיין הזה גם לערך `false` אם שולחים משימות Hive.
dataproc	diagnostic.capture.enabled	`true` או `false`	הגדרה שמאפשרת איסוף של נתוני אבחון של נקודות ביקורת (checkpoint) באשכול. (ברירת מחדל: `true`).
dataproc	diagnostic.capture.access	`GOOGLE_DATAPROC_DIAGNOSE`	אם הערך הוא `GOOGLE_DATAPROC_DIAGNOSE`, נתוני אבחון של נקודת ביקורת באשכול, שנשמרים ב-Cloud Storage, משותפים עם צוות התמיכה של Dataproc. (ברירת מחדל: לא מוגדר).
dataproc	efm.spark.shuffle	`primary-worker`	אם הערך הוא `primary-worker`, נתוני ערבוב של Spark נכתבים לעובדים הראשיים". מידע נוסף זמין במאמר בנושא מצב גמישות משופר ב-Dataproc.
dataproc	job.history.to-gcs.enabled	`true` או `false`	מאפשרת לשמור קבצים של היסטוריית MapReduce ו-Spark בדלי הזמני של Dataproc (ברירת מחדל: `true` לגרסאות תמונה 1.5 ומעלה). המשתמשים יכולים להחליף את המיקומים של קבצים של היסטוריית משימות באמצעות המאפיינים הבאים: `mapreduce.jobhistory.done-dir`,‏ `mapreduce.jobhistory.intermediate-done-dir`,‏ `spark.eventLog.dir` ו-`spark.history.fs.logDirectory`. במאמר בנושא שרת היסטוריה מתמשך של Dataproc אפשר לקבל מידע על המאפיינים האלה ועל מאפיינים אחרים של אשכולות שמשויכים להיסטוריית המשימות ולקובצי האירועים של Dataproc.
dataproc	jobs.file-backed-output.enable	`true` או `false`	מגדיר את עבודות Dataproc להעברת הפלט שלהן לקבצים זמניים בספרייה `/var/log/google-dataproc-job`. הערך חייב להיות `true` כדי להפעיל רישום ביומן של מנהל המשימות ב-Cloud Logging (ברירת מחדל: `true`).
dataproc	jupyter.listen.all.interfaces	`true` או `false`	כדי להקטין את הסיכון להרצת קוד מרחוק דרך ממשקי API לא מאובטחים של שרת מחברות, הגדרת ברירת המחדל לגרסאות תמונות 1.3 ומעלה היא `false`, שמגבילה את החיבורים ל-`localhost` (`127.0.0.1`) כש-Component Gateway מופעל (הפעלת Component Gateway לא נדרשת לתמונות בגרסה 2.0 ומעלה). אפשר לשנות את הגדרת ברירת המחדל הזו על ידי הגדרת המאפיין הזה לערך `true` כדי לאפשר את כל החיבורים.
dataproc	jupyter.notebook.gcs.dir	`gs://<dir-path>`	המיקום ב-Cloud Storage לשמירת מחברות Jupyter.
dataproc	kerberos.beta.automatic-config.enable	`true` או `false`	אם ההגדרה היא `true`, המשתמשים לא צריכים לציין את הסיסמה של חשבון ה-principal הראשי של Kerberos באמצעות הדגלים `--kerberos-root-principal-password` ו-`--kerberos-kms-key-uri` (ברירת המחדל: `false`). מידע נוסף זמין במאמר הפעלת מצב מאובטח של Hadoop באמצעות Kerberos.
dataproc	kerberos.cross-realm-trust.admin-server	`hostname/address`	שם המארח או הכתובת של שרת הניהול המרוחק (לרוב זהה לשרת KDC).
dataproc	kerberos.cross-realm-trust.kdc	`hostname/address`	שם המארח או הכתובת של שרת ה-KDC המרוחק.
dataproc	kerberos.cross-realm-trust.realm	`realm name`	שמות של תחומים יכולים לכלול כל מחרוזת ASCII באותיות רישיות. בדרך כלל, שם התחום זהה לשם דומיין ה-DNS (באותיות רישיות). דוגמה: אם שם המחשב הוא `machine-id`.example.west-coast.mycompany.com, התחום המשויך יכול להיות EXAMPLE.WEST-COAST.MYCOMPANY.COM.
dataproc	kerberos.cross-realm-trust.shared-password.uri	`gs://<dir-path>`	המיקום ב-Cloud Storage של הסיסמה המשותפת שמוצפנת באמצעות KMS.
dataproc	kerberos.kdc.db.key.uri	`gs://<dir-path>`	המיקום ב-Cloud Storage של הקובץ המוצפן ב-KMS שמכיל את מפתח המאסטר של מסד הנתונים של KDC.
dataproc	kerberos.key.password.uri	`gs://<dir-path>`	המיקום ב-Cloud Storage של הקובץ המוצפן ב-KMS שמכיל את הסיסמה של המפתח בקובץ של מאגר המפתחות.
dataproc	kerberos.keystore.password.uri	`gs://<dir-path>`	המיקום ב-Cloud Storage של הקובץ המוצפן ב-KMS שמכיל את הסיסמה של מאגר המפתחות.
dataproc	kerberos.keystore.uri¹	`gs://<dir-path>`	המיקום ב-Cloud Storage של קובץ מאגר המפתחות שמכיל את אישור התו הכללי ואת המפתח הפרטי שמשמש את צמתי האשכול.
dataproc	kerberos.kms.key.uri	`KMS key URI`	כתובת ה-URI של מפתח ה-KMS שמשמש לפענוח סיסמת הבסיס, לדוגמה `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (ראו מזהה משאב המפתח).
dataproc	kerberos.root.principal.password.uri	`gs://<dir-path>`	המיקום ב-Cloud Storage של הסיסמה המוצפנת ב-KMS עבור השם הראשי של שירות Kerberos.
dataproc	kerberos.tgt.lifetime.hours	`hours`	משך החיים המקסימלי של כרטיס הגישה.
dataproc	kerberos.truststore.password.uri	`gs://<dir-path>`	המיקום ב-Cloud Storage של הקובץ המוצפן ב-KMS שמכיל את הסיסמה לקובץ truststore.
dataproc	kerberos.truststore.uri²	`gs://<dir-path>`	המיקום ב-Cloud Storage של קובץ מאגר האישורים המוצפן ב-KMS שמכיל אישורים מהימנים.
dataproc	pip.packages	חבילות Pip	המאפיין הזה מקבל רשימה של חבילות Pip מופרדות בפסיקים עם גרסאות ספציפיות, שיוגדרו להתקנה בסביבת `base` Conda. מידע נוסף זמין במאמר מאפייני אשכול שקשורים ל-Conda. (ברירת מחדל: `empty`).
dataproc	ranger.kms.key.uri	`KMS key URI`	כתובת ה-URI של מפתח ה-KMS שמשמש לפענוח הסיסמה של משתמש האדמין ב-Ranger, לדוגמה `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (ראו מזהה משאב המפתח).
dataproc	ranger.admin.password.uri	`gs://<dir-path>`	המיקום ב-Cloud Storage של הסיסמה המוצפנת ב-KMS של משתמש האדמין ב-Ranger.
dataproc	ranger.db.admin.password.uri	`gs://<dir-path>`	המיקום ב-Cloud Storage של הסיסמה המוצפנת ב-KMS של משתמש האדמין במסד הנתונים של Ranger.
dataproc	ranger.cloud-sql.instance.connection.name	`cloud sql instance connection name`	שם החיבור של מופע Cloud SQL, לדוגמה `project-id:region:name.`
dataproc	ranger.cloud-sql.root.password.uri	`gs://<dir-path>`	המיקום ב-Cloud Storage של הסיסמה המוצפנת ב-KMS של משתמש Root במכונת Cloud SQL.
dataproc	ranger.cloud-sql.use-private-ip	`true` או `false`	האם התקשורת בין מופעי האשכול לבין מופע Cloud SQL צריכה להתבצע באמצעות כתובת IP פרטית (ערך ברירת המחדל הוא `false`).
dataproc	solr.gcs.path	`gs://<dir-path>`	נתיב Cloud Storage שישמש כספריית הבית של Solr.
dataproc	startup.component.service-binding-timeout.hadoop-hdfs-namenode	`seconds`	משך הזמן שסקריפט לטעינה בזמן ההפעלה של Dataproc ימתין עד שהשירות hadoop-hdfs-namenode ייקשר ליציאות, לפני שיקבע שההפעלה שלו הצליחה. הערך המקסימלי שניתן לזיהוי הוא 1,800 שניות (30 דקות).
dataproc	startup.component.service-binding-timeout.hive-metastore	`seconds`	משך הזמן שסקריפט לטעינה בזמן ההפעלה של Dataproc ימתין עד ששירות hive-metastore ייקשר ליציאות, לפני שיקבע שההפעלה שלו הצליחה. הערך המקסימלי שניתן לזיהוי הוא 1,800 שניות (30 דקות).
dataproc	startup.component.service-binding-timeout.hive-server2	`seconds`	פרק הזמן שסקריפט לטעינה בזמן ההפעלה של Dataproc ימתין עד ש-hive-server2 יקשר ליציאות, לפני שיקבע שההפעלה שלו הצליחה. הערך המקסימלי שניתן לזיהוי הוא 1,800 שניות (30 דקות).
dataproc	user-attribution.enabled	`true` או `false`	מגדירים את המאפיין הזה לערך `true` כדי לשייך משימת Dataproc לזהות של המשתמש ששלח אותה (ערך ברירת המחדל הוא `false`).
dataproc	yarn.docker.enable	`true` או `false`	מגדירים את הערך `true` כדי להפעיל את התכונה Dataproc Docker on YARN (ערך ברירת המחדל הוא `false`).
dataproc	yarn.docker.image	`docker image`	כשמפעילים את התכונה Dataproc Docker on YARN ‏ (`dataproc:yarn.docker.enable=true`), אפשר להשתמש במאפיין האופציונלי הזה כדי לציין את תמונת ה-Docker (לדוגמה, `dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1`). אם מציינים תמונה, היא מורדת ונשמרת במטמון בכל הצמתים של האשכול במהלך יצירת האשכול.
dataproc	yarn.log-aggregation.enabled	`true` או `false`	מאפשר (`true`) להפעיל את צבירת היומנים של YARN ב-`temp bucket` של האשכול. שם הקטגוריה הוא מהצורה הבאה: `dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>`. (ברירת מחדל: `true` לגרסאות תמונות 1.5 ומעלה). הערה: מאגר זמני של אשכול לא נמחק כשמחקקים את האשכול. המשתמשים יכולים גם להגדיר את המיקום של יומני YARN מצטברים על ידי החלפת המאפיין `yarn.nodemanager.remote-app-log-dir` של YARN.
knox	gateway.host	`ip address`	כדי להפחית את הסיכון להרצת קוד מרחוק דרך ממשקי API לא מאובטחים של שרת מחברות, הגדרת ברירת המחדל לגרסאות תמונה 1.3 ומעלה היא `127.0.0.1`, שמגבילה את החיבורים ל-`localhost` כש-Component Gateway מופעל. אפשר לשנות את הגדרת ברירת המחדל. לדוגמה, אפשר להגדיר את המאפיין הזה לערך `0.0.0.0` כדי לאפשר את כל החיבורים.
צפלין	zeppelin.notebook.gcs.dir	`gs://<dir-path>`	המיקום ב-Cloud Storage שבו יישמרו מחברות Zeppelin.
צפלין	zeppelin.server.addr	`ip address`	כדי להפחית את הסיכון להרצת קוד מרחוק דרך ממשקי API לא מאובטחים של שרת מחברות, הגדרת ברירת המחדל לגרסאות תמונה 1.3 ומעלה היא `127.0.0.1`, שמגבילה את החיבורים ל-`localhost` כש-Component Gateway מופעל. אפשר לשנות את הגדרת ברירת המחדל הזו. לדוגמה, אפשר להגדיר את הנכס הזה לערך `0.0.0.0` כדי לאפשר את כל החיבורים.

¹ קובץ מאגר מפתחות: קובץ מאגר המפתחות מכיל את אישור ה-SSL. הוא צריך להיות בפורמט Java KeyStore ‏ (JKS). כשמעתיקים אותו למכונות וירטואליות, השם שלו משתנה ל-keystore.jks. אישור ה-SSL צריך להיות אישור כללי שחל על כל צומת באשכול.

^‫2 קובץ truststore: קובץ ה-truststore צריך להיות בפורמט Java KeyStore ‏ (JKS). כשמעתיקים אותו למכונות וירטואליות, השם שלו משתנה ל-truststore.jks.

מאפייני האשכול קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

מאפיינים שקשורים ל-Apache Hadoop YARN,‏ HDFS,‏ Spark

עיצוב

דוגמאות

פקודת gcloud

API ל-REST

המסוף

מאפייני אשכול לעומת מאפייני משימה

טבלת מאפיינים עם קידומת של קובץ

מאפייני שירות Dataproc

עיצוב

טבלת מאפייני שירות Dataproc

מאפייני האשכול