הערות:
גרסה
2.3היא תמונה קלה שמכילה רק רכיבי ליבה, וכך מצמצמת את החשיפה לנקודות חולשה נפוצות (CVE). כדי לעמוד בדרישות גבוהות יותר של תאימות אבטחה, צריך להשתמש בגרסת התמונה2.3ומעלה כשיוצרים אשכול Dataproc.אם בוחרים להתקין רכיבים אופציונליים כשיוצרים אשכול Dataproc עם תמונת
2.3, הרכיבים יורדו ויותקנו במהלך יצירת האשכול. הפעולה הזו עלולה להאריך את זמן ההפעלה של האשכול. כדי להימנע מהעיכוב הזה, אפשר ליצור תמונה בהתאמה אישית עם הרכיבים האופציונליים מותקנים מראש. כדי לעשות את זה, מריצים את הפקודהgenerate_custom_image.pyעם הסימון--optional-components.
הערות
הרכיבים האופציונליים הבאים נתמכים בתמונות שאינן arm 2.3:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- מחברת JupyterLab
- שומר היערות
- Solr
- Trino
- מחברת Zeppelin
- מטפל בבעלי חיים
תמונות
2.3.x-*-armתומכות רק ברכיבים שמותקנים מראש וברכיבים האופציונליים הבאים. אין תמיכה בשאר הרכיבים האופציונליים של גרסה 2.3 ובכל פעולות האתחול:- Apache Hive WebHCat
- Apache Pig (החל מ-
2.3.22-ubuntu22-arm) - Docker
- מחברת Zeppelin
- Zookeeper (מותקן באשכולות של זמינות גבוהה; רכיב אופציונלי באשכולות אחרים)
yarn.nodemanager.recovery.enabledו-HDFS Audit Logging מופעלים כברירת מחדל בתמונות 2.3.
micromamba, במקוםcondaבגרסאות קודמות של תמונות, מותקן כחלק מההתקנה של Python.בעיות בהתקנה של Docker ו-Zeppelin:
- ההתקנה נכשלת אם לאשכול אין גישה לאינטרנט הציבורי. כפתרון עקיף, אפשר ליצור אשכול שמשתמש בתמונה מותאמת אישית עם רכיבים אופציונליים שהותקנו מראש. כדי לעשות את זה, מריצים את הפקודה
generate_custom_image.pyעם הדגל--optional-components. - ההתקנה עלולה להיכשל אם האשכול מוצמד לגרסה ישנה יותר של תמונה משנית: החבילות מותקנות לפי דרישה ממאגרי OSS ציבוריים, ויכול להיות שחבילה לא תהיה זמינה במעלה הזרם כדי לתמוך בהתקנה.
כפתרון עקיף, אפשר ליצור אשכול שמשתמש בתמונה מותאמת אישית עם רכיבים אופציונליים שהותקנו מראש בתמונה המותאמת אישית. כדי לעשות את זה, מריצים את הפקודה
generate_custom_image.pyעם הדגל--optional-components.
- ההתקנה נכשלת אם לאשכול אין גישה לאינטרנט הציבורי. כפתרון עקיף, אפשר ליצור אשכול שמשתמש בתמונה מותאמת אישית עם רכיבים אופציונליים שהותקנו מראש. כדי לעשות את זה, מריצים את הפקודה
ההגדרה של מחשבון המשאבים שמוגדר כברירת מחדל ב-YARN השתנתה מ-DefaultResourceCalculator ל-DominantResourceCalculator. ההגדרה החדשה משתמשת במושג של משאב דומיננטי כדי לקבוע את הקצאת המשאבים, כמו הקצאת זיכרון ומעבד. השינוי הזה משפיע על Autoscaler, שמתאים את גודל האשכול בהתאם לשימוש הדומיננטי במשאבים.
רכיבי למידת מכונה (ML) של גרסת תמונה 2.3
קובץ האימג' של Dataproc 2.3-ml-ubuntu הוא הרחבה של קובץ האימג' הבסיסי 2.3 עם תוכנה ספציפית ל-ML. הוא תומך ברכיבים אופציונליים של תמונות בגרסה 2.3 ובתכונות אחרות של גרסה 2.3, ומוסיף את גרסאות הרכיבים שמפורטות בקטעים הבאים.
ספריות ספציפיות ל-GPU
למשימות Dataproc שמשתמשות במכונות וירטואליות עם GPU, מנהל ההתקן והספריות הבאים של NVIDIA זמינים בתמונה 2.3-ml-ubuntu. אפשר להשתמש בהם כדי לבצע את המשימות הבאות:
- האצת עומסי עבודה של אצווה ב-Spark באמצעות ספריית NVIDIA Spark Rapids
- אימון עומסי עבודה של למידת מכונה
- הרצת הסקה ברצף מבוזרת באמצעות Spark
| שם החבילה | גרסה |
|---|---|
| Spark Rapids | 25.04.0 |
| NVIDIA Driver | Ubuntu 22.04 LTS מואץ באמצעות דרייבר NVIDIA בגרסה 570 |
| CUDA | 12.6.3 |
| cublas | 12.6.4 |
| cusolver | 11.7.1 |
| cupti | 12.6.80 |
| cusparse | 12.5.4 |
| cuDNN | 9.10.1 |
| NCCL | 2.27.5 |
ספריות XGBoost
גרסאות החבילה הבאות של Maven זמינות בתמונת 2.3-ml-ubuntu כדי לאפשר לכם להשתמש ב-XGBoost עם Spark ב-Java או ב-Scala.
| מזהה קבוצה | שם החבילה | גרסה |
|---|---|---|
| ml.dmlc | xgboost4j-gpu_2.12 | 2.1.1 |
| ml.dmlc | xgboost4j-spark-gpu_2.12 | 2.1.1 |
ספריות Python
התמונה 2.3-ml-ubuntu מכילה את הספריות הבאות, שתומכות בשלבים שונים במחזור החיים של ML.
| חבילה | גרסה |
|---|---|
| להאיץ | 1.8.1 |
| conda | 23.11.0 |
| cookiecutter | 2.5.0 |
| curl | 8.12.1 |
| Cython | 3.0.12 |
| dask | 01.12.2023 |
| מערכי נתונים | 3.6.0 |
| deepspeed | 0.17.2 |
| delta-spark | 3.2.0 |
| הערכה | 0.4.5 |
| fastavro | 1.9.7 |
| fastparquet | 1.10.2023 |
| fiona | 1.10.0 |
| gateway-provisioners[yarn] | 0.4.0 |
| gcsfs | 2023.12.2.post1 |
| google-auth-oauthlib | 1.2.2 |
| google-cloud-aiplatform | 1.88.0 |
| google-cloud-bigquery[pandas] | 3.31.0 |
| google-cloud-bigquery-storage | 2.30.0 |
| google-cloud-bigtable | 2.30.1 |
| google-cloud-container | 2.56.1 |
| google-cloud-datacatalog | 3.26.1 |
| google-cloud-dataproc | 5.18.1 |
| google-cloud-datastore | 2.21.0 |
| google-cloud-language | 2.17.2 |
| google-cloud-logging | 3.11.4 |
| google-cloud-monitoring | 2.27.2 |
| google-cloud-pubsub | 2.29.1 |
| google-cloud-redis | 2.18.1 |
| google-cloud-spanner | 3.53.0 |
| google-cloud-speech | 2.32.0 |
| google-cloud-storage | 2.19.0 |
| google-cloud-texttospeech | 2.25.1 |
| google-cloud-translate | 3.20.3 |
| google-cloud-vision | 3.10.2 |
| huggingface_hub | 0.33.1 |
| httplib2 | 0.22.0 |
| ipyparallel | 8.6.1 |
| ipython-sql | 0.3.9 |
| ipywidgets | 8.1.7 |
| jupyter_contrib_nbextensions | 0.7.0 |
| jupyter_http_over_ws | 0.0.8 |
| jupyter_kernel_gateway | 2.5.2 |
| jupyter_server | 1.24.0 |
| jupyterhub | 4.1.6 |
| jupyterlab | 3.6.8 |
| jupyterlab-git | 0.44.0 |
| jupyterlab_widgets | 3.0.15 |
| קואלות | 0.22.0 |
| langchain | 0.3.26 |
| lightgbm | 4.6.0 |
| markdown | 3.5.2 |
| matplotlib | 3.8.4 |
| mlflow | 3.1.1 |
| nbconvert | 7.14.2 |
| nbdime | 3.2.1 |
| nltk | 3.9.1 |
| notebook | 6.5.7 |
| numba | 0.58.1 |
| numpy | 1.26.4 |
| oauth2client | 4.1.3 |
| onnx | 1.17.0 |
| openblas | 0.3.25 |
| opencv | 4.11.0 |
| orc | 2.1.1 |
| פנדות | 2.1.4 |
| pandas-profiling | 3.0.0 |
| מפעל נייר | 2.4.0 |
| pyarrow | 16.1.0 |
| pydot | 2.0.0 |
| pyhive | 0.7.0 |
| pynvml | 12.0.0 |
| pysal | 23.7 |
| pytables | 3.9.2 |
| python | 3.11 |
| regex | 25.12.2023 |
| בקשות | 2.32.2 |
| requests-kerberos | 0.12.0 |
| rtree | 1.1.0 |
| scikit-image | 0.22.0 |
| scikit-learn | 1.5.2 |
| scipy | 1.11.4 |
| seaborn | 0.13.2 |
| sentence-transformers | 5.0.0 |
| setuptools | 79.0.1 |
| shap | 0.48.0 |
| בעל צורה יפה | 2.1.1 |
| spacy | 3.8.7 |
| spark-tensorflow-distributor | 1.0.0 |
| spyder | 5.5.6 |
| sqlalchemy | 2.0.41 |
| sympy | 1.13.3 |
| tensorflow | 2.18.0 |
| tokenizers | 0.21.4.dev0 |
| toree | 0.5.0 |
| לפיד | 2.6.0 |
| torch-model-archiver | 0.11.1 |
| torcheval | 0.0.7 |
| טורנדו | 6.4.2 |
| torchvision | 0.21.0 |
| traitlets | 5.14.3 |
| טרנספורמציה | 4.53.1 |
| uritemplate | 4.1.1 |
| virtualenv | 20.26.6 |
| wordcloud | 1.9.4 |
| xgboost | 2.1.4 |
ספריות R
הגרסאות הבאות של ספריית R כלולות בתמונה 2.3-ml-ubuntu.
| שם החבילה | גרסה |
|---|---|
| r-ggplot2 | 3.4.4 |
| r-irkernel | 1.3.2 |
| r-rcurl | 1.98-1.16 |
| r-recommended | 4.3 |