注意:
版本
2.3是輕量型映像檔,只包含核心元件,可減少常見安全漏洞與弱點 (CVE) 的風險。如需更高的安全法規遵循要求,請在建立 Dataproc 叢集時使用2.3以上版本的映像檔。在使用
2.3映像檔建立 Dataproc 叢集時,若選擇安裝選用元件,系統會在叢集建立期間下載並安裝這些元件,此舉可能會延長叢集啟動時間。為避免此延遲,可建立一個預先安裝選用元件的自訂映像檔,方法是執行generate_custom_image.py並加上--optional-components旗標。
附註
非 ARM 2.3 映像檔支援下列選用元件:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- JupyterLab Notebook
- Ranger
- Solr
- Trino
- Zeppelin Notebook
- Zookeeper
2.3.x-*-arm映像檔僅支援預先安裝的元件和下列選用元件,不支援其他 2.3 選用元件及所有初始化動作:- Apache Hive WebHCat
- Docker
- Zeppelin Notebook
- Zookeeper (已安裝於高可用性叢集;在其他叢集為選用元件)
yarn.nodemanager.recovery.enabled和 HDFS 稽核記錄在 2.3 版映像檔中預設為啟用。micromamba(而非先前映像檔版本中的conda) 會隨 Python 安裝程序一併安裝。Docker 和 Zeppelin 安裝問題:
- 如果叢集無法存取公開網際網路,安裝就會失敗。為解決此問題,請使用已預先安裝選用元件的自訂映像檔來建立叢集,建議的方法是執行
generate_custom_image.py並加上--optional-components旗標。 - 如果叢集固定使用較舊的修正版本映像檔,安裝作業可能會失敗:因為系統是在需要時,才從公開的 OSS 存放區下載並安裝套件,但上游可能停止提供特定套件,導致無法順利安裝。為解決此問題,請使用已預先安裝選用元件的自訂映像檔來建立叢集,方法是執行
generate_custom_image.py並加上--optional-components旗標。
- 如果叢集無法存取公開網際網路,安裝就會失敗。為解決此問題,請使用已預先安裝選用元件的自訂映像檔來建立叢集,建議的方法是執行
YARN 的預設資源計算機已從 DefaultResourceCalculator 變更為 DominantResourceCalculator,後者採用「主導資源」概念來決定資源 (例如記憶體和 CPU) 的分配。這項變更會影響自動配置器,因其調度資源的方式,正是取決於叢集的主導資源使用情況。
映像檔版本 2.3 機器學習 (ML) 元件
Dataproc 2.3-ml-ubuntu 映像檔是以 2.3 映像檔為基礎,加入機器學習專用軟體所擴充而成,支援 2.3 映像檔選用元件及其他 2.3 功能,並新增以下各節列出的元件版本。
GPU 專用程式庫
對於使用 GPU VM 的 Dataproc 工作,2.3-ml-ubuntu 映像檔提供下列 NVIDIA 驅動程式和程式庫,可以用於完成下列工作:
- 使用 NVIDIA Spark Rapids 程式庫,加速處理 Spark 批次工作負載
- 訓練機器學習工作負載
- 使用 Spark 執行分散式批次推論
| 套件名稱 | 版本 |
|---|---|
| Spark Rapids | 25.04.0 |
| Nvidia 驅動程式 | Ubuntu 22.04 LTS (採用 NVIDIA 驅動程式 570 版加速) |
| CUDA | 12.6.3 |
| cublas | 12.6.4 |
| cusolver | 11.7.1 |
| cupti | 12.6.80 |
| cusparse | 12.5.4 |
| CuDNN | 9.10.1 |
| NCCL | 2.27.5 |
XGBoost 程式庫
2.3-ml-ubuntu 映像檔提供下列 Maven 套件版本,可支援在 Java 或 Scala 中搭配 Spark 使用 XGBoost。
| 群組 ID | 套件名稱 | 版本 |
|---|---|---|
| ml.dmlc | xgboost4j-gpu_2.12 | 2.1.1 |
| ml.dmlc | xgboost4j-spark-gpu_2.12 | 2.1.1 |
Python 程式庫
2.3-ml-ubuntu 映像檔包含下列程式庫,可支援機器學習生命週期的不同階段。
| 套件 | 版本 |
|---|---|
| accelerate | 1.8.1 |
| Conda | 23.11.0 |
| cookiecutter | 2.5.0 |
| curl | 8.12.1 |
| cython | 3.0.12 |
| dask | 2023.12.1 |
| datasets | 3.6.0 |
| deepspeed | 0.17.2 |
| delta-spark | 3.2.0 |
| evaluate | 0.4.5 |
| fastavro | 1.9.7 |
| fastparquet | 2023.10.1 |
| Fiona | 1.10.0 |
| gateway-provisioners[yarn] | 0.4.0 |
| gcsfs | 2023.12.2.post1 |
| google-auth-oauthlib | 1.2.2 |
| google-cloud-aiplatform | 1.88.0 |
| google-cloud-bigquery[pandas] | 3.31.0 |
| google-cloud-bigquery-storage | 2.30.0 |
| google-cloud-bigtable | 2.30.1 |
| google-cloud-container | 2.56.1 |
| google-cloud-datacatalog | 3.26.1 |
| google-cloud-dataproc | 5.18.1 |
| google-cloud-datastore | 2.21.0 |
| google-cloud-language | 2.17.2 |
| google-cloud-logging | 3.11.4 |
| google-cloud-monitoring | 2.27.2 |
| google-cloud-pubsub | 2.29.1 |
| google-cloud-redis | 2.18.1 |
| google-cloud-spanner | 3.53.0 |
| google-cloud-speech | 2.32.0 |
| google-cloud-storage | 2.19.0 |
| google-cloud-texttospeech | 2.25.1 |
| google-cloud-translate | 3.20.3 |
| google-cloud-vision | 3.10.2 |
| huggingface_hub | 0.33.1 |
| httplib2 | 0.22.0 |
| ipyparallel | 8.6.1 |
| ipython-sql | 0.3.9 |
| ipywidgets | 8.1.7 |
| jupyter_contrib_nbextensions | 0.7.0 |
| jupyter_http_over_ws | 0.0.8 |
| jupyter_kernel_gateway | 2.5.2 |
| jupyter_server | 1.24.0 |
| jupyterhub | 4.1.6 |
| jupyterlab | 3.6.8 |
| jupyterlab-git | 0.44.0 |
| jupyterlab_widgets | 3.0.15 |
| koalas | 0.22.0 |
| langchain | 0.3.26 |
| lightgbm | 4.6.0 |
| markdown | 3.5.2 |
| matplotlib | 3.8.4 |
| mlflow | 3.1.1 |
| nbconvert | 7.14.2 |
| nbdime | 3.2.1 |
| nltk | 3.9.1 |
| notebook | 6.5.7 |
| numba | 0.58.1 |
| numpy | 1.26.4 |
| oauth2client | 4.1.3 |
| onnx | 1.17.0 |
| openblas | 0.3.25 |
| opencv | 4.11.0 |
| orc | 2.1.1 |
| pandas | 2.1.4 |
| pandas-profiling | 3.0.0 |
| papermill | 2.4.0 |
| pyarrow | 16.1.0 |
| pydot | 2.0.0 |
| pyhive | 0.7.0 |
| pynvml | 12.0.0 |
| pysal | 23.7 |
| pytables | 3.9.2 |
| python | 3.11 |
| regex | 2023.12.25 |
| requests | 2.32.2 |
| requests-kerberos | 0.12.0 |
| rtree | 1.1.0 |
| scikit-image | 0.22.0 |
| scikit-learn | 1.5.2 |
| scipy | 1.11.4 |
| seaborn | 0.13.2 |
| sentence-transformers | 5.0.0 |
| setuptools | 79.0.1 |
| shap | 0.48.0 |
| shapely | 2.1.1 |
| spacy | 3.8.7 |
| spark-tensorflow-distributor | 1.0.0 |
| spyder | 5.5.6 |
| sqlalchemy | 2.0.41 |
| sympy | 1.13.3 |
| tensorflow | 2.18.0 |
| tokenizers | 0.21.4.dev0 |
| toree | 0.5.0 |
| torch | 2.6.0 |
| torch-model-archiver | 0.11.1 |
| torcheval | 0.0.7 |
| tornado | 6.4.2 |
| torchvision | 0.21.0 |
| traitlets | 5.14.3 |
| transformers | 4.53.1 |
| uritemplate | 4.1.1 |
| virtualenv | 20.26.6 |
| wordcloud | 1.9.4 |
| xgboost | 2.1.4 |
R 程式庫
2.3-ml-ubuntu 映像檔包含下列 R 程式庫版本。
| 套件名稱 | 版本 |
|---|---|
| r-ggplot2 | 3.4.4 |
| r-irkernel | 1.3.2 |
| r-rcurl | 1.98-1.16 |
| r-recommended | 4.3 |