2.3.x 發布版本

元件 2.3.17-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/10/28
2.3.16-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/-rocky9
2025/10/20
2.3.15-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/10/14
2.3.14-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/10/03
2.3.13-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/09/15
Apache Atlas
初始化動作
2.2.0 2.2.0 2.2.0 2.2.0 2.2.0
Apache Flink
選用元件
1.17.0 1.17.0 1.17.0 1.17.0 1.17.0
Apache Hadoop
已安裝
3.3.6 3.3.6 3.3.6 3.3.6 3.3.6
Apache Hive
已安裝
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hive WebHCat
選用元件
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hudi
選用元件
0.15.0 0.15.0 0.15.0 0.15.0 0.15.0
Apache Iceberg
選用元件
1.6.1 1.6.1 1.6.1 1.6.1 1.6.1
Apache Kafka
初始化動作
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Apache Pig
選用元件
0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT
Apache Spark
已安裝
3.5.3 3.5.3 3.5.3 3.5.3 3.5.3
Apache Sqoop
初始化動作
1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT
Apache Tez
已安裝
0.10.2 0.10.2 0.10.2 0.10.2 0.10.2
BigQuery Connector
已安裝
0.42.3 0.42.3 0.42.3 0.42.3 0.42.3
Cloud Storage 連接器
已安裝
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Conscrypt
已安裝
2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Delta Lake
選用元件
3.2.0 3.2.0 3.2.0 3.2.0 3.2.0
Docker
選用元件
28.1 28.1 28.1 28.1 28.1
Hue
初始化動作
4.11.0 4.11.0 4.11.0 4.11.0 4.11.0
Java
已安裝
11 11 11 11 11
JupyterLab Notebook
選用元件
3.6 3.6 3.6 3.6 3.6
Oozie
初始化動作
5.2.1 5.2.1 5.2.1 5.2.1 5.2.1
Python
已安裝
micromamba 2.0.5 搭配 Python 3.11 micromamba 2.0.5 搭配 Python 3.11 micromamba 2.0.5 搭配 Python 3.11 micromamba 2.0.5 搭配 Python 3.11 micromamba 2.0.5 搭配 Python 3.11
R
已安裝
R 4.3 R 4.3 R 4.3 R 4.3 R 4.3
Ranger
選用元件
2.4.0 2.4.0 2.4.0 2.4.0 2.4.0
Scala
已安裝
2.12.18 2.12.18 2.12.18 2.12.18 2.12.18
Solr
選用元件
9.4.1 9.4.1 9.4.1 9.4.1 9.4.1
Trino
選用元件
432 432 432 432 432
Zeppelin Notebook
選用元件
0.10.1 0.10.1 0.10.1 0.10.1 0.10.1
Zookeeper
選用元件
3.9.3 3.9.3 3.9.3 3.9.3 3.9.3

注意:

  • 版本 2.3 是輕量型映像檔,只包含核心元件,可減少常見安全漏洞與弱點 (CVE) 的風險。如需更高的安全法規遵循要求,請在建立 Dataproc 叢集時使用 2.3 以上版本的映像檔。

  • 在使用 2.3 映像檔建立 Dataproc 叢集時,若選擇安裝選用元件,系統會在叢集建立期間下載並安裝這些元件,此舉可能會延長叢集啟動時間。為避免此延遲,可建立一個預先安裝選用元件的自訂映像檔,方法是執行 generate_custom_image.py 並加上 --optional-components 旗標。

附註

  • 非 ARM 2.3 映像檔支援下列選用元件:

    • Apache Flink
    • Apache Hive WebHCat
    • Apache Hudi
    • Apache Iceberg
    • Apache Pig
    • Delta Lake
    • Docker
    • JupyterLab Notebook
    • Ranger
    • Solr
    • Trino
    • Zeppelin Notebook
    • Zookeeper
  • 2.3.x-*-arm 映像檔僅支援預先安裝的元件和下列選用元件,不支援其他 2.3 選用元件及所有初始化動作:

    • Apache Hive WebHCat
    • Docker
    • Zeppelin Notebook
    • Zookeeper (已安裝於高可用性叢集;在其他叢集為選用元件)
  • yarn.nodemanager.recovery.enabled 和 HDFS 稽核記錄在 2.3 版映像檔中預設為啟用。

  • micromamba (而非先前映像檔版本中的 conda) 會隨 Python 安裝程序一併安裝。

  • Docker 和 Zeppelin 安裝問題:

    • 如果叢集無法存取公開網際網路,安裝就會失敗。為解決此問題,請使用已預先安裝選用元件的自訂映像檔來建立叢集,建議的方法是執行 generate_custom_image.py 並加上 --optional-components 旗標
    • 如果叢集固定使用較舊的修正版本映像檔,安裝作業可能會失敗:因為系統是在需要時,才從公開的 OSS 存放區下載並安裝套件,但上游可能停止提供特定套件,導致無法順利安裝。為解決此問題,請使用已預先安裝選用元件的自訂映像檔來建立叢集,方法是執行 generate_custom_image.py 並加上 --optional-components 旗標
  • YARN 的預設資源計算機已從 DefaultResourceCalculator 變更為 DominantResourceCalculator,後者採用「主導資源」概念來決定資源 (例如記憶體和 CPU) 的分配。這項變更會影響自動配置器,因其調度資源的方式,正是取決於叢集的主導資源使用情況。

映像檔版本 2.3 機器學習 (ML) 元件

Dataproc 2.3-ml-ubuntu 映像檔是以 2.3 映像檔為基礎,加入機器學習專用軟體所擴充而成,支援 2.3 映像檔選用元件及其他 2.3 功能,並新增以下各節列出的元件版本。

GPU 專用程式庫

對於使用 GPU VM 的 Dataproc 工作,2.3-ml-ubuntu 映像檔提供下列 NVIDIA 驅動程式和程式庫,可以用於完成下列工作:

  • 使用 NVIDIA Spark Rapids 程式庫,加速處理 Spark 批次工作負載
  • 訓練機器學習工作負載
  • 使用 Spark 執行分散式批次推論
套件名稱 版本
Spark Rapids 25.04.0
Nvidia 驅動程式 Ubuntu 22.04 LTS (採用 NVIDIA 驅動程式 570 版加速)
CUDA 12.6.3
cublas 12.6.4
cusolver 11.7.1
cupti 12.6.80
cusparse 12.5.4
CuDNN 9.10.1
NCCL 2.27.5

XGBoost 程式庫

2.3-ml-ubuntu 映像檔提供下列 Maven 套件版本,可支援在 Java 或 Scala 中搭配 Spark 使用 XGBoost

群組 ID 套件名稱 版本
ml.dmlc xgboost4j-gpu_2.12 2.1.1
ml.dmlc xgboost4j-spark-gpu_2.12 2.1.1

Python 程式庫

2.3-ml-ubuntu 映像檔包含下列程式庫,可支援機器學習生命週期的不同階段。

`2.3-ml-ubuntu` 映像檔 Python 程式庫
套件 版本
accelerate1.8.1
Conda23.11.0
cookiecutter2.5.0
curl8.12.1
cython3.0.12
dask2023.12.1
datasets3.6.0
deepspeed0.17.2
delta-spark3.2.0
evaluate0.4.5
fastavro1.9.7
fastparquet2023.10.1
Fiona1.10.0
gateway-provisioners[yarn]0.4.0
gcsfs2023.12.2.post1
google-auth-oauthlib1.2.2
google-cloud-aiplatform1.88.0
google-cloud-bigquery[pandas]3.31.0
google-cloud-bigquery-storage2.30.0
google-cloud-bigtable2.30.1
google-cloud-container2.56.1
google-cloud-datacatalog3.26.1
google-cloud-dataproc5.18.1
google-cloud-datastore2.21.0
google-cloud-language2.17.2
google-cloud-logging3.11.4
google-cloud-monitoring2.27.2
google-cloud-pubsub2.29.1
google-cloud-redis2.18.1
google-cloud-spanner3.53.0
google-cloud-speech2.32.0
google-cloud-storage2.19.0
google-cloud-texttospeech2.25.1
google-cloud-translate3.20.3
google-cloud-vision3.10.2
huggingface_hub0.33.1
httplib20.22.0
ipyparallel8.6.1
ipython-sql0.3.9
ipywidgets8.1.7
jupyter_contrib_nbextensions0.7.0
jupyter_http_over_ws0.0.8
jupyter_kernel_gateway2.5.2
jupyter_server1.24.0
jupyterhub4.1.6
jupyterlab3.6.8
jupyterlab-git0.44.0
jupyterlab_widgets3.0.15
koalas0.22.0
langchain0.3.26
lightgbm4.6.0
markdown3.5.2
matplotlib3.8.4
mlflow3.1.1
nbconvert7.14.2
nbdime3.2.1
nltk3.9.1
notebook6.5.7
numba0.58.1
numpy1.26.4
oauth2client4.1.3
onnx1.17.0
openblas0.3.25
opencv4.11.0
orc2.1.1
pandas2.1.4
pandas-profiling3.0.0
papermill2.4.0
pyarrow16.1.0
pydot2.0.0
pyhive0.7.0
pynvml12.0.0
pysal23.7
pytables3.9.2
python3.11
regex2023.12.25
requests2.32.2
requests-kerberos0.12.0
rtree1.1.0
scikit-image0.22.0
scikit-learn1.5.2
scipy1.11.4
seaborn0.13.2
sentence-transformers5.0.0
setuptools79.0.1
shap0.48.0
shapely2.1.1
spacy3.8.7
spark-tensorflow-distributor1.0.0
spyder5.5.6
sqlalchemy2.0.41
sympy1.13.3
tensorflow2.18.0
tokenizers0.21.4.dev0
toree0.5.0
torch2.6.0
torch-model-archiver0.11.1
torcheval0.0.7
tornado6.4.2
torchvision0.21.0
traitlets5.14.3
transformers4.53.1
uritemplate4.1.1
virtualenv20.26.6
wordcloud1.9.4
xgboost2.1.4

R 程式庫

2.3-ml-ubuntu 映像檔包含下列 R 程式庫版本。

`2.3-ml-ubuntu` 映像檔 R 程式庫
套件名稱 版本
r-ggplot2 3.4.4
r-irkernel 1.3.2
r-rcurl 1.98-1.16
r-recommended 4.3