Versiones de lanzamiento 2.3.x

Componente 2.3.14-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/10/03
2.3.13-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/09/15
2.3.11-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/09/08
2.3.10-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/29
2.3.9-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/19
Acción de inicialización de
Apache Atlas
2.2.0 2.2.0 2.2.0 2.2.0 2.2.0
Apache Flink
componente opcional
1.17.0 1.17.0 1.17.0 1.17.0 1.17.0
Apache Hadoop
instalado
3.3.6 3.3.6 3.3.6 3.3.6 3.3.6
Apache Hive
instalado
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hive WebHCat
componente opcional
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hudi
componente opcional
0.15.0 0.15.0 0.15.0 0.15.0 0.15.0
Apache Iceberg
componente opcional
1.6.1 1.6.1 1.6.1 1.6.1 1.6.1
Apache Kafka
acción de inicialización
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Apache Pig
componente opcional
0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT
Apache Spark
instalado
3.5.3 3.5.3 3.5.3 3.5.3 3.5.3
Acción de inicialización de Apache Sqoop
1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT
Apache Tez
instalado
0.10.2 0.10.2 0.10.2 0.10.2 0.10.2
Conector de BigQuery
instalado
0.42.3 0.42.3 0.42.3 0.42.3 0.42.3
Conector de Cloud Storage
instalado
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Conscrypt
instalado
2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Delta Lake
componente opcional
3.2.0 3.2.0 3.2.0 3.2.0 3.2.0
Docker
componente opcional
28,1 28,1 28,1 28,1 28,1
Acción de inicialización de
Hue
4.11.0 4.11.0 4.11.0 4.11.0 4.11.0
Java
instalado
11 11 11 11 11
Cuaderno de JupyterLab
componente opcional
3.6 3.6 3.6 3.6 3.6
Oozie
initialization action
5.2.1 5.2.1 5.2.1 5.2.1 5.2.1
Python
instalado
micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11
R
instalado
R 4.3 R 4.3 R 4.3 R 4.3 R 4.3
Ranger
componente opcional
2.4.0 2.4.0 2.4.0 2.4.0 2.4.0
Scala
instalado
2.12.18 2.12.18 2.12.18 2.12.18 2.12.18
Solr
componente opcional
9.4.1 9.4.1 9.4.1 9.4.1 9.4.1
Trino
componente opcional
432 432 432 432 432
Zeppelin Notebook
componente opcional
0.10.1 0.10.1 0.10.1 0.10.1 0.10.1
Zookeeper
componente opcional
3.9.3 3.9.3 3.9.3 3.9.3 3.9.3

Cambios importantes en la versión 2.3:

  • La versión 2.3 es una imagen ligera que solo contiene componentes principales, lo que reduce la exposición a vulnerabilidades y exposiciones comunes (CVEs). Para cumplir requisitos de seguridad más estrictos, usa la versión de imagen 2.3 o una posterior al crear un clúster de Dataproc.

  • Si decides instalar componentes opcionales al crear un clúster de Dataproc con la imagen 2.3, se descargarán e instalarán durante la creación del clúster. Esto podría aumentar el tiempo de inicio del clúster. Para evitar este retraso, puedes crear una imagen personalizada con los componentes opcionales preinstalados. Para ello, ejecuta generate_custom_image.py con la marca --optional-components.

Notas

  • Los siguientes componentes opcionales se admiten en imágenes 2.3 que no sean de ARM:

    • Apache Flink
    • Apache Hive WebHCat
    • Apache Hudi
    • Apache Iceberg
    • Apache Pig
    • Delta Lake
    • Docker
    • Cuaderno de JupyterLab
    • Ranger
    • Solr
    • Trino
    • Cuaderno de Zeppelin
    • Zookeeper
  • Las imágenes 2.3.x-*-arm solo admiten los componentes preinstalados y los siguientes componentes opcionales. No se admiten los otros 2.3 componentes opcionales ni todas las acciones de inicialización:

  • yarn.nodemanager.recovery.enabled y el registro de auditoría de HDFS están habilitados de forma predeterminada en las imágenes 2.3.

  • micromamba, en lugar de conda en versiones anteriores de la imagen, se instala como parte de la instalación de Python.

  • Problemas de instalación de Docker y Zeppelin:

    • La instalación falla si el clúster no tiene acceso público a Internet. Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados. Para ello, ejecuta generate_custom_image.py con la marca --optional-components.
    • La instalación puede fallar si el clúster está fijado a una versión secundaria anterior de la imagen: los paquetes se instalan bajo demanda desde repositorios OSS públicos y es posible que un paquete no esté disponible en el upstream para admitir la instalación. Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados en la imagen personalizada. Para ello, ejecuta generate_custom_image.py con la marca --optional-components.
  • La calculadora de recursos predeterminada de YARN se ha cambiado de DefaultResourceCalculator a DominantResourceCalculator, que usa el concepto de recurso dominante para determinar la asignación de recursos, como la asignación de memoria y CPU. Este cambio afecta a Autoscaler, que se escala en función del uso de recursos dominante del clúster.

Componentes de aprendizaje automático de la versión 2.3 de la imagen

La imagen de Dataproc 2.3-ml-ubuntu amplía la imagen base 2.3 con software específico de aprendizaje automático. Es compatible con los componentes opcionales de la imagen 2.3 y otras funciones de la versión 2.3, y añade las versiones de los componentes que se indican en las siguientes secciones.

Bibliotecas específicas de la GPU

En las tareas de Dataproc que usan VMs con GPU, los siguientes controladores y bibliotecas de NVIDIA están disponibles en la imagen 2.3-ml-ubuntu. Puedes usarlas para llevar a cabo las siguientes tareas:

  • Acelerar las cargas de trabajo por lotes de Spark con la biblioteca NVIDIA Spark Rapids
  • Entrenar cargas de trabajo de aprendizaje automático
  • Ejecutar inferencias por lotes distribuidas con Spark
Nombre del paquete Versión
Spark Rapids 25.04.0
Controlador de NVIDIA Ubuntu 22.04 LTS acelerado con la versión 570 del controlador de NVIDIA
CUDA 12.6.3
cublas 12.6.4
cusolver 11.7.1
cupti 12.6.80
cusparse 12.5.4
cuDNN 9.10.1
NCCL 2.27.5

Bibliotecas XGBoost

Las siguientes versiones del paquete Maven están disponibles en la imagen 2.3-ml-ubuntu para que puedas usar XGBoost con Spark en Java o Scala.

ID de grupo Nombre del paquete Versión
ml.dmlc xgboost4j-gpu_2.12 2.1.1
ml.dmlc xgboost4j-spark-gpu_2.12 2.1.1

Bibliotecas de Python

La imagen 2.3-ml-ubuntu contiene las siguientes bibliotecas, que admiten diferentes fases del ciclo de vida del aprendizaje automático.

Bibliotecas de Python de la imagen `2.3-ml-ubuntu`
Paquete Versión
acelerar1.8.1
conda23.11.0
cookiecutter2.5.0
curl8.12.1
cython3.0.12
dask1/12/2023
datasets3.6.0
deepspeed0.17.2
delta-spark3.2.0
evaluate0.4.5
fastavro1.9.7
fastparquet1/10/2023
fiona1.10.0
gateway-provisioners[yarn]0.4.0
gcsfs2023.12.2.post1
google-auth-oauthlib1.2.2
google-cloud-aiplatform1.88.0
google-cloud-bigquery[pandas]3.31.0
google-cloud-bigquery-storage2.30.0
google-cloud-bigtable2.30.1
google-cloud-container2.56.1
google-cloud-datacatalog3.26.1
google-cloud-dataproc5.18.1
google-cloud-datastore2.21.0
google-cloud-language2.17.2
google-cloud-logging3.11.4
google-cloud-monitoring2.27.2
google-cloud-pubsub2.29.1
google-cloud-redis2.18.1
google-cloud-spanner3.53.0
google-cloud-speech2.32.0
google-cloud-storage2.19.0
google-cloud-texttospeech2.25.1
google-cloud-translate3.20.3
google-cloud-vision3.10.2
huggingface_hub0.33.1
httplib20.22.0
ipyparallel8.6.1
ipython-sql0.3.9
ipywidgets8.1.7
jupyter_contrib_nbextensions0.7.0
jupyter_http_over_ws0.0.8
jupyter_kernel_gateway2.5.2
jupyter_server1.24.0
jupyterhub4.1.6
jupyterlab3.6.8
jupyterlab-git0.44.0
jupyterlab_widgets3.0.15
koalas0.22.0
langchain0.3.26
lightgbm4.6.0
Markdown3.5.2
matplotlib3.8.4
mlflow3.1.1
nbconvert7.14.2
nbdime3.2.1
nltk3.9.1
bloc de notas6.5.7
numba0.58.1
numpy1.26.4
oauth2client4.1.3
onnx1.17.0
openblas0.3.25
opencv4.11.0
orc2.1.1
pandas2.1.4
pandas-profiling3.0.0
fábrica de papel2.4.0
pyarrow16.1.0
pydot2.0.0
pyhive0.7.0
pynvml12.0.0
pysal23,7
pytables3.9.2
Python3.11
regex25/12/2023
solicitudes2.32.2
requests-kerberos0.12.0
rtree1.1.0
scikit-image0.22.0
scikit‑learn1.5.2
scipy1.11.4
marítimo0.13.2
sentence-transformers5.0.0
setuptools79.0.1
shap0.48.0
con curvas2.1.1
espacioso3.8.7
spark-tensorflow-distributor1.0.0
spyder5.5.6
sqlalchemy2.0.41
sympy1.13.3
tensorflow2.18.0
tokenizadores0.21.4.dev0
toree0.5.0
torch2.6.0
torch-model-archiver0.11.1
torcheval0.0.7
tornado6.4.2
torchvision0.21.0
traitlets5.14.3
transformadores4.53.1
uritemplate4.1.1
virtualenv20.26.6
Nube de palabras1.9.4
xgboost2.1.4

Bibliotecas de R

Las siguientes versiones de la biblioteca R se incluyen en la imagen 2.3-ml-ubuntu.

Bibliotecas R de la imagen `2.3-ml-ubuntu`
Nombre del paquete Versión
r-ggplot2 3.4.4
r-irkernel 1.3.2
r-rcurl 1,98-1,16
r-recommended 4.3