Modifiche importanti nella versione 2.3:
La versione
2.3è un'immagine leggera che contiene solo i componenti principali, riducendo l'esposizione a vulnerabilità ed esposizioni comuni (CVE). Per requisiti di conformità alla sicurezza più elevati, utilizza la versione dell'immagine2.3o successive quando crei un cluster Dataproc.Se scegli di installare componenti facoltativi quando crei un cluster Dataproc con l'immagine
2.3, questi verranno scaricati e installati durante la creazione del cluster. Ciò potrebbe aumentare il tempo di avvio del cluster. Per evitare questo ritardo, puoi creare un'immagine personalizzata con i componenti facoltativi preinstallati. Ciò si ottiene eseguendogenerate_custom_image.pycon il flag--optional-components.
Note
I seguenti componenti facoltativi sono supportati nelle immagini non arm 2.3:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- Blocco note JupyterLab
- Ranger
- Solr
- Trino
- Notebook Zeppelin
- Zookeeper
Le immagini
2.3.x-*-armsupportano solo i componenti preinstallati e i seguenti componenti opzionali. Gli altri due componenti facoltativi 2.3 e tutte le azioni di inizializzazione non sono supportati:- Apache Hive WebHCat
- Docker
- Notebook Zeppelin
- Zookeeper (installato in cluster ad alta disponibilità; componente facoltativo in altri cluster)
yarn.nodemanager.recovery.enablede l'audit logging HDFS sono abilitati per impostazione predefinita nelle immagini 2.3.micromamba, anzichécondanelle versioni precedenti dell'immagine, viene installato come parte dell'installazione di Python.Problemi di installazione di Docker e Zeppelin:
- L'installazione non va a buon fine se il cluster non ha accesso a internet pubblico. Come
soluzione alternativa, crea un cluster che utilizzi un'immagine personalizzata con componenti
facoltativi preinstallati. Per farlo, esegui
generate_custom_image.pycon il flag--optional-components. - L'installazione può non riuscire se il cluster è bloccato su una versione secondaria precedente dell'immagine: i pacchetti vengono installati su richiesta dai repository OSS pubblici e un pacchetto potrebbe non essere disponibile upstream per supportare l'installazione.
Come soluzione alternativa, crea un cluster che utilizzi un'immagine personalizzata con componenti
facoltativi preinstallati nell'immagine personalizzata. Per farlo, esegui
generate_custom_image.pycon il flag--optional-components.
- L'installazione non va a buon fine se il cluster non ha accesso a internet pubblico. Come
soluzione alternativa, crea un cluster che utilizzi un'immagine personalizzata con componenti
facoltativi preinstallati. Per farlo, esegui
Il calcolatore delle risorse predefinito per YARN è stato modificato da DefaultResourceCalculator a DominantResourceCalculator, che utilizza il concetto di risorsa dominante per determinare l'allocazione delle risorse, come l'allocazione di memoria e CPU. Questa modifica influisce su Autoscaler, che esegue lo scale in base all'utilizzo dominante delle risorse del cluster.
Componenti di machine learning (ML) della versione 2.3 dell'immagine
L'immagine Dataproc 2.3-ml-ubuntu estende l'immagine di base 2.3
con software specifico per ML. Supporta i componenti opzionali delle immagini 2.3 e altre funzionalità 2.3 e aggiunge le versioni dei componenti elencate nelle sezioni seguenti.
Librerie specifiche per la GPU
Per i job Dataproc che utilizzano VM GPU, nell'immagine 2.3-ml-ubuntu sono disponibili i seguenti driver e librerie NVIDIA. Puoi utilizzarli per svolgere le seguenti attività:
- Accelera i carichi di lavoro batch di Spark con la libreria NVIDIA Spark Rapids
- Addestrare carichi di lavoro di machine learning
- Esegui l'inferenza batch distribuita utilizzando Spark
| Nome pacchetto | Versione |
|---|---|
| Spark Rapids | 25.04.0 |
| Driver NVIDIA | Ubuntu 22.04 LTS Accelerated con il driver NVIDIA versione 570 |
| CUDA | 12.6.3 |
| cublas | 12.6.4 |
| cusolver | 11.7.1 |
| cupti | 12.6.80 |
| cusparse | 12.5.4 |
| cuDNN | 9.10.1 |
| NCCL | 2.27.5 |
Librerie XGBoost
Le seguenti versioni del pacchetto Maven
sono disponibili nell'immagine 2.3-ml-ubuntu per consentirti di utilizzare
XGBoost con Spark in Java o
Scala.
| ID gruppo | Nome pacchetto | Versione |
|---|---|---|
| ml.dmlc | xgboost4j-gpu_2.12 | 2.1.1 |
| ml.dmlc | xgboost4j-spark-gpu_2.12 | 2.1.1 |
Librerie Python
L'immagine 2.3-ml-ubuntu contiene le seguenti librerie, che supportano diverse fasi del ciclo di vita del machine learning.
| Pacchetto | Versione |
|---|---|
| accelerare | 1.8.1 |
| conda | 23.11.0 |
| cookiecutter | 2.5.0 |
| curl | 8.12.1 |
| cython | 3.0.12 |
| dask | 1/12/2023 |
| set di dati | 3.6.0 |
| deepspeed | 0.17.2 |
| delta-spark | 3.2.0 |
| evaluate | 0.4.5 |
| fastavro | 1.9.7 |
| fastparquet | 1/10/2023 |
| fiona | 1.10.0 |
| gateway-provisioners[yarn] | 0.4.0 |
| gcsfs | 2023.12.2.post1 |
| google-auth-oauthlib | 1.2.2 |
| google-cloud-aiplatform | 1.88.0 |
| google-cloud-bigquery[pandas] | 3.31.0 |
| google-cloud-bigquery-storage | 2.30.0 |
| google-cloud-bigtable | 2.30.1 |
| google-cloud-container | 2.56.1 |
| google-cloud-datacatalog | 3.26.1 |
| google-cloud-dataproc | 5.18.1 |
| google-cloud-datastore | 2.21.0 |
| google-cloud-language | 2.17.2 |
| google-cloud-logging | 3.11.4 |
| google-cloud-monitoring | 2.27.2 |
| google-cloud-pubsub | 2.29.1 |
| google-cloud-redis | 2.18.1 |
| google-cloud-spanner | 3.53.0 |
| google-cloud-speech | 2.32.0 |
| google-cloud-storage | 2.19.0 |
| google-cloud-texttospeech | 2.25.1 |
| google-cloud-translate | 3.20.3 |
| google-cloud-vision | 3.10.2 |
| huggingface_hub | 0.33.1 |
| httplib2 | 0.22.0 |
| ipyparallel | 8.6.1 |
| ipython-sql | 0.3.9 |
| ipywidgets | 8.1.7 |
| jupyter_contrib_nbextensions | 0.7.0 |
| jupyter_http_over_ws | 0.0.8 |
| jupyter_kernel_gateway | 2.5.2 |
| jupyter_server | 1.24.0 |
| jupyterhub | 4.1.6 |
| jupyterlab | 3.6.8 |
| jupyterlab-git | 0.44.0 |
| jupyterlab_widgets | 3.0.15 |
| koala | 0.22.0 |
| langchain | 0.3.26 |
| lightgbm | 4.6.0 |
| markdown | 3.5.2 |
| matplotlib | 3.8.4 |
| mlflow | 3.1.1 |
| nbconvert | 7.14.2 |
| nbdime | 3.2.1 |
| nltk | 3.9.1 |
| notebook | 6.5.7 |
| numba | 0.58.1 |
| numpy | 1.26.4 |
| oauth2client | 4.1.3 |
| onnx | 1.17.0 |
| openblas | 0.3.25 |
| opencv | 4.11.0 |
| orc | 2.1.1 |
| panda | 2.1.4 |
| pandas-profiling | 3.0.0 |
| cartiera | 2.4.0 |
| pyarrow | 16.1.0 |
| pydot | 2.0.0 |
| pyhive | 0.7.0 |
| pynvml | 12.0.0 |
| pysal | 23.7 |
| pytables | 3.9.2 |
| python | 3.11 |
| regex | 25/12/2023 |
| richieste | 2.32.2 |
| requests-kerberos | 0.12.0 |
| rtree | 1.1.0 |
| scikit-image | 0.22.0 |
| scikit-learn | 1.5.2 |
| scipy | 1.11.4 |
| seaborn | 0.13.2 |
| sentence-transformers | 5.0.0 |
| setuptools | 79.0.1 |
| shap | 0.48.0 |
| formoso | 2.1.1 |
| spacy | 3.8.7 |
| spark-tensorflow-distributor | 1.0.0 |
| spyder | 5.5.6 |
| sqlalchemy | 2.0.41 |
| sympy | 1.13.3 |
| tensorflow | 2.18.0 |
| tokenizzatori | 0.21.4.dev0 |
| toree | 0.5.0 |
| torcia | 2.6.0 |
| torch-model-archiver | 0.11.1 |
| torcheval | 0.0.7 |
| tromba d'aria | 6.4.2 |
| torchvision | 0.21.0 |
| traitlets | 5.14.3 |
| trasformatori | 4.53.1 |
| uritemplate | 4.1.1 |
| virtualenv | 20.26.6 |
| wordcloud | 1.9.4 |
| xgboost | 2.1.4 |
Librerie R
Le seguenti versioni della libreria R sono incluse nell'immagine 2.3-ml-ubuntu.
| Nome pacchetto | Versione |
|---|---|
| r-ggplot2 | 3.4.4 |
| r-irkernel | 1.3.2 |
| r-rcurl | 1,98-1,16 |
| r-recommended | 4.3 |