Mudanças importantes na versão 2.3:
A versão
2.3é uma imagem leve que contém apenas componentes principais, reduzindo a exposição a vulnerabilidades e exposições comuns (CVEs). Para requisitos de compliance de segurança mais altos, use a versão2.3ou mais recente da imagem ao criar um cluster do Dataproc.Se você optar por instalar componentes opcionais ao criar um cluster do Dataproc com a imagem
2.3, eles serão baixados e instalados durante a criação do cluster. Isso pode aumentar o tempo de inicialização do cluster. Para evitar esse atraso, crie uma imagem personalizada com os componentes opcionais pré-instalados. Para isso, executegenerate_custom_image.pycom a flag--optional-components.
Observações
Os seguintes componentes opcionais são compatíveis com imagens não ARM 2.3:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- Notebook do JupyterLab
- Ranger
- Solr
- Trino
- Notebook Zeppelin
- Zookeeper
As imagens
2.3.x-*-armsão compatíveis apenas com os componentes pré-instalados e os seguintes componentes opcionais. Os outros 2.3 componentes opcionais e todas as ações de inicialização não são compatíveis:- Apache Hive WebHCat
- Docker
- Notebook Zeppelin
- Zookeeper (instalado em clusters de alta disponibilidade; componente opcional em outros clusters)
O
yarn.nodemanager.recovery.enablede o HDFS Audit Logging são ativados por padrão nas imagens 2.3.O
micromamba, em vez decondanas versões anteriores da imagem, é instalado como parte da instalação do Python.Problemas de instalação do Docker e do Zeppelin:
- A instalação falha se o cluster não tiver acesso público à Internet. Como solução alternativa, crie um cluster que use uma imagem personalizada com componentes opcionais pré-instalados. Para isso, execute
generate_custom_image.pycom a flag--optional-components. - A instalação pode falhar se o cluster estiver fixado em uma versão mais antiga de imagem subalterna: os pacotes são instalados sob demanda de repositórios OSS públicos, e um pacote pode não estar disponível upstream para oferecer suporte à instalação.
Como alternativa, crie um cluster que use uma imagem personalizada com componentes opcionais pré-instalados. Para fazer isso, execute
generate_custom_image.pycom a flag--optional-components.
- A instalação falha se o cluster não tiver acesso público à Internet. Como solução alternativa, crie um cluster que use uma imagem personalizada com componentes opcionais pré-instalados. Para isso, execute
A calculadora de recursos padrão para YARN foi alterada de DefaultResourceCalculator para DominantResourceCalculator, que usa o conceito de recurso dominante para determinar a alocação de recursos, como alocação de memória e CPU. Essa mudança afeta o escalonador automático, que faz o escalonamento com base no uso de recursos dominante do cluster.
Componentes de machine learning (ML) da versão 2.3 da imagem
A imagem do Dataproc 2.3-ml-ubuntu estende a imagem de base 2.3
com software específico de ML. Ele oferece suporte a componentes opcionais de imagem 2.3 e outros
recursos 2.3, além de adicionar as versões de componentes listadas nas seções a seguir.
Bibliotecas específicas da GPU
Para jobs do Dataproc que usam VMs com GPU, o seguinte driver e bibliotecas da NVIDIA estão disponíveis na imagem 2.3-ml-ubuntu. Você pode usá-los para realizar as seguintes tarefas:
- Acelere as cargas de trabalho em lote do Spark com a biblioteca NVIDIA Spark Rapids
- Treinar cargas de trabalho de machine learning
- Executar inferência em lote distribuída usando o Spark
| Nome do pacote | Versão |
|---|---|
| Spark Rapids | 25.04.0 |
| Driver NVIDIA | Ubuntu 22.04 LTS acelerado com a versão 570 do driver NVIDIA |
| CUDA | 12.6.3 |
| cublas | 12.6.4 |
| cusolver | 11.7.1 |
| cupti | 12.6.80 |
| cusparse | 12.5.4 |
| cuDNN | 9.10.1 |
| NCCL | 2.27.5 |
Bibliotecas XGBoost
As seguintes versões de pacotes do Maven estão disponíveis na imagem 2.3-ml-ubuntu para que você possa usar o XGBoost com o Spark em Java ou Scala.
| ID do grupo | Nome do pacote | Versão |
|---|---|---|
| ml.dmlc | xgboost4j-gpu_2.12 | 2.1.1 |
| ml.dmlc | xgboost4j-spark-gpu_2.12 | 2.1.1 |
Bibliotecas do Python
A imagem 2.3-ml-ubuntu contém as seguintes bibliotecas, que oferecem suporte a diferentes
estágios no ciclo de vida do ML.
| Pacote | Versão |
|---|---|
| acelerar | 1.8.1 |
| conda | 23.11.0 |
| cookiecutter | 2.5.0 |
| curl | 8.12.1 |
| cython | 3.0.12 |
| dask | 2023.12.1 |
| conjuntos de dados | 3.6.0 |
| deepspeed | 0.17.2 |
| delta-spark | 3.2.0 |
| evaluate | 0.4.5 |
| fastavro | 1.9.7 |
| fastparquet | 2023.10.1 |
| fiona | 1.10.0 |
| gateway-provisioners[yarn] | 0.4.0 |
| gcsfs | 2023.12.2.post1 |
| google-auth-oauthlib | 1.2.2 |
| google-cloud-aiplatform | 1.88.0 |
| google-cloud-bigquery[pandas] | 3.31.0 |
| google-cloud-bigquery-storage | 2.30.0 |
| google-cloud-bigtable | 2.30.1 |
| google-cloud-container | 2.56.1 |
| google-cloud-datacatalog | 3.26.1 |
| google-cloud-dataproc | 5.18.1 |
| google-cloud-datastore | 2.21.0 |
| google-cloud-language | 2.17.2 |
| google-cloud-logging | 3.11.4 |
| google-cloud-monitoring | 2.27.2 |
| google-cloud-pubsub | 2.29.1 |
| google-cloud-redis | 2.18.1 |
| google-cloud-spanner | 3.53.0 |
| google-cloud-speech | 2.32.0 |
| google-cloud-storage | 2.19.0 |
| google-cloud-texttospeech | 2.25.1 |
| google-cloud-translate | 3.20.3 |
| google-cloud-vision | 3.10.2 |
| huggingface_hub | 0.33.1 |
| httplib2 | 0.22.0 |
| ipyparallel | 8.6.1 |
| ipython-sql | 0.3.9 |
| ipywidgets | 8.1.7 |
| jupyter_contrib_nbextensions | 0.7.0 |
| jupyter_http_over_ws | 0.0.8 |
| jupyter_kernel_gateway | 2.5.2 |
| jupyter_server | 1.24.0 |
| jupyterhub | 4.1.6 |
| jupyterlab | 3.6.8 |
| jupyterlab-git | 0.44.0 |
| jupyterlab_widgets | 3.0.15 |
| coala | 0.22.0 |
| langchain | 0.3.26 |
| lightgbm | 4.6.0 |
| markdown | 3.5.2 |
| matplotlib | 3.8.4 |
| mlflow | 3.1.1 |
| nbconvert | 7.14.2 |
| nbdime | 3.2.1 |
| nltk | 3.9.1 |
| notebook | 6.5.7 |
| numba | 0.58.1 |
| numpy | 1.26.4 |
| oauth2client | 4.1.3 |
| onnx | 1.17.0 |
| openblas | 0.3.25 |
| opencv | 4.11.0 |
| orc | 2.1.1 |
| pandas | 2.1.4 |
| pandas-profiling | 3.0.0 |
| fábrica de papel | 2.4.0 |
| pyarrow | 16.1.0 |
| pydot | 2.0.0 |
| pyhive | 0.7.0 |
| pynvml | 12.0.0 |
| pysal | 23,7 |
| pytables | 3.9.2 |
| python | 3.11 |
| Regex | 25/12/2023 |
| solicitações | 2.32.2 |
| requests-kerberos | 0.12.0 |
| rtree | 1.1.0 |
| scikit-image | 0.22.0 |
| scikit-learn | 1.5.2 |
| scipy | 1.11.4 |
| seaborn | 0.13.2 |
| sentence-transformers | 5.0.0 |
| setuptools | 79.0.1 |
| shap | 0.48.0 |
| bem torneada | 2.1.1 |
| spacy | 3.8.7 |
| spark-tensorflow-distributor | 1.0.0 |
| spyder | 5.5.6 |
| sqlalchemy | 2.0.41 |
| sympy | 1.13.3 |
| tensorflow | 2.18.0 |
| tokenizadores | 0.21.4.dev0 |
| toree | 0.5.0 |
| lanterna | 2.6.0 |
| torch-model-archiver | 0.11.1 |
| torcheval | 0.0.7 |
| tornado | 6.4.2 |
| torchvision | 0.21.0 |
| traitlets | 5.14.3 |
| transformadores | 4.53.1 |
| uritemplate | 4.1.1 |
| virtualenv | 20.26.6 |
| wordcloud | 1.9.4 |
| XGBoost | 2.1.4 |
Bibliotecas R
As seguintes versões da biblioteca R estão incluídas na imagem 2.3-ml-ubuntu.
| Nome do pacote | Versão |
|---|---|
| r-ggplot2 | 3.4.4 |
| r-irkernel | 1.3.2 |
| r-rcurl | 1.98-1.16 |
| r-recommended | 4.3 |