Observações:
A versão
2.3é uma imagem leve que contém apenas componentes principais, reduzindo a exposição a vulnerabilidades e exposições comuns (CVEs). Para requisitos de compliance de segurança mais altos, use a versão2.3ou mais recente da imagem ao criar um cluster do Serviço Gerenciado para Apache Spark.Se você optar por instalar componentes opcionais ao criar um cluster do Serviço Gerenciado para Apache Spark com a imagem
2.3, eles serão baixados e instalados durante a criação do cluster. Isso pode aumentar o tempo de inicialização do cluster. Para evitar esse atraso, crie uma imagem personalizada com os componentes opcionais pré-instalados. Para isso, executegenerate_custom_image.pycom a flag--optional-components.
Observações
Os seguintes componentes opcionais são compatíveis com imagens não ARM 2.3:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- Notebook do JupyterLab
- Ranger
- Solr
- Trino
- Notebook Zeppelin
- Zookeeper
As imagens
2.3.x-*-armsão compatíveis apenas com os componentes pré-instalados e os seguintes componentes opcionais: Os outros componentes opcionais do 2.3 e todas as ações de inicialização não são compatíveis:- Apache Hive WebHCat
- Apache Pig (a partir de
2.3.22-ubuntu22-arm) - Docker
- Notebook Zeppelin
- Zookeeper (instalado em clusters de alta disponibilidade; componente opcional em outros clusters)
O
yarn.nodemanager.recovery.enablede o HDFS Audit Logging são ativados por padrão nas imagens 2.3.O
micromamba, em vez docondanas versões anteriores da imagem, é instalado como parte da instalação do Python.Problemas de instalação do Docker e do Zeppelin:
- A instalação falha se o cluster não tiver acesso público à Internet. Como solução alternativa, crie um cluster que use uma imagem personalizada com componentes opcionais pré-instalados. Para isso, execute
generate_custom_image.pycom a flag--optional-components. - A instalação pode falhar se o cluster estiver fixado em uma versão mais antiga de imagem subalterna: os pacotes são instalados sob demanda de repositórios OSS públicos, e um pacote pode não estar disponível upstream para oferecer suporte à instalação.
Como alternativa, crie um cluster que use uma imagem personalizada com componentes opcionais pré-instalados. Para fazer isso, execute
generate_custom_image.pycom a flag--optional-components.
- A instalação falha se o cluster não tiver acesso público à Internet. Como solução alternativa, crie um cluster que use uma imagem personalizada com componentes opcionais pré-instalados. Para isso, execute
A calculadora de recursos padrão do YARN foi alterada de DefaultResourceCalculator para DominantResourceCalculator, que usa o conceito de recurso dominante para determinar a alocação de recursos, como memória e CPU. Essa mudança afeta o escalonador automático, que faz o escalonamento com base no uso de recursos dominante do cluster.
Componentes de machine learning (ML) da versão 2.3 da imagem
A imagem do Serviço Gerenciado para Apache Spark 2.3-ml-ubuntu estende a imagem base 2.3 com software específico de ML. Ele oferece suporte a componentes opcionais de imagem 2.3 e outros
recursos 2.3, além de adicionar as versões de componentes listadas nas seções a seguir.
Bibliotecas específicas da GPU
Para jobs do Serviço Gerenciado para Apache Spark que usam VMs de GPU, o driver e as bibliotecas NVIDIA a seguir estão disponíveis na imagem 2.3-ml-ubuntu. É possível usá-los para realizar as seguintes tarefas:
- Acelere as cargas de trabalho em lote do Spark com a biblioteca NVIDIA Spark Rapids
- Treinar cargas de trabalho de machine learning
- Executar inferência em lote distribuída usando o Spark
| Nome do pacote | Versão |
|---|---|
| Spark Rapids | 25.04.0 |
| Driver NVIDIA | Ubuntu 22.04 LTS acelerado com o driver NVIDIA versão 570 |
| CUDA | 12.6.3 |
| cublas | 12.6.4 |
| cusolver | 11.7.1 |
| cupti | 12.6.80 |
| cusparse | 12.5.4 |
| cuDNN | 9.10.1 |
| NCCL | 2.27.5 |
Bibliotecas XGBoost
As seguintes versões de pacote do Maven
estão disponíveis na imagem 2.3-ml-ubuntu para que você possa usar
XGBoost com Spark em Java ou
Scala.
| ID do grupo | Nome do pacote | Versão |
|---|---|---|
| ml.dmlc | xgboost4j-gpu_2.12 | 2.1.1 |
| ml.dmlc | xgboost4j-spark-gpu_2.12 | 2.1.1 |
Bibliotecas do Python
A imagem 2.3-ml-ubuntu contém as seguintes bibliotecas, que oferecem suporte a diferentes
estágios no ciclo de vida do ML.
| Pacote | Versão |
|---|---|
| acelerar | 1.8.1 |
| conda | 23.11.0 |
| cookiecutter | 2.5.0 |
| curl | 8.12.1 |
| cython | 3.0.12 |
| dask | 2023.12.1 |
| conjuntos de dados | 3.6.0 |
| deepspeed | 0.17.2 |
| delta-spark | 3.2.0 |
| evaluate | 0.4.5 |
| fastavro | 1.9.7 |
| fastparquet | 2023.10.1 |
| fiona | 1.10.0 |
| gateway-provisioners[yarn] | 0.4.0 |
| gcsfs | 2023.12.2.post1 |
| google-auth-oauthlib | 1.2.2 |
| google-cloud-aiplatform | 1.88.0 |
| google-cloud-bigquery[pandas] | 3.31.0 |
| google-cloud-bigquery-storage | 2.30.0 |
| google-cloud-bigtable | 2.30.1 |
| google-cloud-container | 2.56.1 |
| google-cloud-datacatalog | 3.26.1 |
| google-cloud-dataproc | 5.18.1 |
| google-cloud-datastore | 2.21.0 |
| google-cloud-language | 2.17.2 |
| google-cloud-logging | 3.11.4 |
| google-cloud-monitoring | 2.27.2 |
| google-cloud-pubsub | 2.29.1 |
| google-cloud-redis | 2.18.1 |
| google-cloud-spanner | 3.53.0 |
| google-cloud-speech | 2.32.0 |
| google-cloud-storage | 2.19.0 |
| google-cloud-texttospeech | 2.25.1 |
| google-cloud-translate | 3.20.3 |
| google-cloud-vision | 3.10.2 |
| huggingface_hub | 0.33.1 |
| httplib2 | 0.22.0 |
| ipyparallel | 8.6.1 |
| ipython-sql | 0.3.9 |
| ipywidgets | 8.1.7 |
| jupyter_contrib_nbextensions | 0.7.0 |
| jupyter_http_over_ws | 0.0.8 |
| jupyter_kernel_gateway | 2.5.2 |
| jupyter_server | 1.24.0 |
| jupyterhub | 4.1.6 |
| jupyterlab | 3.6.8 |
| jupyterlab-git | 0.44.0 |
| jupyterlab_widgets | 3.0.15 |
| coalas | 0.22.0 |
| langchain | 0.3.26 |
| lightgbm | 4.6.0 |
| markdown | 3.5.2 |
| matplotlib | 3.8.4 |
| mlflow | 3.1.1 |
| nbconvert | 7.14.2 |
| nbdime | 3.2.1 |
| nltk | 3.9.1 |
| notebook | 6.5.7 |
| numba | 0.58.1 |
| numpy | 1.26.4 |
| oauth2client | 4.1.3 |
| onnx | 1.17.0 |
| openblas | 0.3.25 |
| opencv | 4.11.0 |
| orc | 2.1.1 |
| pandas | 2.1.4 |
| pandas-profiling | 3.0.0 |
| fábrica de papel | 2.4.0 |
| pyarrow | 16.1.0 |
| pydot | 2.0.0 |
| pyhive | 0.7.0 |
| pynvml | 12.0.0 |
| pysal | 23,7 |
| pytables | 3.9.2 |
| python | 3.11 |
| Regex | 25/12/2023 |
| solicitações | 2.32.2 |
| requests-kerberos | 0.12.0 |
| rtree | 1.1.0 |
| scikit-image | 0.22.0 |
| scikit-learn | 1.5.2 |
| scipy | 1.11.4 |
| seaborn | 0.13.2 |
| sentence-transformers | 5.0.0 |
| setuptools | 79.0.1 |
| shap | 0.48.0 |
| bem torneado | 2.1.1 |
| spacy | 3.8.7 |
| spark-tensorflow-distributor | 1.0.0 |
| spyder | 5.5.6 |
| sqlalchemy | 2.0.41 |
| sympy | 1.13.3 |
| tensorflow | 2.18.0 |
| tokenizadores | 0.21.4.dev0 |
| toree | 0.5.0 |
| lanterna | 2.6.0 |
| torch-model-archiver | 0.11.1 |
| torcheval | 0.0.7 |
| tornado | 6.4.2 |
| torchvision | 0.21.0 |
| traitlets | 5.14.3 |
| transformadores | 4.53.1 |
| uritemplate | 4.1.1 |
| virtualenv | 20.26.6 |
| wordcloud | 1.9.4 |
| XGBoost | 2.1.4 |
Bibliotecas R
As seguintes versões da biblioteca R estão incluídas na imagem 2.3-ml-ubuntu.
| Nome do pacote | Versão |
|---|---|
| r-ggplot2 | 3.4.4 |
| r-irkernel | 1.3.2 |
| r-rcurl | 1.98-1.16 |
| r-recommended | 4.3 |