2.3의 중요 변경사항:
버전
2.3
은 핵심 구성요소만 포함하는 경량 이미지로, Common Vulnerabilities and Exposures(CVE)에 대한 노출을 줄입니다. 보안 규정 준수 요구사항이 더 높은 경우 Dataproc 클러스터를 만들 때 이미지 버전2.3
이상을 사용하세요.2.3
이미지로 Dataproc 클러스터를 만들 때 선택적 구성요소를 설치하도록 선택하면 클러스터 생성 중에 다운로드되고 설치됩니다. 이렇게 하면 클러스터 시작 시간이 늘어날 수 있습니다. 이 지연을 방지하려면 선택적 구성요소가 사전 설치된 커스텀 이미지를 만들면 됩니다. 이는--optional-components
플래그로generate_custom_image.py
를 실행하여 달성할 수 있습니다.
참고
다음 선택적 구성요소는 arm이 아닌 2.3 이미지에서 지원됩니다.
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- JupyterLab 노트북
- Ranger
- Solr
- Trino
- Zeppelin 노트북
- Zookeeper
2.3.x-*-arm
이미지는 미리 설치된 구성요소와 다음 선택적 구성요소만 지원합니다. 나머지 2.3 선택적 구성요소와 모든 초기화 작업은 지원되지 않습니다.- Apache Hive WebHCat
- Docker
- Zeppelin 노트북
- Zookeeper (고가용성 클러스터에 설치됨, 기타 클러스터의 선택적 구성요소)
yarn.nodemanager.recovery.enabled
및 HDFS 감사 로깅은 2.3 이미지에서 기본적으로 사용 설정됩니다.이전 이미지 버전의
conda
대신micromamba
가 Python 설치의 일부로 설치됩니다.Docker 및 Zeppelin 설치 문제:
- 클러스터가 공개 인터넷에 액세스할 수 없는 경우 설치가 실패합니다. 해결 방법으로 선택적 구성요소가 사전 설치된 커스텀 이미지를 사용하는 클러스터를 만드세요.
--optional-components
플래그와 함께generate_custom_image.py
를 실행하면 됩니다. - 클러스터가 이전 하위 부 이미지 버전에 고정되어 있는 경우 설치가 실패할 수 있습니다. 패키지는 공개 OSS 저장소에서 필요에 따라 설치되며, 설치를 지원하기 위해 패키지가 업스트림에서 제공되지 않을 수 있습니다.
해결 방법으로 커스텀 이미지에 선택적 구성요소가 사전 설치된 커스텀 이미지를 사용하는 클러스터를 만드세요. 이렇게 하려면
--optional-components
플래그와 함께generate_custom_image.py
를 실행합니다.
- 클러스터가 공개 인터넷에 액세스할 수 없는 경우 설치가 실패합니다. 해결 방법으로 선택적 구성요소가 사전 설치된 커스텀 이미지를 사용하는 클러스터를 만드세요.
YARN의 기본 리소스 계산기가 DefaultResourceCalculator에서 DominantResourceCalculator는 메모리 및 CPU 할당과 같은 리소스 할당을 결정하기 위해 기본 리소스 개념을 사용합니다. 이 변경사항은 클러스터의 지배적인 리소스 사용량을 기준으로 확장하는 자동 확장 처리기에 영향을 미칩니다.
이미지 버전 2.3 머신러닝(ML) 구성요소
Dataproc 2.3-ml-ubuntu
이미지는 ML 전용 소프트웨어로 2.3 기본 이미지를 확장합니다. 2.3 이미지 선택적 구성요소와 기타 2.3 기능을 지원하고 다음 섹션에 나열된 구성요소 버전을 추가합니다.
GPU 전용 라이브러리
GPU VM을 사용하는 Dataproc 작업의 경우 2.3-ml-ubuntu
이미지에서 다음 NVIDIA 드라이버와 라이브러리를 사용할 수 있습니다. 이를 사용하여 다음 태스크를 수행할 수 있습니다.
- NVIDIA Spark Rapids 라이브러리로 Spark 일괄 워크로드 가속화
- 머신러닝 워크로드 학습
- Spark를 사용하여 분산 일괄 추론 실행
패키지 이름 | 버전 |
---|---|
Spark Rapids | 25.04.0 |
NVIDIA 드라이버 | NVIDIA 드라이버 버전 570이 적용된 Ubuntu 22.04 LTS Accelerated |
CUDA | 12.6.3 |
cublas | 12.6.4 |
cusolver | 11.7.1 |
cupti | 12.6.80 |
cusparse | 12.5.4 |
cuDNN | 9.10.1 |
NCCL | 2.27.5 |
XGBoost 라이브러리
다음 Maven 패키지 버전은 2.3-ml-ubuntu
이미지에서 사용할 수 있으며, 이를 통해 Java 또는 Scala에서 Spark와 함께 XGBoost를 사용할 수 있습니다.
그룹 ID | 패키지 이름 | 버전 |
---|---|---|
ml.dmlc | xgboost4j-gpu_2.12 | 2.1.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 2.1.1 |
Python 라이브러리
2.3-ml-ubuntu
이미지에는 ML 수명 주기의 여러 단계를 지원하는 다음 라이브러리가 포함되어 있습니다.
패키지 | 버전 |
---|---|
accelerate | 1.8.1 |
conda | 23.11.0 |
cookiecutter | 2.5.0 |
curl | 8.12.1 |
cython | 3.0.12 |
dask | 2023.12.1 |
datasets | 3.6.0 |
deepspeed | 0.17.2 |
delta-spark | 3.2.0 |
evaluate | 0.4.5 |
fastavro | 1.9.7 |
fastparquet | 2023.10.1 |
fiona | 1.10.0 |
gateway-provisioners[yarn] | 0.4.0 |
gcsfs | 2023.12.2.post1 |
google-auth-oauthlib | 1.2.2 |
google-cloud-aiplatform | 1.88.0 |
google-cloud-bigquery[pandas] | 3.31.0 |
google-cloud-bigquery-storage | 2.30.0 |
google-cloud-bigtable | 2.30.1 |
google-cloud-container | 2.56.1 |
google-cloud-datacatalog | 3.26.1 |
google-cloud-dataproc | 5.18.1 |
google-cloud-datastore | 2.21.0 |
google-cloud-language | 2.17.2 |
google-cloud-logging | 3.11.4 |
google-cloud-monitoring | 2.27.2 |
google-cloud-pubsub | 2.29.1 |
google-cloud-redis | 2.18.1 |
google-cloud-spanner | 3.53.0 |
google-cloud-speech | 2.32.0 |
google-cloud-storage | 2.19.0 |
google-cloud-texttospeech | 2.25.1 |
google-cloud-translate | 3.20.3 |
google-cloud-vision | 3.10.2 |
huggingface_hub | 0.33.1 |
httplib2 | 0.22.0 |
ipyparallel | 8.6.1 |
ipython-sql | 0.3.9 |
ipywidgets | 8.1.7 |
jupyter_contrib_nbextensions | 0.7.0 |
jupyter_http_over_ws | 0.0.8 |
jupyter_kernel_gateway | 2.5.2 |
jupyter_server | 1.24.0 |
jupyterhub | 4.1.6 |
jupyterlab | 3.6.8 |
jupyterlab-git | 0.44.0 |
jupyterlab_widgets | 3.0.15 |
koalas | 0.22.0 |
langchain | 0.3.26 |
lightgbm | 4.6.0 |
markdown | 3.5.2 |
matplotlib | 3.8.4 |
mlflow | 3.1.1 |
nbconvert | 7.14.2 |
nbdime | 3.2.1 |
nltk | 3.9.1 |
노트북 | 6.5.7 |
numba | 0.58.1 |
numpy | 1.26.4 |
oauth2client | 4.1.3 |
onnx | 1.17.0 |
openblas | 0.3.25 |
opencv | 4.11.0 |
orc | 2.1.1 |
pandas | 2.1.4 |
pandas-profiling | 3.0.0 |
papermill | 2.4.0 |
pyarrow | 16.1.0 |
pydot | 2.0.0 |
pyhive | 0.7.0 |
pynvml | 12.0.0 |
pysal | 23.7 |
pytables | 3.9.2 |
python | 3.11 |
regex | 2023.12.25 |
요청 | 2.32.2 |
requests-kerberos | 0.12.0 |
rtree | 1.1.0 |
scikit-image | 0.22.0 |
scikit-learn | 1.5.2 |
scipy | 1.11.4 |
seaborn | 0.13.2 |
sentence-transformers | 5.0.0 |
setuptools | 79.0.1 |
shap | 0.48.0 |
shapely | 2.1.1 |
spacy | 3.8.7 |
spark-tensorflow-distributor | 1.0.0 |
spyder | 5.5.6 |
sqlalchemy | 2.0.41 |
sympy | 1.13.3 |
tensorflow | 2.18.0 |
tokenizers | 0.21.4.dev0 |
toree | 0.5.0 |
torch | 2.6.0 |
torch-model-archiver | 0.11.1 |
torcheval | 0.0.7 |
토네이도 | 6.4.2 |
torchvision | 0.21.0 |
traitlets | 5.14.3 |
transformers | 4.53.1 |
uritemplate | 4.1.1 |
virtualenv | 20.26.6 |
wordcloud | 1.9.4 |
xgboost | 2.1.4 |
R 라이브러리
다음 R 라이브러리 버전은 2.3-ml-ubuntu
이미지에 포함되어 있습니다.
패키지 이름 | 버전 |
---|---|
r-ggplot2 | 3.4.4 |
r-irkernel | 1.3.2 |
r-rcurl | 1.98-1.16 |
r-recommended | 4.3 |