Dataproc 문서
Dataproc은 일괄 처리, 쿼리, 스트리밍, 머신러닝에 오픈소스 데이터 도구를 사용할 수 있는 관리형 Apache Spark 및 Apache Hadoop 서비스입니다. Dataproc 자동화를 통해 신속하게 클러스터를 만들고 손쉽게 관리하며 불필요한 클러스터를 사용 중지하여 비용을 절감할 수 있습니다. 관리 시간과 비용이 절감되므로 작업과 데이터에 집중할 수 있습니다.
무료 크레딧 $300로 개념 증명 시작
- 최신 생성형 AI 모델과 도구로 개발할 수 있습니다.
- Compute Engine, AI API 등 20개가 넘는 인기 제품을 무료로 사용해 보세요.
- 자동 요금 청구와 약정은 없습니다.
20개가 넘는 항상 무료 제품 계속 살펴보기
AI API, VM, 데이터 웨어하우스 등 일반적인 사용 사례에 20개가 넘는 무료 제품을 사용할 수 있습니다.
문서 리소스
관련 리소스
Google Kubernetes Engine에서 Spark 작업 실행
Dataproc Jobs API에서 실행 중인 Google Kubernetes Engine 클러스터에 Spark 작업을 제출합니다.
Cloud Dataproc 소개: Google Cloud 기반 Hadoop 및 Spark
이 과정에서는 강의, 데모, 실무형 실습을 결합하여 Dataproc 클러스터를 만들고 Spark 작업을 제출하고 클러스터를 종료합니다.
Dataproc의 Spark를 사용한 머신러닝
이 과정에서는 강의, 데모, 실무형 실습을 결합하여 Dataproc 클러스터에서 실행되는 Apache Spark용 머신 러닝 라이브러리를 사용하여 로지스틱 회귀를 구현해 다변수 데이터 세트의 데이터 모델을 개발합니다.
온프레미스에서 Google Cloud로 HDFS 데이터 마이그레이션
온프레미스 Hadoop 분산 파일 시스템(HDFS)에서 Google Cloud로 데이터를 이전하는 방법.
Apache Spark용 Java 및 Scala 종속 항목 관리
Dataproc 클러스터에 Spark 작업을 제출할 때 종속 항목을 포함하는 경우 권장되는 방법입니다.