Dataproc ドキュメント
Dataproc は、オープンソースのデータツールを利用してバッチ処理、クエリ実行、ストリーミング、ML を行えるマネージド Apache Spark / Apache Hadoop サービスです。Dataproc の自動化機能を利用すると、クラスタを速やかに作成し、簡単に管理できます。また、不要なときにはクラスタを無効にして費用を節約できます。管理にかかる時間と費用が削減されるので、自分の仕事とデータに集中できます。
$300 分の無料クレジットを使用して概念実証を始める
- Gemini 2.0 Flash Thinking をご利用いただけます。
- AI API や BigQuery などの人気プロダクトの毎月の無料使用枠をご利用いただけます。
- 自動請求は行われず、契約も不要です。
常に無料で利用可能な 20 以上のプロダクトを確認する
AI API、VM、データ ウェアハウスなど、一般的なユースケース向けの 20 以上のプロダクトを無料でご利用いただけます。
ドキュメント リソース
関連リソース
Google Kubernetes Engine で Spark ジョブを実行する
Dataproc Jobs API から稼働中の Google Kubernetes Engine クラスタに Spark ジョブを送信します。
Cloud Dataproc の概要: Hadoop および Spark on Google Cloud
このコースでは、講義、デモ、ハンズオンラボを組み合わせて、Dataproc クラスタの作成、Spark ジョブの送信、クラスタのシャットダウンを行います。
Dataproc の Spark を使用した ML
このコースでは、講義、デモ、ハンズオンラボを組み合わせて、Dataproc クラスタで実行する Apache Spark の ML ライブラリを使用してロジスティック回帰を実装し、多変数データセットのデータ用のモデルを作成します。
オンプレミスから Google Cloud へ HDFS データを移行する
オンプレミスの Hadoop 分散ファイル システム(HDFS)から Google Cloud にデータを移動する方法を紹介します。
Apache Spark に関する Java と Scala の依存関係を管理する
Dataproc クラスタに Spark ジョブを送信する際に依存関係を含めるうえで推奨される方法を紹介します。