Ringkasan Dataproc

Dataproc adalah layanan Spark dan Hadoop terkelola yang memungkinkan Anda memanfaatkan alat data open source untuk batch processing, pembuatan kueri, streaming, dan machine learning. Otomatisasi Dataproc membantu Anda membuat cluster dengan cepat, mengelolanya dengan mudah, dan menghemat biaya dengan menonaktifkan cluster saat tidak diperlukan. Karena lebih sedikit waktu dan uang yang dihabiskan untuk tugas administrasi, Anda dapat berfokus pada pekerjaan dan data Anda.

Keunggulan Dataproc

Jika dibandingkan dengan produk lokal tradisional dan layanan cloud layanan pesaing, Dataproc memiliki sejumlah keunggulan unik untuk cluster yang terdiri dari tiga hingga ratusan node:

  • Biaya rendah — Dataproc dikenai harga hanya 1 sen per CPU virtual di cluster Anda per jam, di luar resource Cloud Platform lain yang Anda gunakan. Selain harga rendah ini, cluster Dataproc dapat mencakup preemptible instance yang memiliki harga komputasi lebih rendah, sehingga mengurangi biaya Anda lebih lanjut. Daripada membulatkan penggunaan Anda ke jam terdekat, Dataproc hanya mengenakan biaya untuk penggunaan sebenarnya dengan penagihan per detik dan periode penagihan minimum satu menit yang rendah.
  • Sangat cepat — Tanpa menggunakan Dataproc, diperlukan waktu sekitar lima hingga 30 menit untuk membuat cluster Spark dan Hadoop secara lokal atau melalui penyedia IaaS. Sebagai perbandingan, cluster Dataproc dimulai, diskalakan, dan dimatikan dengan cepat. Setiap operasi ini rata-rata membutuhkan waktu 90 detik atau lebih cepat. Artinya, Anda dapat menghabiskan lebih sedikit waktu menunggu cluster dan memiliki lebih banyak waktu untuk langsung bekerja dengan data.
  • Terintegrasi — Dataproc memiliki integrasi bawaan dengan layanan Google Cloud Platform lainnya, seperti BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging, dan Cloud Monitoring, sehingga Anda memiliki lebih dari sekadar cluster Spark atau Hadoop—Anda memiliki platform data lengkap. Misalnya, Anda dapat menggunakan Dataproc untuk dengan mudah melakukan ETL data log mentah berukuran terabyte langsung ke BigQuery untuk pelaporan bisnis.
  • Terkelola — Gunakan cluster Spark dan Hadoop tanpa bantuan administrator atau software khusus. Anda dapat dengan mudah berinteraksi dengan cluster dan tugas Spark atau Hadoop melalui Google Cloud konsol, Cloud SDK, atau Dataproc REST API. Jika sudah selesai menggunakan suatu cluster, Anda dapat menonaktifkannya agar biaya tidak terbuang sia-sia untuk cluster yang tidak ada aktivitas. Anda tidak perlu khawatir kehilangan data, karena Dataproc terintegrasi dengan Cloud Storage, BigQuery, dan Cloud Bigtable.
  • Sederhana dan familiar — Anda tidak perlu mempelajari alat atau API baru untuk menggunakan Dataproc, sehingga memudahkan Anda memindahkan project yang ada ke Dataproc tanpa perlu pengembangan ulang. Spark, Hadoop, Pig, dan Hive sering diupdate, sehingga Anda dapat lebih cepat produktif.

Yang disertakan dalam Dataproc

Untuk mengetahui daftar versi open source (Hadoop, Spark, Hive, dan Pig) dan Google Cloud konektor yang didukung oleh Dataproc, lihat daftar versi Dataproc.

Memulai Dataproc

Untuk memulai Dataproc dengan cepat, lihat panduan memulai Dataproc cepat. Anda dapat mengakses Dataproc dengan cara berikut: