Dataproc adalah layanan Spark dan Hadoop terkelola yang memungkinkan Anda memanfaatkan alat data open source untuk batch processing, pembuatan kueri, streaming, dan machine learning. Otomatisasi Dataproc membantu Anda membuat cluster dengan cepat, mengelolanya dengan mudah, dan menghemat uang dengan menonaktifkan cluster saat tidak diperlukan. Karena lebih sedikit waktu dan uang yang dihabiskan untuk administrasi, Anda dapat berfokus pada pekerjaan dan data Anda.
Keunggulan Dataproc
Jika dibandingkan dengan produk lokal tradisional dan layanan cloud pesaing, Dataproc memiliki sejumlah keunggulan unik untuk cluster yang terdiri dari tiga hingga ratusan node:
- Biaya rendah — Dataproc dikenai biaya hanya 1 sen per CPU virtual di kluster Anda per jam, di samping resource Cloud Platform lainnya yang Anda gunakan. Selain harga rendah ini, kluster Dataproc dapat menyertakan instance yang dapat diakhiri yang memiliki harga komputasi lebih rendah, sehingga mengurangi biaya Anda lebih lanjut. Alih-alih membulatkan penggunaan Anda ke jam terdekat, Dataproc hanya menagih Anda untuk apa yang benar-benar Anda gunakan dengan penagihan per detik dan periode penagihan minimum satu menit yang rendah.
- Sangat cepat — Tanpa menggunakan Dataproc, diperlukan waktu sekitar lima hingga 30 menit untuk membuat cluster Spark dan Hadoop secara lokal atau melalui penyedia IaaS. Sebagai perbandingan, cluster Dataproc dimulai, diskalakan, dan dimatikan dengan cepat. Setiap operasi ini rata-rata membutuhkan waktu 90 detik atau lebih cepat. Artinya, Anda dapat menghabiskan lebih sedikit waktu untuk menunggu cluster dan memiliki lebih banyak waktu untuk langsung bekerja dengan data.
- Terintegrasi — Dataproc memiliki integrasi bawaan dengan layanan Google Cloud Platform lainnya, seperti BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging, dan Cloud Monitoring, sehingga Anda tidak hanya memiliki cluster Spark atau Hadoop, tetapi juga platform data yang lengkap. Misalnya, Anda dapat menggunakan Dataproc untuk melakukan ETL data log mentah berukuran terabyte dengan mudah langsung ke BigQuery untuk pelaporan bisnis.
- Terkelola — Menggunakan cluster Spark dan Hadoop tanpa bantuan administrator atau software khusus. Anda dapat dengan mudah berinteraksi dengan cluster dan tugas Spark atau Hadoop melalui konsol Google Cloud , Cloud SDK, atau Dataproc REST API. Setelah selesai menggunakan cluster, Anda dapat menonaktifkannya, sehingga Anda tidak mengeluarkan uang untuk cluster yang tidak digunakan. Anda tidak perlu khawatir kehilangan data, karena Dataproc terintegrasi dengan Cloud Storage, BigQuery, dan Cloud Bigtable.
- Sederhana dan mudah digunakan — Anda tidak perlu mempelajari alat atau API baru untuk menggunakan Dataproc, sehingga memudahkan Anda memindahkan project yang ada ke Dataproc tanpa perlu pengembangan ulang. Spark, Hadoop, Pig, dan Hive sering diperbarui, sehingga Anda dapat bekerja secara produktif dengan lebih cepat.
Yang disertakan dalam Dataproc
Untuk mengetahui daftar versi konektor dan open source (Hadoop, Spark, Hive, dan Pig) yang didukung oleh Dataproc, lihat daftar versi Dataproc. Google Cloud
Mulai Menggunakan Dataproc
Untuk mulai menggunakan Dataproc dengan cepat, lihat panduan memulai Dataproc. Anda dapat mengakses Dataproc dengan cara berikut:
- Melalui REST API
- Menggunakan Cloud SDK
- Menggunakan UI Dataproc
- Melalui Library Klien Cloud