Umum
Apa itu Managed Service for Apache Spark?
Managed Service for Apache Spark adalah layanan yang cepat, mudah digunakan, berbiaya rendah, dan terkelola sepenuhnya yang memungkinkan Anda menjalankan ekosistem Apache Spark dan Apache Hadoop di Google Cloud Platform. Managed Service for Apache Spark menyediakan cluster besar atau kecil dengan cepat, mendukung banyak jenis tugas populer, dan terintegrasi dengan layanan Google Cloud Platform lainnya, seperti Cloud Storage dan Cloud Logging, sehingga membantu Anda mengurangi TCO.
Apa perbedaan Managed Service for Apache Spark dengan cluster Hadoop tradisional?
Managed Service for Apache Spark adalah layanan Spark/Hadoop terkelola yang ditujukan untuk membuat Spark dan Hadoop menjadi mudah, cepat, dan andal. Dalam deployment Hadoop tradisional, bahkan yang berbasis cloud, Anda harus menginstal, mengonfigurasi, mengelola, dan mengorkestrasi pekerjaan di cluster. Sebaliknya, Managed Service for Apache Spark menangani pembuatan, pengelolaan, pemantauan, dan orkestrasi tugas cluster untuk Anda.
Bagaimana cara menggunakan Managed Service for Apache Spark?
Ada sejumlah cara untuk menggunakan cluster Managed Service for Apache Spark, bergantung pada kebutuhan dan kemampuan Anda. Anda dapat menggunakanGoogle Cloud console berbasis browser untuk berinteraksi dengan Managed Service for Apache Spark. Atau, karena Managed Service for Apache Spark terintegrasi dengan Google Cloud CLI, Anda dapat menggunakan Google Cloud CLI. Untuk akses terprogram ke cluster, gunakan Managed Service for Apache Spark REST API. Anda juga dapat membuat koneksi SSH ke node master atau pekerja di cluster Anda.
Bagaimana cara kerja Managed Service for Apache Spark?
Managed Service for Apache Spark adalah framework terkelola yang berjalan di Google Cloud Platform dan mengikat beberapa alat populer untuk memproses data, termasuk Apache Hadoop, Spark, Hive, dan Pig. Managed Service for Apache Spark memiliki serangkaian mekanisme kontrol dan integrasi yang mengoordinasikan siklus proses, pengelolaan, dan koordinasi cluster. Managed Service for Apache Spark terintegrasi dengan pengelola aplikasi YARN untuk mempermudah pengelolaan dan penggunaan cluster Anda.
Jenis pekerjaan apa yang dapat saya jalankan?
Managed Service for Apache Spark menyediakan dukungan langsung dan end-to-end untuk banyak jenis tugas yang paling populer, termasuk tugas Spark, Spark SQL, PySpark, MapReduce, Hive, dan Pig.
Pengelola Cluster apa yang digunakan Managed Service for Apache Spark dengan Spark?
Managed Service for Apache Spark menjalankan Spark di YARN.
Seberapa sering komponen di Managed Service for Apache Spark diperbarui?
Managed Service for Apache Spark diupdate saat rilis utama terjadi di komponen pokok (Hadoop, Spark, Hive, Pig). Setiap rilis utama Managed Service for Apache Spark mendukung versi tertentu dari setiap komponen (lihat Versi Managed Service for Apache Spark yang didukung).
Apakah Managed Service for Apache Spark terintegrasi dengan produk Google Cloud Platform lainnya?
Ya, Managed Service for Apache Spark memiliki integrasi native dan otomatis dengan Compute Engine, Cloud Storage, Bigtable, BigQuery, Logging, dan Cloud Monitoring. Selain itu, Managed Service for Apache Spark terintegrasi ke dalam alat yang berinteraksi dengan Cloud Platform, termasuk gcloud CLI dan Google Cloud console.
Dapatkah saya menjalankan cluster persisten?
Setelah dimulai, cluster Managed Service for Apache Spark akan terus berjalan hingga dimatikan. Anda dapat menjalankan cluster Managed Service for Apache Spark selama yang Anda butuhkan.
Pengelolaan cluster
Dapatkah saya menjalankan lebih dari satu cluster sekaligus?
Ya, Anda dapat menjalankan lebih dari satu cluster Managed Service for Apache Spark per project secara bersamaan. Secara default, semua project tunduk pada kuota resource Google Cloud. Anda dapat dengan mudah memeriksa penggunaan kuota dan meminta penambahan kuota. Untuk mengetahui informasi selengkapnya, lihat Kuota resource Managed Service for Apache Spark.
Bagaimana cara membuat atau menghancurkan cluster?
Anda dapat membuat dan menghancurkan cluster dengan beberapa cara. Bagian Managed Service for Apache Spark di Google Cloud console memudahkan pengelolaan cluster dari browser Anda. Cluster juga dapat dikelola melalui command line melalui gcloud CLI. Untuk kasus penggunaan yang lebih kompleks atau lanjutan, Cloud Managed Service for Apache Spark REST API dapat digunakan untuk mengelola cluster secara terprogram.
Dapatkah saya menerapkan setelan yang disesuaikan saat membuat cluster?
Managed Service untuk Apache Spark mendukung tindakan inisialisasi yang dijalankan saat cluster dibuat. Tindakan inisialisasi ini dapat berupa skrip atau file yang dapat dieksekusi yang akan dijalankan Managed Service for Apache Spark saat menyediakan cluster Anda untuk menyesuaikan setelan, menginstal aplikasi, atau membuat modifikasi lainnya pada cluster Anda.
Bagaimana cara menentukan ukuran cluster sesuai kebutuhan saya?
Keputusan terkait ukuran cluster dipengaruhi oleh beberapa faktor, termasuk jenis pekerjaan yang akan dilakukan, batasan biaya, persyaratan kecepatan, dan kuota resource Anda. Karena Managed Service for Apache Spark dapat di-deploy di berbagai jenis mesin, Anda memiliki fleksibilitas untuk memilih resource yang Anda butuhkan, kapan pun Anda membutuhkannya.
Dapatkah saya mengubah ukuran cluster?
Ya, Anda dapat dengan mudah mengubah ukuran cluster, bahkan selama pemrosesan tugas. Anda dapat mengubah ukuran cluster melalui Google Cloud console atau melalui command line. Mengubah ukuran dapat menambah atau mengurangi jumlah pekerja dalam cluster. Worker yang ditambahkan ke cluster akan memiliki jenis dan ukuran yang sama dengan worker yang ada. Mengubah ukuran cluster dapat dilakukan dan didukung kecuali dalam kasus khusus, seperti mengurangi jumlah pekerja menjadi satu atau mengurangi kapasitas HDFS di bawah jumlah yang diperlukan untuk penyelesaian tugas.
Pengelolaan tugas dan alur kerja
Bagaimana cara mengirimkan tugas di cluster saya?
Ada beberapa cara untuk mengirimkan tugas di cluster Managed Service untuk Apache Spark. Cara termudah adalah menggunakan halaman Kirim tugas Managed Service for Apache Spark di konsol Google Cloud atau perintah gcloud dataproc jobs submit gcloud CLI. Untuk pengiriman tugas secara terprogram, lihat referensi Dataproc API.
Dapatkah saya menjalankan lebih dari satu tugas sekaligus?
Ya, Anda dapat menjalankan lebih dari satu tugas sekaligus di cluster Managed Service for Apache Spark. Layanan Terkelola Cloud untuk Apache Spark menggunakan pengelola resource (YARN) dan konfigurasi khusus aplikasi, seperti penskalaan dengan Spark, untuk mengoptimalkan penggunaan resource pada cluster. Performa tugas akan diskalakan dengan ukuran cluster dan jumlah tugas aktif.
Dapatkah saya membatalkan tugas di cluster saya?
Pastinya. Pekerjaan dapat dibatalkan melalui antarmuka web Google Cloud console atau command line. Managed Service for Apache Spark menggunakan pembatalan aplikasi YARN untuk menghentikan tugas atas permintaan.
Dapatkah saya mengotomatiskan tugas di cluster saya?
Tugas dapat diotomatiskan untuk dijalankan di cluster melalui beberapa mekanisme. Anda dapat menggunakan gcloud CLI Google Cloud CLI atau Managed Service for Apache Spark REST API untuk mengotomatiskan pengelolaan dan alur kerja cluster dan tugas.
Pengembangan
Bahasa pengembangan apa saja yang didukung?
Anda dapat menggunakan bahasa yang didukung oleh ekosistem Spark/Hadoop, termasuk Java, Scala, Python, dan R.
Apakah Managed Service for Apache Spark memiliki API?
Ya, Managed Service for Apache Spark memiliki serangkaian RESTful API yang memungkinkan Anda berinteraksi dengan cluster dan tugas secara terprogram.
Dapatkah saya menjalankan SSH ke cluster?
Ya, Anda dapat melakukan SSH ke setiap mesin (node master atau pekerja) dalam cluster. Anda dapat melakukan SSH dari browser atau dari command line.
Dapatkah saya mengakses UI Web Spark/Hadoop?
Ya, UI Hadoop dan Spark (UI Spark, Hadoop, YARN) dapat diakses dalam cluster. Daripada membuka port untuk UI, sebaiknya gunakan tunnel SSH, yang akan meneruskan traffic dari cluster secara aman melalui koneksi SSH.
Dapatkah saya menginstal atau mengelola software di cluster saya?
Ya, seperti pada cluster atau server Hadoop, Anda dapat menginstal dan mengelola software di cluster Managed Service for Apache Spark.
Berapa faktor replikasi default?
Karena pertimbangan performa serta keandalan tinggi penyimpanan yang terpasang ke cluster Managed Service for Apache Spark, faktor replikasi default ditetapkan pada 2.
Sistem operasi (OS) apa yang digunakan untuk Managed Service for Apache Spark?
Managed Service untuk Apache Spark didasarkan pada Debian dan Ubuntu. Image terbaru didasarkan pada Debian 10 Buster dan Ubuntu 18.04 LTS.
Di mana saya dapat mempelajari streaming Hadoop?
Anda dapat meninjau dokumentasi project Apache.
Bagaimana cara menginstal perintah gcloud dataproc?
Saat Anda menginstal gcloud CLI, alat command line gcloud standar akan diinstal, termasuk perintah gcloud dataproc.
Akses & ketersediaan data
Bagaimana cara memasukkan dan mengeluarkan data dari cluster?
Managed Service for Apache Spark menggunakan Hadoop Distributed File System (HDFS) untuk penyimpanan. Selain itu, Managed Service for Apache Spark secara otomatis menginstal konektor Google Cloud Storage yang kompatibel dengan HDFS, yang memungkinkan penggunaan Cloud Storage secara paralel dengan HDFS. Data dapat dipindahkan ke dalam dan ke luar cluster melalui upload/download ke HDFS atau Cloud Storage.
Dapatkah saya menggunakan Cloud Storage dengan Dataproc?
Ya, cluster Managed Service for Apache Spark otomatis menginstal konektor Cloud Storage. Ada sejumlah manfaat memilih Cloud Storage dibandingkan HDFS tradisional, termasuk persistensi data, keandalan, dan performa.
Dapatkah saya mendapatkan dukungan Konektor Cloud Storage?
Ya, saat digunakan dengan Managed Service for Apache Spark, konektor Cloud Storage didukung pada tingkat yang sama dengan Managed Service for Apache Spark (lihat Mendapatkan dukungan). Semua pengguna konektor dapat menggunakan tag google-cloud-dataproc di Stack Overflow untuk pertanyaan dan jawaban konektor.
Berapa ukuran file yang ideal untuk set data di HDFS dan Cloud Storage?
Untuk meningkatkan performa, simpan data dalam ukuran file yang lebih besar, misalnya, ukuran file dalam rentang 256 MB–512 MB.
Seberapa andal Managed Service for Apache Spark?
Karena Managed Service for Apache Spark dibangun di atas teknologi Google Cloud Platform yang andal dan terbukti, termasuk Compute Engine, Cloud Storage, dan Monitoring, layanan ini dirancang untuk ketersediaan dan keandalan yang tinggi. Sebagai produk yang tersedia secara umum, Anda dapat meninjau SLA Managed Service for Apache Spark.
Apa yang terjadi pada data saya saat cluster dimatikan?
Semua data di Cloud Storage tetap ada setelah kluster Anda dimatikan. Ini adalah salah satu alasan untuk memilih Cloud Storage daripada HDFS karena data HDFS dihapus saat cluster dimatikan (kecuali jika ditransfer ke lokasi persisten sebelum dimatikan).
Logging, pemantauan, dan proses debug
Jenis logging dan pemantauan apa yang tersedia?
Secara default, cluster Managed Service for Apache Spark terintegrasi dengan Monitoring dan Logging. Monitoring dan Logging memudahkan Anda mendapatkan informasi mendetail tentang kondisi, performa, dan status cluster Managed Service for Apache Spark. Log aplikasi (YARN, Spark, dll.) dan sistem diteruskan ke Logging.
Bagaimana cara melihat log dari Managed Service for Apache Spark?
Anda dapat melihat log dari Managed Service untuk Apache Spark dengan beberapa cara. Anda dapat membuka Logging untuk melihat log cluster gabungan di browser web. Selain itu, Anda dapat menggunakan command line (SSH) untuk melihat log secara manual atau memantau output aplikasi. Terakhir, detail juga tersedia melalui UI web aplikasi Hadoop, seperti antarmuka web YARN.
Bagaimana cara memantau cluster?
Cluster dapat dipantau dengan mudah melalui Monitoring atau bagian Cloud Managed Service for Apache Spark di Google Cloud console. Anda juga dapat memantau cluster melalui akses command line (SSH) atau antarmuka web aplikasi (Spark, YARN, dll.).
Keamanan & akses
Bagaimana cara data saya diamankan?
Google Cloud Platform menggunakan model keamanan yang canggih, yang juga berlaku untuk Cloud Managed Service for Apache Spark. Managed Service for Apache Spark menyediakan mekanisme autentikasi, otorisasi, dan enkripsi, seperti SSL, untuk mengamankan data. Data dapat dienkripsi pengguna saat dalam pengiriman ke dan dari cluster, saat pembuatan cluster atau pengiriman tugas.
Bagaimana cara mengontrol akses ke cluster Managed Service for Apache Spark saya?
Google Cloud Platform menawarkan mekanisme autentikasi yang dapat digunakan dengan Managed Service for Apache Spark. Akses ke cluster dan tugas Managed Service for Apache Spark dapat diberikan kepada pengguna di tingkat project.
Penagihan
Bagaimana penagihan Managed Service untuk Apache Spark?
Managed Service untuk Apache Spark ditagih per detik, dan didasarkan pada ukuran cluster dan durasi waktu cluster beroperasi. Dalam menghitung komponen biaya cluster, Managed Service for Apache Spark mengenakan biaya tetap berdasarkan jumlah CPU virtual (vCPU) dalam cluster. Biaya tetap ini sama, terlepas dari jenis mesin atau ukuran resource Compute Engine yang digunakan.
Apakah saya dikenai biaya untuk resource Google Cloud lainnya?
Ya, menjalankan cluster Managed Service for Apache Spark akan menimbulkan biaya untuk resource Google Cloud lainnya yang digunakan dalam cluster, seperti Compute Engine dan Cloud Storage. Setiap item dinyatakan secara terpisah dalam tagihan, sehingga Anda tahu persis bagaimana biaya Anda dihitung dan dialokasikan.
Apakah ada waktu minimum atau maksimum untuk penagihan?
Biaya Google Cloud dihitung per detik, bukan per jam. Saat ini, Compute Engine memiliki kenaikan penagihan minimum 1 menit. Oleh karena itu, Managed Service for Apache Spark juga memiliki kenaikan penagihan minimum 1 menit.
Ketersediaan
Siapa yang dapat membuat cluster Managed Service for Apache Spark?
Managed Service for Apache Spark tersedia secara umum, yang berarti semua pelanggan Google Cloud Platform dapat menggunakannya.
Di region mana Managed Service for Apache Spark tersedia?
Managed Service for Apache Spark tersedia di semua region dan zona platform Google Cloud.