Men-deploy layanan Metastore Dataproc
Halaman ini menunjukkan cara membuat layanan Dataproc Metastore dan terhubung ke layanan tersebut dari cluster Managed Service for Apache Spark. Setelah itu, Anda akan melakukan SSH ke cluster, meluncurkan instance Apache Hive, dan menjalankan beberapa kueri dasar.
Dataproc Metastore menyediakan Hive Metastore (HMS) yang sepenuhnya kompatibel, yang merupakan standar yang sudah mapan dalam ekosistem big data open source untuk mengelola metadata teknis. Layanan ini membantu Anda mengelola metadata data lake dan menyediakan interoperabilitas antara berbagai alat pemrosesan data yang Anda gunakan.
Untuk mengikuti panduan langkah demi langkah untuk tugas ini langsung di Google Cloud konsol, klik Pandu saya:
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc Metastore, Dataproc APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc Metastore, Dataproc APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Peran yang Diperlukan
Untuk mendapatkan izin yang Anda perlukan untuk membuat Dataproc Metastore dan cluster Managed Service for Apache Spark, minta administrator untuk memberi Anda peran IAM berikut:
-
Untuk memberikan akses penuh ke semua resource Dataproc Metastore, termasuk menyetel izin IAM:
(
roles/metastore.admin) di akun pengguna atau akun layanan -
Untuk memberikan kontrol penuh atas resource Dataproc Metastore:
Dataproc Metastore Editor (
roles/metastore.editor) di akun pengguna atau akun layanan -
Untuk membuat cluster Managed Service for Apache Spark:
(
roles/dataproc.worker) di akun layanan
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Peran bawaan ini berisi izin yang diperlukan untuk membuat Dataproc Metastore dan cluster Managed Service for Apache Spark. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:
Izin yang diperlukan
Izin berikut diperlukan untuk membuat Dataproc Metastore dan cluster Managed Service for Apache Spark:
-
Untuk membuat layanan Dataproc Metastore:
metastore.services.createdi akun pengguna atau akun layanan -
Untuk membuat cluster Managed Service for Apache Spark:
Managed Service for Apache Spark worker (di akun layananroles/dataproc.worker)
Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.
Untuk mengetahui informasi selengkapnya tentang peran dan izin Dataproc Metastore tertentu, lihat Ringkasan IAM Dataproc Metastore.Membuat layanan Dataproc Metastore
Petunjuk berikut menunjukkan cara membuat layanan Dataproc Metastore dasar menggunakan setelan default yang disediakan.
Konsol
Di konsol Google Cloud , buka halaman Dataproc Metastore.
Di menu navigasi, klik +Buat.
Dialog Create Metastore service akan terbuka.
Pilih Dataproc Metastore 2.
Di kolom Nama layanan, masukkan
example-service.Di kolom Lokasi data, pilih
us-central1.Untuk opsi konfigurasi layanan lainnya, gunakan default yang disediakan.
Untuk membuat dan memulai layanan, klik Submit.
Layanan metastore baru Anda akan muncul di halaman Dataproc Metastore. Status menampilkan Membuat hingga layanan siap digunakan. Setelah siap, status akan berubah menjadi Aktif. Penyediaan layanan mungkin memerlukan waktu beberapa menit.
Screenshot berikut menampilkan contoh halaman Buat layanan menggunakan beberapa default yang disediakan.

gcloud CLI
gcloud metastore services create example-service \
--location=us-central1 \
--instance-size=MEDIUMREST
Ikuti petunjuk API untuk membuat layanan menggunakan APIs Explorer.
Membuat cluster Managed Service for Apache Spark dan terhubung ke Dataproc Metastore
Selanjutnya, buat cluster Managed Service for Apache Spark dan hubungkan ke metastore dari cluster. Setelah itu, cluster Anda akan menggunakan layanan metastore sebagai HMS-nya. Cluster yang Anda buat di sini menggunakan setelan default yang disediakan.
Konsol
Di konsol Google Cloud , buka halaman Cluster Dataproc.
Di panel navigasi, pilih +Create cluster.
Dialog Buat cluster akan terbuka dan menyediakan beberapa pilihan infrastruktur yang dapat Anda pilih.
Di baris Cluster on Compute Engine, pilih Create.
Halaman Create a Managed Service for Apache Spark cluster on Compute Engine akan terbuka.
Di kolom Cluster Name, masukkan
example-cluster.Di menu Region dan Zone, pilih
us-central1.Untuk opsi Siapkan cluster yang tersisa, gunakan default yang disediakan.
Di menu navigasi, klik tab Sesuaikan cluster (opsional).
Di bagian Dataproc Metastore, pilih layanan metastore yang Anda buat sebelumnya.
Jika Anda mengikuti tutorial ini apa adanya, namanya adalah
example-service.Untuk opsi konfigurasi layanan lainnya, gunakan default yang disediakan.
Untuk membuat cluster, klik Buat.
Cluster baru Anda akan muncul dalam daftar Clusters. Status cluster menampilkan Provisioning hingga cluster siap digunakan. Setelah siap, status akan berubah menjadi Aktif. Penyediaan cluster mungkin memerlukan waktu beberapa menit.
gcloud CLI
Untuk membuat cluster menggunakan setelan default yang diberikan, jalankan perintah gcloud dataproc clusters create berikut:
gcloud dataproc clusters create example-cluster \
--dataproc-metastore=projects/PROJECT_ID/locations/us-central1/services/example-service \
--region=us-central1Ganti PROJECT_ID dengan project ID project tempat Anda membuat layanan Dataproc Metastore.
REST
Ikuti petunjuk API untuk membuat cluster menggunakan APIs Explorer.
Menghubungkan ke Apache Hive dengan cluster Managed Service for Apache Spark
Langkah-langkah selanjutnya ini menunjukkan cara menjalankan beberapa contoh perintah di Apache Hive untuk membuat database dan tabel.
Selanjutnya, buka sesi SSH di cluster Managed Service for Apache Spark dan luncurkan sesi Hive.
- Di konsol Google Cloud , buka halaman VM Instances.
- Di daftar instance virtual machine, klik SSH di samping
example-cluster.
Jendela browser terbuka di direktori beranda Anda di node dengan output yang mirip dengan berikut ini:
Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$
Untuk memulai Hive serta membuat database dan tabel, jalankan perintah berikut dalam sesi SSH:
Mulai Hive.
hiveBuat database dengan nama
myDatabase.create database myDatabase;Tampilkan database yang Anda buat.
show databases;Gunakan database yang Anda buat.
use myDatabase;Buat tabel bernama
myTable.create table myTable(id int,name string);Mencantumkan tabel di bagian
myDatabase.show tables;Jelaskan skema tabel yang Anda buat.
desc MyTable;
Menjalankan perintah ini akan menampilkan output yang mirip dengan berikut ini:
$hive
hive> show databases;
OK
default
hive> create database myDatabase;
OK
hive> use myDatabase;
OK
hive> create table myTable(id int,name string);
OK
hive> show tables;
OK
myTable
hive> desc myTable;
OK
id int
name string
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
- Di Konsol Google Cloud , buka halaman Manage resources.
- Jika project yang ingin Anda hapus tertaut ke organisasi, buka daftar Organization di kolom Name.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Atau, Anda dapat menghapus resource yang digunakan dalam tutorial ini:
Hapus layanan Dataproc Metastore.
Konsol
Di konsol Google Cloud , buka halaman Dataproc Metastore:
Dalam daftar layanan, pilih
example-service.Di menu navigasi, klik Hapus.
Dialog Hapus layanan akan terbuka.
Pada dialog, klik Hapus.
Layanan Anda tidak akan muncul lagi di daftar Layanan.
gcloud CLI
Untuk menghapus layanan Anda, jalankan perintah
gcloud metastore services deleteberikut.gcloud metastore services delete example-service \ --location=us-central1REST
Ikuti petunjuk API untuk menghapus layanan menggunakan APIs Explorer.
Semua penghapusan akan langsung berhasil.
Hapus bucket Cloud Storage untuk layanan Dataproc Metastore.
Hapus cluster Managed Service for Apache Spark yang menggunakan layanan Dataproc Metastore.