Dataproc Metastore で Spark SQL を使用する

このページでは、Dataproc Metastore サービスで Spark SQL を使用する例を示します。この例では、Managed Service for Apache Spark クラスタで Spark SQL セッションを起動し、サンプル コマンドを実行してデータベースとテーブルを作成します。

始める前に

Spark SQL への接続

Spark SQL の使用を開始するには、Dataproc Metastore サービスに関連付けられている Managed Service for Apache Spark クラスタに SSH を使用して接続します。SSH によってクラスタに接続したら、Spark コマンドを実行してメタデータを管理できます。

Spark SQL に接続するには

  1. コンソールで、[VM Instances] ページに移動します。 Google Cloud
  2. 仮想マシン インスタンスのリストで、接続する Managed Service for Apache Spark VM インスタンスの行にある [SSH] をクリックします。

ノード上のホーム ディレクトリでブラウザ ウィンドウが開き、次のような出力が表示されます。

Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$

Hive を起動してデータベースとテーブルを作成するには、SSH セッションで次のコマンドを実行します。

  1. Spark シェルを起動します。

    spark-shell
    
  2. myDB という名前のデータベースを作成します。

    spark.sql("create database myDB");
    
  3. 作成したデータベースを使用します。

    spark.sql("use myDB");
    
  4. テーブルを myTable という名前で作成します。

    spark.sql("create table bar(id int,name string)");
    
  5. myDatabase 内のテーブルを一覧表示します。

    spark.sql("show tables").show();
    
  6. 作成したテーブルのテーブル行を表示します。

    desc myTable;
    

これらのコマンドを実行すると、次のような出力が表示されます。

$spark-shell

scala>spark.sql("create database myDB");

scala>spark.sql("use myTable");

scala>spark.sql("create table myTable(id int,name string)");

scala>spark.sql("show tables").show();

+--------+---------+-----------+
|database|tableName|isTemporary|
+--------+---------+-----------+
|    myDB|  myTable|      false|
+--------+---------+-----------+
+--------+---------+-------+
|col_name|data_type|comment|
+--------+---------+-------+
|      id|      int|   null|
|    name|   string|   null|
+--------+---------+-------+

次のステップ