Quando crei un servizio Dataproc Metastore, devi scegliere di utilizzare uno dei seguenti protocolli endpoint:
- Il protocollo Apache Thrift
- Il protocollo gRPC
Questo protocollo definisce il modo in cui i client Hive Metastore accedono ai metadati archiviati nel servizio Dataproc Metastore. Questa scelta può influire anche sulle funzionalità che puoi integrare e utilizzare con il tuo servizio.
Questa pagina spiega le differenze concettuali tra ciascuno dei protocolli endpoint.
Apache Thrift
Il protocollo Apache Thrift è l'opzione predefinita precedente che viene preselezionata quando crei un servizio Dataproc Metastore.
Il protocollo Thrift supporta Kerberos solo per i servizi a singola regione configurati con il peering VPC. Non supporta Kerberos per i servizi configurati con Private Service Connect.
Se hai bisogno di Kerberos, ti consigliamo di utilizzare il protocollo gRPC. Il protocollo gRPC supporta Kerberos per i servizi a singola regione con tutte le configurazioni di rete.
Se utilizzi un endpoint Thrift, puoi scegliere il numero di porta a cui si connette l'interfaccia Thrift. Per impostazione predefinita, viene utilizzato il numero di porta 9083.
Dopo aver scelto il protocollo Thrift
Dopo aver creato un metastore Dataproc utilizzando Thrift, puoi connetterti a esso da un cluster Managed Service for Apache Spark o da un cluster autogestito. Il cluster utilizza quindi Dataproc Metastore come metastore Hive.
gRPC
Il protocollo gRPC è l'opzione moderna, portatile e ad alte prestazioni che devi selezionare esplicitamente quando crei un servizio Dataproc Metastore.
Se scegli il protocollo gRPC, non puoi aggiornarlo a Thrift in un secondo momento. Se vuoi passare da gRPC a Thrift, devi creare un nuovo metastore Dataproc.
Se utilizzi un endpoint gRPC, non puoi scegliere il numero di porta utilizzato dall'interfaccia gRPC. Al contrario, il numero di porta 443 viene assegnato automaticamente all'interfaccia.
Dopo aver scelto il protocollo gRPC
Dopo aver creato un metastore Dataproc utilizzando il protocollo endpoint gRPC, devi concedere altri ruoli IAM. Dopodiché, puoi connetterti da un Managed Service for Apache Spark cluster. Il cluster utilizza quindi Dataproc Metastore come metastore Hive.