Informazioni sulla federazione dei metadati

La federazione dei metadati è un servizio che consente di accedere a più origini di metadati da un singolo endpoint.

Per configurare la federazione, crea un servizio di federazione e poi configura le origini dei metadati. Dopodiché, il servizio espone un singolo endpoint gRPC che puoi utilizzare per accedere a tutti i tuoi metadati.

Ad esempio, utilizzando la federazione, puoi creare un cluster di Managed Service for Apache Spark che espone più servizi Dataproc Metastore tramite un singolo endpoint. Dopodiché, puoi eseguire job di big data tramite motori software open source (OSS), come Spark o Hive, per accedere ai metadati in più metastore.

Come funziona la federazione

I carichi di lavoro di big data OSS eseguiti su Spark o Hive inviano richieste all'API Hive Metastore per recuperare i metadati in fase di runtime.

  • L'interfaccia Hive Metastore supporta i metodi di lettura e scrittura. Il servizio di federazione espone una versione gRPC dell'interfaccia Hive Metastore.
  • In fase di runtime, quando il servizio di federazione riceve una richiesta, controlla l' ordinamento delle origini per recuperare i metadati appropriati.

Origini dei metadati

Quando crei un servizio di federazione, devi aggiungere un'origine dei metadati. Puoi utilizzare le seguenti origini come metastore di backend:

  • Un'istanza di Dataproc Metastore.
  • Un progetto contenente uno o più set di dati BigQuery.
  • Un lake di Knowledge Catalog (anteprima).

Restrizioni relative alle origini

La sezione seguente elenca le restrizioni che devi rispettare quando utilizzi varie origini di metadati.

Tutte le origini

Le seguenti restrizioni si applicano a tutte le origini dei metadati:

  • Un servizio di federazione non contiene i propri dati. Al contrario, il servizio di federazione fornisce solo i metadati da una delle sue origini di metadati.
  • Un servizio di federazione non può essere un'origine di metadati in un altro servizio di federazione.

Dataproc Metastore

Se utilizzi Dataproc Metastore come origine, si applicano le seguenti restrizioni:

  • I servizi di federazione sono disponibili solo tramite endpoint gRPC. Per utilizzare un Dataproc Metastore con la federazione, crea il metastore con un endpoint gRPC.

BigQuery

Se utilizzi un progetto contenente set di dati BigQuery come origine, devi soddisfare le seguenti condizioni:

  • Concedi i ruoli Identity and Access Management corretti per accedere al progetto che contiene i set di dati BigQuery.
  • Aggiungi almeno un servizio Dataproc Metastore come origine, insieme ai set di dati BigQuery.

Lake di Knowledge Catalog

  • Concedi un ruolo IAM che contenga l'autorizzazione dataplex.lakes.get.
  • Aggiungi almeno un servizio Dataproc Metastore come origine, insieme al lake di Knowledge Catalog.

Ordinamento delle origini

Il servizio di federazione elabora le richieste di metadati in base a un ordine di priorità. Questo concetto è noto come ordinamento delle origini. In fase di runtime, quando il servizio di federazione riceve una richiesta, controlla l'ordinamento delle origini e completa una delle seguenti azioni:

  • Se la richiesta contiene un nome di database. La richiesta viene instradata al metastore di backend che contiene il nome del database. Se più metastore contengono lo stesso nome di database, la richiesta viene instradata al metastore con il rango più basso.
  • Se la richiesta crea o elimina un database. La richiesta viene instradata al metastore con il rango più basso.
  • Se la richiesta non contiene un nome di database e non crea o elimina un database. La richiesta viene instradata all'istanza di Dataproc Metastore con il rango più basso. Alcuni esempi di richieste Hive Metastore che non specificano un database sono set_ugi e create_database.
  • Se nessuno dei metastore contiene un database. Il motore OSS risponde con l'equivalente di un errore di tipo "risorsa non trovata".

Passaggi successivi