Panoramica di Dataproc Hub

Dataproc Hub ti consente di sfruttare Vertex AI Workbench e Managed Service for Apache Spark per eseguire attività di ML e di elaborazione dei dati interattive su larga scala utilizzando i notebook Jupyter e l'ecosistema Hadoop e Spark.

I notebook di Dataproc Hub sono notebook a utente singolo curati dall'amministratore che vengono eseguiti su un cluster JupyterLab di Managed Service for Apache Spark creato ed eseguito nel progetto dell'utente.

  • Dataproc Hub utilizza JupyterHub per:

    • Garantire la coerenza in tutta l'organizzazione consentendo agli amministratori di creare un elenco curato di modelli di notebook per diversi gruppi di utenti di dati e ML.
    • Accelerare la creazione di notebook fornendo agli utenti di dati e ML ambienti preconfigurati che soddisfano i loro requisiti software e hardware.
  • Dataproc Hub fornisce interfacce separate per amministratori e utenti:

    • Gli amministratori utilizzano la Dataproc→Workbench→Notebook gestiti dall'utente pagina nella Google Cloud console per creare istanze di Dataproc Hub. Ogni istanza hub contiene un insieme predefinito di ambienti notebook definiti dai file di configurazione del cluster YAML.
    • Gli utenti di dati e ML utilizzano l'interfaccia utente Notebooks→Istanze nella Google Cloud console per selezionare un ambiente notebook predefinito per generare un server notebook sul cluster Managed Service for Apache Spark.
      • Gli utenti senza accesso alla console possono accedere all'istanza di Dataproc Hub per generare un cluster Managed Service for Apache Spark dal browser web utilizzando un URL dell'istanza di Dataproc Hub fornito dall'amministratore.
  • Casi d'uso di Dataproc Hub:

    • Gli utenti di dati e ML sono organizzati in gruppi con requisiti software e hardware comuni (gli utenti possono essere inseriti in più gruppi)
    • Accesso alla console Managed Service for Apache Spark limitato: gli utenti non hanno accesso a Managed Service for Apache Spark nella Google Cloud console
  • Funzionalità di Dataproc Hub:

    • Ambienti utente predefiniti
    • Isolamento di cluster e notebook: i membri di un gruppo non hanno un facile accesso ai cluster e ai notebook dei membri di altri gruppi

Per ulteriori informazioni