Com o hub do Dataproc, você aproveita o Vertex AI Workbench e o Serviço Gerenciado para Apache Spark para executar tarefas interativas de ML e processamento de dados em escala usando notebooks Jupyter e o ecossistema Hadoop e Spark.
Os notebooks do Dataproc Hub são de usuário único, selecionados pelo administrador e executados em um cluster do JupyterLab do Serviço Gerenciado para Apache Spark criado e em execução no projeto do usuário.
O Dataproc Hub usa o JupyterHub para:
- trazer consistência em toda a organização permitindo que os administradores criem uma lista selecionada de modelos de notebook para diferentes grupos de dados e usuários de ML.
- Acelere a criação de notebooks fornecendo aos usuários e aos dados de ML ambientes pré-configurados que correspondam aos seus requisitos de software e hardware.
O Dataproc Hub fornece interfaces separadas para administradores e usuários:
- Os administradores usam a página Dataproc→Workbench→Notebooks gerenciados pelo usuário no console Google Cloud para criar instâncias do Dataproc Hub. Cada instância do hub contém um conjunto predefinido de ambientes de notebook definidos por arquivos de configuração de cluster do YAML.
- Os usuários de dados e ML usam a interface de notebooks→Instâncias no
consoleGoogle Cloud para selecionar um ambiente de notebook predefinido para gerar
um servidor de notebook no cluster do Serviço Gerenciado para Apache Spark.
- Usuários sem acesso ao console podem acessar a instância do Dataproc Hub para gerar um cluster do Serviço Gerenciado para Apache Spark a partir do navegador da Web usando um URL de instância do Dataproc Hub fornecido pelo administrador.
Casos de uso do Dataproc Hub:
- Usuários e dados de ML são organizados em grupos com requisitos comuns de software e hardware (os usuários podem ser colocados em vários grupos)
- Acesso restrito ao console do Serviço Gerenciado para Apache Spark: os usuários não têm acesso ao Serviço Gerenciado para Apache Spark no console Google Cloud
Recursos do Dataproc Hub:
- Ambientes de usuário predefinidos
- Isolamento de cluster e notebook: os membros de um grupo não recebem acesso fácil a clusters e notebooks de membros em outros grupos
Para saber mais
- Administradores: configure o Dataproc Hub
- Usuários: usar o Dataproc Hub