Dataproc Hub te permite aprovechar Vertex AI Workbench y Managed Service para Apache Spark para ejecutar tareas interactivas de AA y procesamiento de datos a gran escala mediante notebooks de Jupyter y el ecosistema de Hadoop y Spark.
Los notebooks de Dataproc Hub son notebooks de un solo usuario seleccionados por el administrador que se ejecutan en un clúster de JupyterLab de Managed Service para Apache Spark creado y ejecutado en el proyecto del usuario.
Dataproc Hub aprovecha JupyterHub para lo siguiente:
- Permite que los administradores creen una lista seleccionada de plantillas de notebook para diferentes grupos de datos y usuarios del AA a fin de lograr la coherencia en toda la organización.
- Acelera la creación de notebooks mediante el aprovisionamiento de datos y usuarios del AA con entornos preconfigurados que coincidan con sus requisitos de software y hardware.
Dataproc Hub proporciona interfaces independientes para administradores y usuarios:
- Los administradores usan la Dataproc→Workbench→Notebooks administrados por el usuario página en la Google Cloud consola para crear instancias de Dataproc Hub. Cada instancia de concentrador contiene un conjunto predefinido de entornos de notebook que se definen mediante archivos de configuración de clústeres YAML.
- Los usuarios de datos y AA usan la IU de Notebooks→Instancias en la
Google Cloud consola para seleccionar un entorno de notebook predefinido y generar
un servidor de notebook en su clúster de Managed Service para Apache Spark.
- Los usuarios sin acceso a la consola pueden acceder a la instancia de Dataproc Hub para generar un clúster de Managed Service para Apache Spark desde su navegador web mediante una URL de instancia de Dataproc Hub que proporciona el administrador.
Casos de uso de Dataproc Hub:
- Los usuarios de datos y AA están organizados en grupos con requisitos comunes de software y hardware (los usuarios se pueden ubicar en varios grupos)
- Acceso restringido a la consola de Managed Service para Apache Spark: Los usuarios no tienen acceso a Managed Service para Apache Spark en la Google Cloud consola
Características de Dataproc Hub:
- Entornos de usuario predefinidos
- Aislamiento de clústeres y notebooks: los miembros de un grupo no proporcionan acceso fácil a los clústeres y notebooks de los miembros de otros grupos
Más información
- Administradores: Configura Dataproc Hub
- Usuarios: Usa Dataproc Hub