Componentes de Managed Service para Apache Spark

En este documento, se proporciona una descripción general de los diferentes tipos de componentes disponibles en los clústeres de Managed Service para Apache Spark. Comprender estos componentes es esencial para configurar tus clústeres de modo que incluyan las herramientas y los servicios necesarios para tus cargas de trabajo de macrodatos. Los componentes de Managed Service para Apache Spark se clasifican como componentes instalados, opcionales o de acción de inicialización.

Tipos de componentes

Los clústeres de Managed Service para Apache Spark incluyen los siguientes tipos de componentes:

  • Componentes instalados: Son los componentes que se instalan en la imagen y se activan cuando se crea el clúster.

  • Componentes opcionales: Son los componentes que seleccionas para instalar y usar en tu clúster cuando lo creas. Managed Service para Apache Spark instala y activa los componentes opcionales según la versión de la imagen del clúster de la siguiente manera:

    • Versiones de imagen 2.2 y anteriores: Los componentes opcionales se instalan automáticamente. Los componentes opcionales seleccionados se activan y los no seleccionados se desinstalan cuando se crea el clúster.

    • Versiones de imagen 2.3 y posteriores: Todos los componentes opcionales se instalan durante la creación del clúster, excepto los componentes opcionales de Jupyter, Iceberg y Delta Lake, que están preinstalados en las versiones de imagen 2.3 y posteriores. Los componentes opcionales preinstalados se quitan de un clúster con la versión de imagen 2.3 o posterior si no están habilitados cuando se crea el clúster. Para obtener más información, consulta Versiones de actualización de Managed Service para Apache Spark 2.3.x.

  • Componentes de acción de inicialización: Son los componentes que se instalan en un clúster como parte de una acción de inicialización que especificas cuando creas un clúster.

Los componentes opcionales se instalan en un clúster antes de que las acciones de inicialización se ejecuten en el clúster.

En las páginas de la versión de la imagen de Managed Service para Apache Spark se enumeran los componentes y los tipos de componentes disponibles en las versiones más recientes de la imagen de Managed Service para Apache Spark.

Los componentes opcionales tienen las siguientes ventajas sobre las acciones de inicialización que se usan para instalar componentes:

  • Se prueba que los componentes opcionales sean compatibles con versiones específicas de Managed Service para Apache Spark.
  • Los componentes opcionales se habilitan con un parámetro de creación de clúster; las acciones de inicialización requieren una secuencia de comandos.

Componentes opcionales disponibles

Componente opcional Nombre del componente
en los comandos de Google Cloud CLI y las solicitudes de API
Versión de la imagen Etapa de actualización
Delta Lake DELTA 2.2.46 y versiones posteriores GA
Docker DOCKER 1.5 y versiones posteriores GA
Flink FLINK 1.5 y versiones posteriores DG
HBase HBASE 1.5 y versiones posteriores
(no disponible en 2.1 y versiones posteriores)
Funciones obsoletas
Hive WebHCat HIVE_WEBHCAT 1.3 y posteriores GA
Hudi HUDI 1.5 y versiones posteriores GA
Iceberg ICEBERG 2.2 y versiones posteriores GA
Notebook de Jupyter JUPYTER 1.3 y posteriores GA
Pig PIG 1.5* y versiones posteriores GA
Presto PRESTO 1.3 y posteriores
(no disponible en 2.1 y versiones posteriores)
GA
Ranger RANGER 1.3 y posteriores DG
Solr SOLR 1.3 y posteriores GA
Trino TRINO 2.1 y versiones posteriores GA
Notebook de Zeppelin ZEPPELIN 1.3 y posteriores DG
Zookeeper ZOOKEEPER 1.0 y posteriores GA

Notas:

  • Apache Pig es un componente opcional en las versiones de imagen 2.3 y posteriores. Estaba preinstalado en las versiones de imagen 2.2 y anteriores.

Agrega componentes opcionales

Console

  1. En la Google Cloud consola de, ve a la página Crea un clúster de Managed Service para Apache Spark.

    Ir a Crear un clúster

    Se selecciona el panel Configurar clúster.

  2. En la sección Componentes, en Componentes opcionales, selecciona uno o más componentes para instalar en tu clúster.

Google Cloud CLI

Para crear un clúster de Managed Service para Apache Spark e instalar uno o más componentes opcionales en el clúster, usa el gcloud beta dataproc clusters create cluster-name comando con la marca --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

API de REST

Los componentes opcionales se pueden especificar a través de la API de Managed Service para Apache Spark mediante SoftwareConfig.Component como parte de una solicitud clusters.create.