Dataproc es un servicio completamente administrado y de alta escalabilidad para ejecutar plataformas de procesamiento distribuido de código abierto, como Apache Hadoop, Apache Spark, Apache Flink y Trino. Puedes usar las herramientas y los archivos que se describen en las siguientes secciones para investigar, solucionar problemas y supervisar tus clústeres y trabajos de Dataproc.
Investigaciones potenciadas por IA con Gemini Cloud Assist (versión preliminar)
Descripción general
La función de versión preliminar de Investigaciones de Gemini Cloud Assist usa las capacidades avanzadas de Gemini para ayudar a crear y ejecutar clústeres de Dataproc y trabajos. Esta función analiza los clústeres y los trabajos con errores y de ejecución lenta para identificar las causas raíz y recomendar correcciones. Crea análisis persistentes que puedes revisar, guardar y compartir con Google Cloud el equipo de asistencia para facilitar la colaboración y acelerar la resolución de problemas.
Funciones
Usa esta función para crear investigaciones desde la Google Cloud consola:
- Agrega una descripción del contexto en lenguaje natural a un problema antes de crear una investigación.
- Analiza los clústeres con errores y los trabajos lentos y con errores.
- Obtén estadísticas sobre las causas raíz de los problemas con las correcciones recomendadas.
- Crea Google Cloud casos de asistencia con el contexto completo de la investigación adjunto.
Antes de comenzar
Para comenzar a usar la función de investigación, en tu Google Cloud proyecto, habilita la API de Gemini Cloud Assist.
Crea una investigación
Para crear una investigación, haz lo siguiente:
En la Google Cloud consola, ve a la páginaCloud Assist Investigations.
Haz clic en Crear.
Describe el problema: Proporciona una descripción del problema del clúster o del trabajo.
Selecciona el período: Proporciona un período en el que ocurrió el problema (el valor predeterminado es de 30 minutos).
Selecciona recursos:
- Haz clic en Agregar recurso.
- En el campo Filtros rápidos, escribe "dataproc",
y, luego, selecciona uno o más de
dataproc.Batch,dataproc.Jobodataproc.Clustercomo filtros. - Selecciona el lote, el trabajo o el clúster que aparece en la lista para investigar.
- En el campo Filtros rápidos, escribe "dataproc",
y, luego, selecciona uno o más de
- Haz clic en Agregar recurso.
Haz clic en Crear.
Interpreta los resultados de la investigación
Una vez que se completa una investigación, se abre la página Detalles de la investigación. Esta página contiene el análisis completo de Gemini, que se organiza en las siguientes secciones:
- Problema: Es una sección contraída que contiene detalles autocompletados del trabajo que se está investigando.
- Observaciones relevantes: Es una sección contraída que muestra los puntos de datos clave y las anomalías que Gemini encontró durante su análisis de registros y métricas.
- Hipótesis: Esta es la sección principal, que se expande de forma predeterminada.
Presenta una lista de posibles causas raíz para el problema observado. Cada hipótesis
incluye:
- Descripción general: Es una descripción de la posible causa, como "Tiempo de escritura de Shuffle alto y posible sesgo de tareas".
- Correcciones recomendadas: Es una lista de pasos prácticos para abordar el posible problema.
Tomar medidas
Después de revisar las hipótesis y las recomendaciones, haz lo siguiente:
Aplica una o más de las correcciones sugeridas a la configuración o al código del trabajo, y, luego, vuelve a ejecutarlo.
Para brindar comentarios sobre la utilidad de la investigación, haz clic en los íconos Me gusta o No me gusta en la parte superior del panel.
Revisa y deriva investigaciones
Para revisar los resultados de una investigación ejecutada anteriormente, haz clic en el nombre de la investigación en la página Cloud Assist Investigations para abrir la página Detalles de la investigación.
Si necesitas más ayuda, puedes abrir un caso de asistencia Google Cloud . Este proceso proporciona al ingeniero de asistencia el contexto completo de la investigación realizada anteriormente, incluidas las observaciones y las hipótesis generadas por Gemini. Este uso compartido del contexto reduce significativamente la comunicación de ida y vuelta requerida con el equipo de asistencia y permite una resolución más rápida de los casos.
Para crear un caso de asistencia a partir de una investigación, haz lo siguiente:
En la página Detalles de la investigación, haz clic en Solicitar asistencia.
Estado y precios de la versión preliminar
No se aplican cargos por las investigaciones de Gemini Cloud Assist durante la versión preliminar pública. Se aplicarán cargos a la función cuando esté disponible de forma general (DG).
Para obtener más información sobre los precios después de la disponibilidad general, consulta Precios de Gemini Cloud Assist.
Interfaces web de código abierto
Muchos componentes de código abierto del clúster de Dataproc, como Apache Hadoop y Apache Spark, proporcionan interfaces web. Estas interfaces se pueden usar para supervisar los recursos del clúster y el rendimiento del trabajo. Por ejemplo, puedes usar la IU de YARN Resource Manager para ver la asignación de recursos de la aplicación YARN en un clúster de Dataproc.
Servidor de historial persistente
Las interfaces web de código abierto que se ejecutan en un clúster están disponibles cuando el clúster está en ejecución, pero finalizan cuando borras el clúster. Para ver los datos del clúster y del trabajo después de que se borra un clúster, puedes crear un servidor de historial persistente (PHS).
Ejemplo: Te encuentras con un error o una desaceleración del trabajo que deseas analizar. Detienes o borras el clúster de trabajo y, luego, ves y analizas los datos del historial de trabajos con tu PHS.
Después de crear un PHS, lo habilitas en un clúster de Dataproc o Google Cloud en una carga de trabajo por lotes de Serverless for Apache Spark cuando creas el clúster o envías la carga de trabajo por lotes. Un PHS puede acceder a los datos del historial de los trabajos ejecutados en varios clústeres, lo que te permite supervisar los trabajos en un proyecto en lugar de supervisar las IUs separadas que se ejecutan en diferentes clústeres.
Registros de Dataproc
Dataproc recopila los registros generados por Apache Hadoop, Spark, Hive, Zookeeper y otros sistemas de código abierto que se ejecutan en tus clústeres y los envía a Logging. Estos registros se agrupan según la fuente de los registros, lo que te permite seleccionar y ver los registros que te interesan. Por ejemplo, los registros de YARN NodeManager y Spark Executor generados en un clúster se etiquetan por separado. Consulta Registros de Dataproc para obtener más información sobre el contenido y las opciones de los registros de Dataproc.
Cloud Logging
Logging es un sistema de administración de registros en tiempo real completamente administrado. Proporciona almacenamiento para los registros transferidos desde Google Cloud servicios y herramientas para buscar, filtrar, y analizar registros a gran escala. Los clústeres de Dataproc generan varios registros, incluidos los registros del agente de servicio de Dataproc, los registros de inicio del clúster y los registros de componentes de OSS, como los registros de YARN NodeManager.
Logging está habilitado de forma predeterminada en los clústeres de Dataproc y las cargas de trabajo por lotes de Serverless for Apache Spark. Los registros se exportan periódicamente a Logging, donde persisten después de que se borra el clúster o se completa la carga de trabajo.
Métricas de Dataproc
Las métricas de clústeres y trabajos de Dataproc,
con el prefijo dataproc.googleapis.com/, constan de
datos de series temporales que proporcionan estadísticas sobre el rendimiento
de un clúster, como el uso de la CPU o el estado del trabajo. Las métricas personalizadas de Dataproc
,
con el prefijo custom.googleapis.com/,
incluyen métricas emitidas por sistemas de código abierto que se ejecutan en el clúster,
como la métrica running applications de YARN. Obtener estadísticas sobre las métricas de Dataproc
puede ayudarte a configurar tus clústeres de manera eficiente. Configurar alertas basadas en métricas puede ayudarte a
reconocer y responder a los problemas rápidamente.
Las métricas de clústeres y trabajos de Dataproc se recopilan de forma predeterminada sin cargo. La recopilación de métricas personalizadas se cobra a los clientes. Puedes habilitar la recopilación de métricas personalizadas cuando creas un clúster. La recopilación de métricas de Spark de Serverless for Apache Spark Spark está habilitada de forma predeterminada en las cargas de trabajo por lotes de Spark.
Cloud Monitoring
Monitoring usa metadatos y métricas de clústeres, incluidas las métricas de HDFS, YARN, trabajos y operaciones, para proporcionar visibilidad del estado, el rendimiento y la disponibilidad de los clústeres y trabajos de Dataproc. Puedes usar Monitoring para explorar métricas, agregar gráficos, crear paneles y crear alertas.
Explorador de métricas
Puedes usar el Explorador de métricas
para ver las métricas de Dataproc.
Las métricas de clústeres, trabajos y lotes de Serverless for Apache Spark de Dataproc se muestran en los recursos Cloud Dataproc Cluster,
Cloud Dataproc Job, y Cloud Dataproc Batch. Las métricas personalizadas de Dataproc se muestran en el recurso VM Instances,
Custom categoría.
Gráficos
Puedes usar el Explorador de métricas para crear gráficos que visualicen las métricas de Dataproc.
Ejemplo: Creas un gráfico para ver la cantidad de aplicaciones Yarn activas que se ejecutan en tus clústeres y, luego, agregas un filtro para seleccionar las métricas visualizadas por nombre o región del clúster.
Paneles
Puedes crear paneles para supervisar los clústeres y trabajos de Dataproc con métricas de varios proyectos y diferentes Google Cloud productos. Puedes crear paneles en la Google Cloud consola desde la página Descripción general de los paneles haciendo clic, creando y, luego, guardando un gráfico desde la página Explorador de métricas.
Alertas
Puedes crear alertas de métricas de Dataproc para recibir notificaciones oportunas sobre problemas de clústeres o trabajos.
¿Qué sigue?
- Obtén más información para solucionar problemas con los mensajes de error de Dataproc.
- Obtén más información para ver los datos de diagnóstico del clúster de Dataproc.
- Consulta las Preguntas frecuentes sobre Dataproc.