Descripción general de los clústeres de entrenamiento de Gemini Enterprise Agent Platform

Si te interesan los clústeres de entrenamiento de Gemini Enterprise Agent Platform, comunícate con tu representante de ventas para obtener acceso.

Los clústeres de entrenamiento de Gemini Enterprise Agent Platform son un servicio de Google Cloud diseñado para simplificar y acelerar las cargas de trabajo de IA/AA más grandes y complejas. Se diseñó específicamente para abordar los desafíos del entrenamiento a gran escala, como la configuración compleja de clústeres, la optimización de frameworks, el manejo de fallas de hardware y la integración de conjuntos de herramientas dispares.

Propuesta de valor y funciones clave

Los clústeres de entrenamiento de Gemini Enterprise Agent Platform ofrecen varios beneficios principales:

  • UX de Slurm de código abierto y transparencia del clúster: Los clústeres de entrenamiento de Gemini Enterprise Agent Platform proporcionan herramientas familiares y flexibles para iniciar y administrar trabajos a través de una experiencia del usuario de Slurm de código abierto. Slurm es un estándar de la industria conocido por la programación optimizada de GPU, la tolerancia a fallas automatizada y el inicio simplificado de trabajos paralelos.

  • Configuración y configuración automatizadas del clúster: Los clústeres de entrenamiento de Gemini Enterprise Agent Platform automatizan la configuración y la configuración de los clústeres, con el objetivo de pasar de la reserva al entrenamiento de producción en horas. Los usuarios pueden crear clústeres con la Google Cloud consola (con arquitecturas de referencia o configuración paso a paso) o a través de llamadas a la API con archivos JSON.

  • Recetas y flujos de trabajo de ciencia de datos preconfigurados: Los clústeres de entrenamiento de Gemini Enterprise Agent Platform incluyen herramientas diseñadas específicamente y recetas de entrenamiento optimizadas para iniciar el entrenamiento de casos de uso populares, como los modelos Llama y Gemma, que abarcan el entrenamiento previo, el SFT (ajuste supervisado) y el aprendizaje por refuerzo (RL). Estas recetas están preconfiguradas para el rendimiento de vanguardia (SOTA) en la Google Cloud infraestructura, lo que demuestra ganancias de rendimiento significativas.

  • Resistencia del hardware y alta disponibilidad: Los clústeres de entrenamiento de Gemini Enterprise Agent Platform se diseñaron con resistencia del hardware para aumentar el tiempo de actividad del clúster. Resuelve automáticamente los problemas de hardware, detecta y clasifica varios modos de falla (por ejemplo, verificaciones de corrección, verificaciones de velocidad, errores de código de corrección de errores [ECC], verificaciones de NVIDIA Data Center GPU Manager [DCGM], capacidad de espacio en disco) y activa acciones de corrección, como reiniciar, volver a crear la imagen o reemplazar los nodos defectuosos, y reanudar desde los puntos de control. Esto ayuda a mitigar el aumento significativo de costos y las demoras causadas por las interrupciones de trabajos y las fallas de hardware en el entrenamiento a gran escala.

  • Arquitectura y componentes: Los clústeres de entrenamiento de Gemini Enterprise Agent Platform se ejecutan en la infraestructura de Compute Engine que admite GPU y CPU. Aprovecha un orquestador Slurm administrado para implementar y administrar nodos de procesamiento, incluidos los nodos de acceso y los nodos trabajadores. El servicio se integra con otros Google Cloud servicios como redes y almacenamiento.

  • MLOps y observabilidad: Se integra con las herramientas de Vertex ML Ops, como Gemini Enterprise Agent Platform Model Registry para el registro, el seguimiento y el control de versiones automáticos de los flujos de trabajo entrenados, y Vertex AI Inference para la implementación con ajuste de escala automático y métricas automatizadas. Los clústeres de entrenamiento también incluyen la integración automática de observabilidad con Vertex AI TensorBoard para visualizar los procesos de entrenamiento, hacer un seguimiento de las métricas y detectar problemas con anticipación.

Los clústeres de entrenamiento se pueden crear, recuperar, enumerar, actualizar y borrar con la API de clústeres de entrenamiento de Gemini Enterprise Agent Platform. Después de la creación del clúster, los usuarios pueden validar su funcionalidad accediendo a los nodos, ejecutando comandos básicos de Slurm (por ejemplo, sinfo, sbatch) y ejecutando cargas de trabajo relacionadas con la GPU (por ejemplo, nvidia-smi). La herramienta Cluster Health Scanner (CHS) está preinstalada para ejecutar diagnósticos como las pruebas de DCGM y NCCL para verificar la preparación del clúster.

Los clústeres de entrenamiento de Gemini Enterprise Agent Platform proporcionan una API para iniciar trabajos de LLM prediseñados con recetas optimizadas para modelos como Llama y Gemma, que admiten el entrenamiento previo y el entrenamiento previo continuo desde los puntos de control. Es posible supervisar los trabajos accediendo al nodo de acceso y examinando los archivos de resultado y los comandos de Slurm, como squeue.

Terminología

En esta sección, se proporcionan definiciones de términos y conceptos clave esenciales para comprender y utilizar de manera eficaz los clústeres de entrenamiento de Gemini Enterprise Agent Platform. Estos términos abarcan componentes principales del servicio, consideraciones arquitectónicas, tecnologías de almacenamiento integradas y conceptos fundamentales de aprendizaje automático (AA) y MLOps que sustentan tu entorno de entrenamiento.

Conceptos básicos del servicio

nodo
  • Una sola máquina virtual (instancia de Compute Engine) dentro de un clúster. En el contexto del entrenamiento administrado en clústeres reservados, un nodo se refiere a una máquina virtual (VM) individual que sirve como una sola unidad de procesamiento dentro del clúster. Piensa en ella como una de las máquinas trabajadoras dedicadas que ejecuta una parte de tu trabajo de entrenamiento general. Cada nodo está equipado con recursos específicos, como CPU, memoria y aceleradores (por ejemplo, GPU A3 o A4), y todos trabajan juntos de forma coordinada para controlar tareas de entrenamiento distribuidas a gran escala.
nodo de acceso
Partición de
  • En Slurm, es una agrupación lógica de nodos que se suele usar para separar nodos con diferentes configuraciones de hardware.
Receta
  • En el contexto del entrenamiento administrado, una receta es un paquete integral y reutilizable que contiene todo lo necesario para ejecutar una carga de trabajo de entrenamiento específica a gran escala.
Clúster de Slurm
  • Es un conjunto de instancias de Compute Engine, administradas por Slurm, que incluye un nodo de acceso y varios nodos trabajadores configurados para ejecutar trabajos de entrenamiento. Para obtener más información, consulta Administrador de cargas de trabajo de Slurm.
Nodo trabajador
  • Un nodo trabajador se refiere a una máquina o instancia de procesamiento individual dentro de un clúster que es responsable de ejecutar tareas o realizar trabajos. En sistemas como los clústeres de Kubernetes o Ray, los nodos son las unidades fundamentales de procesamiento. Para obtener más información, consulta ¿Qué es la computación de alto rendimiento (HPC)?.

Arquitectura y redes

Red de VPC de consumidor
  • Una red de VPC de consumidor es una nube privada virtual (VPC) de Google Cloud que accede de forma privada a un servicio alojado en otra VPC (conocida como VPC de productor). Para obtener más información, consulta Private Service Connect.
Unidad de transmisión máxima (MTU)
  • Es el tamaño más grande de un paquete de datos que puede transmitir un dispositivo conectado a la red. Los tamaños de MTU más grandes (tramas gigantes) pueden mejorar el rendimiento de la red para ciertas cargas de trabajo. Para obtener más información, consulta Unidad de transmisión máxima.
Acceso privado a servicios
  • El acceso privado a servicios es una conexión privada entre tu red de nube privada virtual (VPC) y las redes que pertenecen a Google o a proveedores de servicios externos. Permite que las instancias de máquina virtual (VM) de tu red de VPC se comuniquen con estos servicios mediante direcciones IP internas, lo que evita la exposición a Internet pública. Para obtener más información, consulta Acceso privado a servicios.
Intercambio de tráfico entre redes de VPC
  • Es una conexión de red que permite que dos redes de VPC se comuniquen de forma privada. En el contexto del entrenamiento administrado en clústeres reservados, el intercambio de tráfico entre redes de VPC es un componente fundamental para integrar servicios esenciales. Por ejemplo, es el método requerido para conectar la VPC de tu clúster a una instancia de Filestore, que proporciona el directorio `/home` compartido necesario para todos los nodos de tu clúster.
zone
  • Un área de implementación específica dentro de una región de Google Cloud. En el contexto del entrenamiento administrado en clústeres reservados, para obtener el mejor rendimiento, todos los componentes del servicio (el clúster, Filestore y las instancias de Managed Lustre) deben crearse en la misma zona.

Tecnologías de almacenamiento integradas

Cloud Storage FUSE
  • Es un adaptador FUSE de código abierto que te permite activar buckets de Cloud Storage como un sistema de archivos en sistemas Linux o macOS. Para obtener más información, consulta Cloud Storage FUSE.
Filestore
  • Es un servicio de almacenamiento de archivos completamente administrado y de alto rendimiento de Google Cloud que se suele usar para aplicaciones que requieren un sistema de archivos compartido. Para obtener más información, consulta Descripción general de Filestore.
Managed Lustre
  • Es un sistema de archivos paralelos y distribuidos diseñado para la computación de alto rendimiento. Managed Lustre de Google Cloud proporciona un sistema de archivos de alta capacidad de procesamiento para cargas de trabajo exigentes. Para obtener más información, consulta Descripción general de Managed Lustre.
Nivel de rendimiento
  • Es un parámetro de configuración para una instancia de Managed Lustre que define su velocidad de capacidad de procesamiento (en MBps por TiB) y afecta su capacidad mínima y máxima.

Conceptos clave de AA y MLOps

Evaluación de progreso
  • Son datos que capturan el estado de los parámetros de un modelo durante el entrenamiento o después de que se completa. Por ejemplo, durante el entrenamiento, puedes hacer lo siguiente: 1. Detener el entrenamiento, ya sea de forma intencional o como resultado de ciertos errores. 2. Capturar el punto de control. 3. Luego, volver a cargar el punto de control, posiblemente en un hardware diferente. 4. Reiniciar el entrenamiento. En Gemini, un punto de control se refiere a una versión específica de un modelo de Gemini entrenado en un conjunto de datos específico.
Ajuste supervisado (SFT)
  • Es una técnica de aprendizaje automático en la que un modelo entrenado previamente se entrena aún más en un conjunto de datos más pequeño y etiquetado para adaptarlo a una tarea específica.
Vertex AI Inference
  • Es un servicio de Vertex AI que te permite usar un modelo de aprendizaje automático (AA) entrenado para realizar inferencias a partir de datos nuevos y no vistos. Vertex AI proporciona servicios para implementar modelos para la inferencia. Para obtener más información, consulta Obtén inferencias a partir de un modelo entrenado personalizado.
Vertex AI Model Registry
  • Vertex AI Model Registry es un repositorio central en el que puedes administrar el ciclo de vida de los modelos de AA. En Vertex AI Model Registry, tienes una descripción general de tus modelos para que puedas organizar mejor, hacer un seguimiento y entrenar versiones nuevas. Cuando tengas una versión del modelo que desees implementar, puedes asignarla a un extremo directamente desde el registro o, si usas alias, implementar modelos en un extremo. Para obtener más información, consulta Introducción a Vertex AI Model Registry.
Vertex AI TensorBoard
  • Vertex AI TensorBoard es un servicio administrado y escalable en Google Cloud que permite a los científicos de datos y a los ingenieros de AA visualizar sus experimentos de aprendizaje automático, depurar el entrenamiento de modelos y hacer un seguimiento de las métricas de rendimiento con la interfaz familiar de TensorBoard de código abierto. Se integra sin problemas con Vertex AI Training y otros servicios, lo que proporciona almacenamiento persistente para los datos de experimentos y permite el análisis colaborativo del desarrollo de modelos. Para obtener más información, consulta Introducción a Vertex AI TensorBoard.