Descripción general de los servicios de almacenamiento para cargas de trabajo de IA y AA en AI Hypercomputer

Los servicios de almacenamiento proporcionan la arquitectura de datos esencial que ayuda a habilitar el entrenamiento, la inferencia y el ajuste de modelos de alto rendimiento en el ecosistema de AI Hypercomputer. Si bien hay varios servicios de almacenamiento disponibles en Google Cloud, la opción más adecuada depende de tus requisitos de E/S, capacidad de procesamiento, escala y latencia para los casos de uso dentro del ciclo de vida de la inteligencia artificial (IA) y el aprendizaje automático (AA).

En este documento, se presentan y comparan los servicios de almacenamiento en Google Cloud que pueden ayudarte a optimizar el rendimiento de la GPU o la TPU. También se proporcionan recomendaciones sobre el servicio ideal para casos de uso específicos de IA y AA.

Introducción a los servicios de almacenamiento

Google Cloud ofrece varias soluciones de almacenamiento que están optimizadas para casos de uso de IA y AA:

  • Cloud Storage es un sistema de almacenamiento de objetos diseñado para procesar y almacenar conjuntos de datos masivos, como los que se requieren para el entrenamiento o la inferencia masiva. Cloud Storage ofrece varias capacidades para ayudarte a optimizar el almacenamiento de datos para tareas de IA y AA.

  • Google Cloud Managed Lustre es un sistema de archivos paralelos completamente administrado y compatible con POSIX que está diseñado para el rendimiento de metadatos especializados, de baja latencia y de alta simultaneidad que se requieren para las cargas de trabajo de entrenamiento y de inferencia.

En las siguientes secciones, se proporciona más información sobre cada servicio de almacenamiento.

Cloud Storage

Cloud Storage es un almacén de objetos fundamental diseñado para ofrecer escalabilidad global, durabilidad y rentabilidad. Cuando usas Cloud Storage, almacenas datos como objetos en contenedores llamados buckets. Cloud Storage ofrece varias capacidades para tus buckets que ayudan a optimizar el rendimiento de las cargas de trabajo de IA y AA:

  • Los productos de la familia Cloud Storage Rapid están diseñados para eliminar los cuellos de botella de datos para tus cargas de trabajo de IA y AA acercando tus datos a tus recursos de procesamiento. Estos productos te permiten ubicar tus datos en las mismas zonas que tus cargas de trabajo de procesamiento y habilitar el ajuste de escala de almacenamiento de datos de alto rendimiento y rentable para tus clústeres de GPU o TPU. Los productos de Cloud Storage Rapid incluyen lo siguiente:

    • Rapid Bucket proporciona el rendimiento de lectura y escritura más rápido en Cloud Storage para buckets zonales. Los objetos de los buckets zonales se almacenan en la clase de almacenamiento Rapid, una clase de almacenamiento de alto rendimiento que está optimizada para cargas de trabajo con uso intensivo de E/S. Además de una latencia más baja, Rapid Bucket ofrece una capacidad de procesamiento significativamente mayor (hasta 15 TB/s) en comparación con otros productos y ubicaciones de buckets en Cloud Storage.

    • Rapid Cache acelera las lecturas de datos a los buckets existentes sin requerir cambios de código. Rapid Cache es una caché de lectura zonal con respaldo de SSD para buckets de Cloud Storage que se usa para entregar datos para solicitudes de lectura de datos. El producto ofrece una mayor capacidad de procesamiento (hasta 2.5 TB/s) y una latencia más baja que los buckets sin caché.

      Rapid Cache suele configurarse para buckets multirregionales, donde la capacidad del acelerador se fragmenta en varias Google Cloud regiones. Los datos que se leen de la caché generan tarifas de transferencia de datos reducidas en comparación con los datos que se leen directamente de un bucket multirregional.

  • Cloud Storage FUSE es un adaptador de FUSE de código abierto que te permite activar buckets como sistemas de archivos locales, lo que permite que las aplicaciones interactúen con el almacenamiento de objetos mediante la semántica del sistema de archivos estándar. Esta capacidad te permite aprovechar la escalabilidad global, la durabilidad y la rentabilidad de Cloud Storage con acceso a archivos locales. Cloud Storage FUSE recibe mantenimiento y asistencia de forma activa Google.

    Cloud Storage FUSE ofrece varios parámetros de ajuste y almacenamiento en caché del cliente, como descargas paralelas. Estas capacidades pueden abstraer las complejidades del desarrollo y ayudar a lograr el máximo rendimiento mediante la fragmentación o la paralelización de transmisiones.

  • El espacio de nombres jerárquico habilita una estructura de sistema de archivos real en los buckets y proporciona capacidades eficientes de administración de datos, incluidos los cambios de nombre de carpetas atómicas y las búsquedas de archivos más rápidas cuando el bucket se activa con Cloud Storage FUSE. El espacio de nombres jerárquico ofrece 8 veces más consultas por segundo (QPS) para lecturas y escrituras de objetos que los buckets sin espacio de nombres jerárquico. Para obtener más información sobre los beneficios de usar el espacio de nombres jerárquico, consulta los beneficios de rendimiento y administración.

    Se recomienda habilitar el espacio de nombres jerárquico cuando tienes cargas de trabajo que requieren la carga de datos de alta capacidad de procesamiento y la creación de puntos de control de modelos frecuentes. Es necesario tener habilitado el espacio de nombres jerárquico cuando se crean buckets zonales con Rapid Bucket.

Managed Lustre

Google Cloud Managed Lustre es un sistema de archivos paralelos de alto rendimiento, compatible con POSIX y completamente administrado que está optimizado para aplicaciones de IA y AA. La arquitectura de Managed Lustre es ideal para cargas de trabajo de IA/AA de alta capacidad de procesamiento, baja latencia y alta simultaneidad de metadatos, como la creación de puntos de control, la propagación de pesos de alta velocidad en el aprendizaje por refuerzo y el almacenamiento en caché de par clave-valor (KV).

Para obtener más información sobre los casos de uso comunes de Managed Lustre, consulta Casos prácticos.

Comparación de los servicios de almacenamiento

En la siguiente tabla, se proporciona una comparación de alto nivel de Cloud Storage y Managed Lustre en función de las características clave:

Características Cloud Storage Managed Lustre
Arquitectura

Almacén de objetos

  • Los datos se almacenan en buckets planos de forma predeterminada. Todos los tipos de bucket (zonales, regionales, birregionales y multirregionales) ofrecen opciones de redundancia geográfica que se pueden acelerar con las capacidades de Cloud Storage Rapid.
  • De manera opcional, puedes habilitar el espacio de nombres jerárquico para crear buckets que admitan el almacenamiento de datos en una estructura de sistema de archivos.
  • De manera opcional, puedes habilitar Cloud Storage FUSE para activar buckets como sistemas de archivos locales.

Sistema de archivos paralelos

  • Los datos se almacenan como archivos en instancias de Managed Lustre y se activan como sistemas de archivos locales en tus clústeres de aceleradores sin necesidad de ajustes adicionales.
Capacidad de almacenamiento

Se ajusta hasta EBs de capacidad.

Se ajusta hasta 80 PB de capacidad, según el nivel de rendimiento de la instancia.

Rendimiento

Admite lo siguiente:

  • Latencia de menos de un milisegundo para archivos abiertos con Rapid Bucket
  • Decenas de millones de IOPs/TiB con Rapid Bucket
  • Hasta 2.5 TB/s de ancho de banda con Rapid Cache
  • Hasta 15 TB/s de ancho de banda con Rapid Bucket
  • Solicitudes de aumento de ancho de banda

Admite lo siguiente:

  • Latencia de menos de un milisegundo
  • Decenas de millones de IOPs/TiB
  • Hasta 10 TB/s de ancho de banda
Precios

Para obtener más información, consulta los precios de Cloud Storage.

Para obtener más información, consulta los precios de Managed Lustre.

Recomendaciones por requisitos

Se recomienda para aplicaciones que necesitan un almacén de objetos escalable y rentabilidad general para conjuntos de datos de entrenamiento, creación de puntos de control asíncronos de varios niveles y almacenamiento de pesos de modelos. En particular, se recomienda Cloud Storage Rapid para el ajuste de escala de datos de alto rendimiento y rentable.

Se recomienda para aplicaciones que necesitan un sistema de archivos paralelos completamente compatible con POSIX o directorios principales. También se recomienda para cargas de trabajo sensibles a la latencia o de alta simultaneidad de metadatos, como descargas de almacenamiento en caché de KV, creación de puntos de control síncronos y propagación de pesos de alta velocidad para el aprendizaje por refuerzo.

Recomendaciones de servicios de almacenamiento por caso de uso

Caso de uso Recomendación de servicio de almacenamiento Motivo de la recomendación
Entrenamiento y preparación de conjuntos de datos Recomendación principal: Cloud Storage Rapid Bucket Los buckets de Cloud Storage proporcionan la capacidad, la escala de capacidad de procesamiento, la rentabilidad y la durabilidad que suelen ser necesarias para grandes volúmenes de conjuntos de datos de entrenamiento y de inferencia. Cuando usas Rapid Bucket para crear un bucket zonal, este se beneficia de una capacidad de procesamiento muy alta y una latencia de menos de un milisegundo para archivos abiertos a un costo óptimo.
Recomendación secundaria: Managed Lustre Managed Lustre proporciona una latencia de menos de un milisegundo. Es útil como un espacio de trabajo dedicado y ultrarrápido para tus tareas de entrenamiento y preparación de conjuntos de datos más intensivas en las que la baja latencia y el rendimiento de simultaneidad de metadatos son una prioridad alta.
Mover o guardar pesos de modelos para la creación de puntos de control o las transferencias de pesos Recomendación principal: Managed Lustre Managed Lustre proporciona una latencia de menos de un milisegundo y acceso a datos paralelos, lo que permite que miles de trabajadores de lanzamiento extraigan el mismo archivo de peso de forma simultánea sin ralentizar el proceso.
Recomendación secundaria: Cloud Storage Rapid Bucket Rapid Bucket es adecuado para la creación de puntos de control asíncronos de varios niveles o distribuidos cuando se usa con GCSFS a través de fsspec o Cloud Storage FUSE con ajuste de rendimiento del cliente.
Almacenar y descargar modelos para la inferencia Recomendación principal: Cloud Storage Rapid Cache o Rapid Bucket

Rapid Cache actúa como un potenciador que ayuda a reducir el inicio en frío de la inferencia. Con Rapid Cache, los pesos del modelo se pueden precalentar en la misma zona que tus nodos de inferencia, lo que permite que una nueva instancia de inferencia descargue rápidamente los pesos del modelo y procese su primera solicitud.

Rapid Bucket funciona como un motor de almacenamiento zonal acelerado y de alto rendimiento , lo que te permite ubicar los pesos del modelo en la misma zona que tu flota de inferencia.

Para la entrega de modelos, recomendamos usar el Run:ai Model Streamer para vLLM para obtener el máximo rendimiento de descarga. Para otras pilas de inferencia, la optimización de los parámetros de descarga paralela de Cloud Storage FUSE puede reducir significativamente la latencia de inicio en frío durante las descargas de pesos de modelos.

Recomendación secundaria: Managed Lustre Managed Lustre proporciona una latencia de menos de un milisegundo y acceso a datos paralelos, lo que beneficia a los modelos sensibles al rendimiento y al ajuste de escala de las GPU simultáneas que descargan el mismo modelo de forma simultánea.
Descarga de almacenamiento en caché de KV Recomendación principal: Managed Lustre Managed Lustre proporciona una latencia de menos de un milisegundo y acceso a datos paralelos, lo que permite que diferentes nodos “extraigan” la caché de KV y reanuden los chats sin volver a procesar todo el historial del chat.

¿Qué sigue?