Servicios de almacenamiento

En este documento, se describen los casos de uso y las recomendaciones para los servicios de almacenamiento en cargas de trabajo de inteligencia artificial (IA) y aprendizaje automático (AA).

Casos de uso del almacenamiento

Los servicios de almacenamiento se pueden usar en las siguientes cargas de trabajo de IA y AA:

  • Preparación y carga de datos para el entrenamiento
  • Carga de pesos del modelo para la inferencia
  • Guardado y restablecimiento de puntos de control del modelo
  • Carga de imágenes de VM
  • Datos de Logging
  • Directorios particulares
  • Carga de bibliotecas, paquetes y dependencias de aplicaciones

Recomendaciones de almacenamiento

Se recomiendan las siguientes soluciones de almacenamiento para optimizar el rendimiento del sistema de IA y AA:

Servicio de almacenamiento Funciones Casos de uso
Cloud Storage

Descripción general: Un almacén de objetos altamente escalable, duradero y de bajo costo Es adecuado para almacenar grandes conjuntos de datos necesarios para el entrenamiento y los puntos de control del modelo, así como para alojar los modelos entrenados finales. Cloud Storage con Cloud Storage FUSE es la solución de almacenamiento recomendada para la mayoría de los casos de uso de IA y AA, ya que te permite escalar el almacenamiento de datos con más rentabilidad que los servicios del sistema de archivos.

  • Admite datos de entrenamiento a gran escala (hasta EB) para clústeres de GPU y TPU clusters.
  • Admite un alto rendimiento (hasta 1.25 TB/s de ancho de banda o más). Para maximizar tu rendimiento en Cloud Storage, solicita más ancho de banda.
  • Gracias a la integración con Cloud Storage FUSE, los buckets de Cloud Storage se pueden activar como sistemas de archivos locales. El controlador CSI de Cloud Storage FUSE también te permite activar buckets como sistemas de archivos locales en Google Kubernetes Engine (GKE) para cargas de trabajo de IA y AA escaladas.
  • Usa Rapid Cache para ubicar el almacenamiento en la misma zona que las cargas de trabajo de procesamiento, lo que proporciona un mayor rendimiento (hasta 2.5 TB/s), una latencia más baja y flexibilidad de ubicación cuando se usa con un bucket multirregional.
  • Para obtener más información sobre el uso de Cloud Storage FUSE para cargas de trabajo de IA y AA, consulta Cómo optimizar las cargas de trabajo de IA y AA con Cloud Storage FUSE.

Se recomienda para estas situaciones:

  • Rentabilidad
  • Procesamiento y preparación de datos
  • Entrenamiento e inferencia de modelos
  • Guardado y restablecimiento de puntos de control del modelo

No se recomienda para estas situaciones:

  • Aplicaciones que requieren cumplimiento total de POSIX
  • Directorios particulares
Google Cloud Managed Lustre

Descripción general: Un sistema de archivos paralelos de alto rendimiento y completamente administrado optimizado para aplicaciones de IA y computación de alto rendimiento (HPC). Adecuado para entornos en los que varios nodos de procesamiento necesitan acceso rápido y coherente a datos compartidos para simulaciones, modelado y análisis.

  • Se adapta a una capacidad de 8 PB y hasta 1 TB/s de rendimiento.
  • Admite miles de IOPS/TiB.
  • Ofrece una latencia ultrabaja de menos de 1 ms.
  • Tiene compatibilidad total con POSIX, lo que permite la migración lista para usar de cargas de trabajo de IA locales a Google Cloud.
  • Para obtener más información sobre el uso de Managed Lustre para cargas de trabajo de IA y AA, consulta Cómo optimizar las cargas de trabajo de IA y AA con Google Cloud Managed Lustre.

Se recomienda para estas situaciones:

  • Migración de cargas de trabajo de IA y AA a la nube
  • Simulaciones de modelos
  • Entrenamiento e inferencia de modelos
  • Guardado y restablecimiento de puntos de control del modelo
  • Cargas de trabajo con lecturas y escrituras pequeñas frecuentes
  • Directorios particulares

No se recomienda para estas situaciones:

  • Cargas de trabajo que necesitan más de 8 PB de datos

¿Qué sigue?