Opciones de almacenamiento para datos de Cloud TPU

En este documento, se describen las opciones de almacenamiento de datos que se pueden usar cuando se entrenan modelos en Cloud TPU.

Introducción

Cloud TPU requiere el almacenamiento de datos para lo siguiente:

  • Descarga y procesamiento previo del conjunto de datos
  • Procesamiento de la canalización de entrada del host
  • Entrada de entrenamiento de modelos
  • Salida de entrenamiento de modelos

Las opciones de almacenamiento para los datos de aplicación y los conjuntos de datos de entrenamiento de Cloud TPU son las siguientes:

Para obtener más información sobre cómo administrar el almacenamiento, consulta las siguientes páginas:

Almacenamiento en bloque duradero

El almacenamiento en bloque duradero, también conocido como discos o volúmenes, se usa para los datos que deseas conservar después de detener, suspender o borrar tu VM de TPU. El almacenamiento en bloque duradero sigue disponible incluso si la VM de TPU falla. Puedes usar el disco de arranque de la VM de TPU o conectar almacenamiento en bloque adicional a tu TPU.

Recomendamos conectar un disco adicional en estas situaciones:

  • El tamaño de tu conjunto de datos de entrenamiento supera el tamaño del disco de arranque de la TPU.
  • Tienes datos de solo lectura y quieres un acceso de lectura más rápido con un volumen de Hyperdisk ML.

Puedes conectar dos tipos de almacenamiento en bloque duradero a una Cloud TPU: Google Cloud Hyperdisk y Persistent Disk. Persistent Disk no es compatible con las series de máquinas más recientes, incluida la Cloud TPU v6e. Google recomienda usar Google Cloud Hyperdisk para obtener el mayor rendimiento y funciones avanzadas.

Disco de arranque de la VM de TPU

De forma predeterminada, cada VM de Cloud TPU tiene un solo disco de arranque de 100 GiB que contiene el sistema operativo. El disco de arranque también se puede usar para el almacenamiento temporal de conjuntos de datos descargados para el preprocesamiento y los datos de entrada y salida del modelo, siempre y cuando la cantidad total no exceda el espacio disponible en el disco de arranque.

No puedes cambiar el tamaño del disco de arranque en una Cloud TPU. Si tu aplicación requiere espacio de almacenamiento adicional más allá del predeterminado del disco de arranque, puedes agregar uno o más discos duraderos a tu instancia de VM de TPU. Para obtener más información, consulta Conecta almacenamiento en bloque duradero a una VM de TPU.

Almacenamiento conectado

Tanto Hyperdisk como Persistent Disk son dispositivos de almacenamiento de red duraderos a los que tus instancias de VM pueden acceder de igual forma que a los discos físicos de una computadora de escritorio o un servidor. Ambos tipos de discos se crean de forma independiente de tus instancias de máquina virtual (VM), por lo que puedes conservar tus datos incluso después de borrar tus instancias de VM.

Entre las ventajas de usar Hyperdisk en lugar de Persistent Disk, se incluyen el rendimiento personalizable y los límites más altos de las IOPS y la capacidad de procesamiento. Para obtener más información sobre Hyperdisk y Persistent Disk, consulta Elige un tipo de disco.

Para obtener más información sobre el uso del almacenamiento en bloque duradero con las VMs de TPU, consulta Conecta almacenamiento en bloque duradero a una VM de TPU.

Copias de seguridad del disco

Puede ser difícil recuperar los datos del disco de arranque o los borrados si la VM de TPU se queda atascada en un estado "desconocido". Asegúrate de crear una copia de seguridad de tus datos con otra opción de almacenamiento, como los buckets de Cloud Storage.

Si almacenas datos en un disco conectado, puedes usar instantáneas de disco, que crean copias de seguridad de los datos en un disco de forma incremental. Las instantáneas de disco no son compatibles con el disco de arranque de TPU. Para obtener más información, consulta Acerca de las instantáneas de disco.

Buckets de Cloud Storage

Los buckets de Cloud Storage son la opción de almacenamiento más flexible, escalable y duradera para tus instancias de VM. Si tu trabajo de entrenamiento no requiere la menor latencia del almacenamiento en bloque duradero, puedes almacenar tu conjunto de datos en un bucket de Cloud Storage.

El rendimiento de los buckets de Cloud Storage depende de la clase de almacenamiento que selecciones y la ubicación del bucket en relación con tu instancia.

Crear tu bucket de Cloud Storage en la misma zona que tu VM de TPU brinda un rendimiento comparable al del almacenamiento en bloque duradero, pero con mayor latencia y características de capacidad de procesamiento menos coherentes.

Todos los buckets de Cloud Storage tienen redundancia incorporada para proteger tus datos contra fallas del equipo y garantizar la disponibilidad de datos a través de eventos de mantenimiento del centro de datos. Las sumas de comprobación se calculan en todas las operaciones de Cloud Storage para garantizar que lo que lees es lo que escribiste.

A diferencia del almacenamiento en bloque duradero, los buckets de Cloud Storage no están restringidos a la zona en la que se encuentra tu instancia. Además, puedes leer y escribir datos en un bucket desde varias instancias en simultáneo. Por ejemplo, puedes configurar instancias en varias zonas para leer y escribir datos en el mismo bucket, en lugar de replicar los datos en almacenamiento en bloque duradero en varias zonas.

Para obtener más información sobre cómo conectar tu VM de TPU a un bucket de Cloud Storage, consulta Conéctate a buckets de Cloud Storage.

Cloud Storage FUSE

Cloud Storage FUSE te permite activar buckets de Cloud Storage y acceder a estos como sistemas de archivos locales. Esto permite que las aplicaciones lean y escriban objetos en tu bucket con la semántica del sistema de archivos estándar.

Consulta la documentación de Cloud Storage FUSE para obtener detalles sobre cómo funciona y ver una descripción de cómo las operaciones de Cloud Storage FUSE se asignan a las de Cloud Storage. Puedes encontrar información adicional sobre cómo usar Cloud Storage FUSE, por ejemplo, cómo instalar la CLI de Cloud Storage FUSE y activar buckets en GitHub.

Archivos compartidos de Filestore

Los archivos compartidos de Filestore son un almacenamiento conectado a la red (NAS) completamente administrado para Compute Engine. Filestore ofrece compatibilidad con aplicaciones empresariales existentes y admite cualquier cliente compatible con NFSv3.

Filestore ofrece latencia baja para las operaciones con archivos. En el caso de las cargas de trabajo que son sensibles a la latencia, Filestore admite una capacidad de hasta 100 TiB y una capacidad de procesamiento de 25 GiB por segundo y 720,000 IOPS, con una variabilidad mínima en el rendimiento.

Con Filestore, puedes activar archivos compartidos en las VMs de TPU.

¿Qué sigue?