Descripción general de AI Hypercomputer

AI Hypercomputer es un sistema de supercomputación optimizado para admitir cargas de trabajo de Inteligencia Artificial (IA) y aprendizaje automático (AA). Es un sistema integrado de hardware de rendimiento optimizado, software abierto, frameworks de AA y modelos de consumo flexibles.

El sistema de AI Hypercomputer incorpora prácticas recomendadas y diseño a nivel del sistema para aumentar la eficiencia y la productividad en el entrenamiento previo, el ajuste y la entrega de la IA.

Arquitectura del sistema

AI Hypercomputer consta de las siguientes capas:

  • Infraestructura optimizada para el rendimiento: Contiene aceleradores, redes y recursos de almacenamiento que proporcionan las capacidades de procesamiento para admitir tus cargas de trabajo.
  • Software abierto: Versiones optimizadas de frameworks de aprendizaje automático populares, como TensorFlow, PyTorch, y JAX. Google proporciona sistemas operativos (SO) configurados con software esencial para aprovechar los recursos de procesamiento aprovisionados en tus clústeres. Para implementar y administrar una gran cantidad de aceleradores como una sola unidad, puedes usar Cluster Director, Google Kubernetes Engine o Slurm. También puedes implementar tus recursos de forma manual con las APIs de Compute Engine.
  • Opciones de consumo: Varias opciones para aprovisionar clústeres que optimizan los costos y la disponibilidad de hardware según tus necesidades específicas y patrones de carga de trabajo.

Beneficios

AI Hypercomputer tiene los siguientes beneficios:

  • Alto rendimiento y procesamiento útil: Las métricas de procesamiento útil miden la productividad del AA. AI Hypercomputer optimiza las capas de programación, tiempo de ejecución y organización.
  • Puesta en marcha rápida: AI Hypercomputer proporciona herramientas, como Cluster Director y planos, que te permiten implementar de forma confiable y repetida grandes cantidades de recursos optimizados para aceleradores que están configurados para admitir tus cargas de trabajo de IA y AA más exigentes.
  • Capa de almacenamiento optimizada para el rendimiento: usa servicios de almacenamiento de alto rendimiento, como Cloud Storage y Google Cloud Managed Lustre, para proporcionar almacenamiento escalable, de alta capacidad de procesamiento y baja latencia para cargas de trabajo de IA y AA.

Casos de uso

AI Hypercomputer se diseñó para satisfacer las necesidades de los siguientes casos de uso:


Caso de uso

Ejemplos de cargas de trabajo

Cargas de trabajo de IA y AA a gran escala

  • Entrenamiento distribuido de IA generativa
  • Inferencia de IA generativa
  • Detección de fraudes
  • Modelos de recomendación

Computación de alto rendimiento (HPC)

  • Simulaciones complejas
  • Descubrimiento de fármacos, plegamiento de proteínas y análisis genómico
  • Análisis de riesgos y operaciones cuantitativas

¿Qué sigue?