Panoramica di AI Hypercomputer

AI Hypercomputer è un sistema di supercomputing ottimizzato per supportare i workload di intelligenza artificiale (AI) e machine learning (ML). Si tratta di un sistema integrato di hardware ottimizzato per le prestazioni, software open source, framework ML e modelli di consumo flessibili.

Il sistema AI Hypercomputer incorpora best practice e progettazione a livello di sistema per aumentare l'efficienza e la produttività durante il pre-addestramento, l'ottimizzazione e la distribuzione dell'AI.

Architettura di sistema

AI Hypercomputer è composto dai seguenti livelli:

  • Infrastruttura ottimizzata per il rendimento: contiene risorse di accelerazione, networking e archiviazione che forniscono le funzionalità di computing per supportare i tuoi carichi di lavoro.
  • Software open source: versioni ottimizzate dei framework di machine learning più diffusi, come TensorFlow, PyTorch e JAX. Google fornisce sistemi operativi (OS) configurati con software essenziali per sfruttare le risorse di calcolo di cui è stato eseguito il provisioning nei cluster. Per eseguire il deployment e gestire un numero elevato di acceleratori come singola unità, puoi utilizzare Cluster Director, Google Kubernetes Engine o Slurm. In alternativa, puoi eseguire il deployment manuale delle risorse utilizzando le API Compute Engine.
  • Opzioni di consumo: più opzioni per il provisioning dei cluster che ottimizzano i costi e la disponibilità dell'hardware in base alle tue esigenze specifiche e ai pattern di workload.

Vantaggi

AI Hypercomputer offre i seguenti vantaggi:

  • Rendimento e goodput elevati: le metriche Goodput misurano la produttività ML. AI Hypercomputer ottimizza i livelli di pianificazione, runtime e orchestrazione.
  • Inizia rapidamente: AI Hypercomputer fornisce strumenti, come Cluster Director e blueprint, che ti consentono di eseguire il deployment in modo affidabile e ripetuto di un numero elevato di risorse ottimizzate per l'acceleratore configurate per supportare i tuoi workload di AI e ML più impegnativi.

Casi d'uso

AI Hypercomputer è stato progettato per soddisfare le esigenze dei seguenti casi d'uso:


Caso d'uso

Carichi di lavoro di esempio

Workload di AI e ML su larga scala

  • Addestramento distribuito dell'IA generativa
  • Inferenza dell'AI generativa
  • Rilevamento di frodi
  • Modelli per i suggerimenti

Computing ad alte prestazioni (HPC)

  • Simulazioni complesse
  • Indagine farmaceutica, folding delle proteine e analisi genomica
  • Analisi del rischio e trading quantitativo

Passaggi successivi