Panoramica di AI Hypercomputer

AI Hypercomputer è un sistema di supercomputing ottimizzato per supportare i workload di intelligenza artificiale (AI) e machine learning (ML). Si tratta di un sistema integrato di hardware ottimizzato per le prestazioni, software open source, framework ML e modelli di consumo flessibili.

Il sistema AI Hypercomputer incorpora best practice e progettazione a livello di sistema per aumentare l'efficienza e la produttività durante il pre-addestramento, l'ottimizzazione e la distribuzione dell'AI.

Architettura di sistema

AI Hypercomputer è composto dai seguenti livelli:

  • Infrastruttura ottimizzata per le prestazioni: contiene risorse di accelerazione, networking e archiviazione che forniscono le funzionalità di computing per supportare i workload.
  • Software open source: versioni ottimizzate di framework di machine learning diffusi come TensorFlow, PyTorch e JAX. Google fornisce sistemi operativi (OS) configurati con software essenziali per sfruttare le risorse di calcolo di cui è stato eseguito il provisioning nei cluster. Per eseguire il deployment e gestire un numero elevato di acceleratori come una singola unità, puoi utilizzare Cluster Director, Google Kubernetes Engine o Slurm. In alternativa, puoi eseguire il deployment manuale delle risorse utilizzando le API Compute Engine.
  • Opzioni di consumo: più opzioni per il provisioning dei cluster che ottimizzano i costi e la disponibilità dell'hardware in base alle esigenze specifiche e ai pattern di workload.

Vantaggi

AI Hypercomputer offre i seguenti vantaggi:

  • Prestazioni elevate e goodput: le metriche di goodput misurano la produttività ML. AI Hypercomputer ottimizza i livelli di pianificazione, runtime e orchestrazione.
  • Inizia a utilizzare rapidamente: AI Hypercomputer fornisce strumenti, come Cluster Director e blueprint, che consentono di eseguire il deployment in modo affidabile e ripetuto di un numero elevato di risorse ottimizzate per gli acceleratori configurate per supportare i workload di AI e ML più impegnativi.
  • Livello di archiviazione ottimizzato per le prestazioni: utilizza servizi di archiviazione ad alte prestazioni, come Cloud Storage e Google Cloud Managed Lustre, per fornire un'archiviazione scalabile, a throughput elevato e a bassa latenza per i workload di AI e ML.

Casi d'uso

AI Hypercomputer è stato progettato per soddisfare le esigenze dei seguenti casi d'uso:


Caso d'uso

Esempi di workload

Workload di AI e ML su larga scala

  • Addestramento distribuito dell'AI generativa
  • Inferenza dell'AI generativa
  • Rilevamento di frodi
  • Modelli per i suggerimenti

Computing ad alte prestazioni (HPC)

  • Simulazioni complesse
  • Indagine farmaceutica, folding delle proteine e analisi genomica
  • Analisi del rischio e trading quantitativo

Passaggi successivi